DeepSeek-R1“思维学”;苹果:原生多模态模型的Scaling Laws|今日热门论文

B站影视 电影资讯 2025-04-12 13:41 2

摘要:实验表明,RFT 对特定任务的提升具有很高的数据效率。通过对样本有限的时空感知目标进行多任务 RFT,他们开发出了视频 MLLM——VideoChat-R1,其在不牺牲聊天能力的前提下,在时空感知任务上实现了 SOTA,同时展现了时空推理能力。与 Qwen2.

实验表明,RFT 对特定任务的提升具有很高的数据效率。通过对样本有限的时空感知目标进行多任务 RFT,他们开发出了视频 MLLM——VideoChat-R1,其在不牺牲聊天能力的前提下,在时空感知任务上实现了 SOTA,同时展现了时空推理能力。与 Qwen2.5-VL-7B 相比,VideoChat-R1 在时间接地(+31.8)和物体跟踪(+31.2)等任务上的性能提高了数倍。此外,它还提高了通用问答基准的性能,如 VideoMME(+0.9)、MVBench(+1.0)和 Perception Test(+0.9)。这一研究结果凸显了 RFT 在增强视频 MLLM 的专业任务方面的潜力。论文链接:https://arxiv.org/abs/2504.06958整理:学术君如需转载或投稿,请直接在公众号内留言原标题:《DeepSeek-R1“思维学”;苹果:原生多模态模型的Scaling Laws|今日热门论文》

来源:用心教育

相关推荐