深度解读 AI 视频推理，Video-LMM：大模型看懂视频的关键技术

摘要：过去，我们觉得 AI 能识别一张图片里的猫就算“智能”了。现在，我们希望它看完一段悬疑案件相关的视频，不仅要说出里面发生了什么，还要能分析人物关系，预测下一步剧情，甚至找出破案的关键线索。

大模型看懂视频，可能是 AI 进入物理世界的关键入口，因为我们人类看世界，其实和看视频类似。

让 AI 看懂视频，并且像人一样思考，这事儿现在到哪一步了？

过去，我们觉得 AI 能识别一张图片里的猫就算“智能”了。现在，我们希望它看完一段悬疑案件相关的视频，不仅要说出里面发生了什么，还要能分析人物关系，预测下一步剧情，甚至找出破案的关键线索。

这已经不是简单的“看图说话”，而是要求 AI 拥有复杂的逻辑和时空推理能力。

为了实现这个目标，一种叫做“视频大型多模态模型” (Video-Large Multimodal Models) 的技术应运而生。简单说，就是给一个强大的语言模型大脑，配上一双能看视频的“眼睛”，也就是视觉编码器。

但光把眼睛和大脑连起来还不够，真正让它从一个基础的感知系统，进化成一个能进行复杂推理智能体，关键在于一个叫做“后训练” (post-training) 的过程。

一篇多所高校联合发布的论文，就是来解答这些关键技术的：

AI 看视频，经历了哪几重境界？

AI 看视频大概可以分为三个时代。

CNN+RNN 时代。

这个时期，AI 像看幻灯片。CNN (卷积神经网络) 负责看懂每一帧图像，RNN (循环神经网络) 负责把这些单帧的理解串起来，形成对时间流逝的感知。这种方法的局限性很明显，就像我们一帧一帧地看电影，很容易就忘了前面的剧情，处理不了复杂的长期依赖关系。

Transformer 时代。

Transformer 模型的出现，让 AI 摆脱了“线性”看视频的束缚。它能同时关注视频里的多个片段，更好地理解不同片段之间的关联，尤其擅长做视频和文字的匹配、检索任务。这个阶段的 AI，像一个优秀的图书管理员，你给它一段文字描述，它能很快帮你找到对应的视频片段。

然后就是我们现在所处的“视频编码器+大语言模型”时代。

科学家们想出了一个策略：让一个专门的视觉编码器负责“看”，把视频内容转化成语言模型能理解的“语言”，然后把这些信息喂给语言模型大脑去“思考”和“回答”。

语言模型在互联网海量的文本数据上进行的自监督学习，已经涌现出了惊人的知识、推理和交互能力。现在，只需要教会这个大脑如何理解视觉信息就行了。

在纯粹的视觉领域，还没有找到简单有效的方法，来让模型自发地从海量视频数据中学习。所以，目前来看，“视频编码器+大语言模型”虽然不是最原生的方法，但在计算效率和工程复用性上，非常有效和受欢迎。

让模型一步一步成长

一个刚连接好视觉编码器和语言模型的 Video-LMM，就像一个天赋异禀但没上过学的孩子。它有潜力，但不知道如何与人交流，如何遵循指令，如何有条理地解决问题。

后训练的第一步，就是“监督微调” (Supervised Fine-Tuning, SFT)，也就是给它上“文化课”，让它学会规矩，掌握基础知识。

“模态整合”是最基础的一步，目的是让语言模型的大脑，能看懂视觉编码器这双眼睛传来的信号。具体做法通常是用大量的图片配文字、视频配文字的数据对来进行训练。比如，给模型看一张狗的照片，告诉它这叫“狗”。

通过这种方式，模型慢慢就把视觉特征和语言概念对应起来了。连接视觉编码器和语言模型的部分，通常是一个简单的线性层或者 MLP (多层感知器)，它的作用就像一个翻译官，把视觉语言翻译成大脑能懂的语言。

当模型学会了看懂常规的视频后，我们可能希望它在某些专业领域表现得更好。比如，让它去看懂医学影像视频，或者工厂里的异常操作监控视频。这时候就需要用特定领域的数据对它进行“专科培训”。

另一个方向是赋予它特殊能力，比如时间定位。你看完一段视频，问它“那个男人是什么时候摔倒的？”，模型需要能准确地回答出“在视频的第 1 分 15 秒到 17 秒之间”。

这就是通过领域适应训练出来的能力。不过，这种专科培训有时会有副作用，可能会让模型忘记一些通用的指令跟随能力，所以往往需要后续的训练来弥补。

“视频指令微调”则是让模型变得“听话”和“好用”的关键。我们用大量的“指令-回答”数据对来训练它。比如，指令是“总结一下这个视频”，模型就应该生成一段简洁的摘要；指令是“找出视频里的关键帧”，模型就应该输出对应帧的索引。

经过这个阶段的训练，模型才能真正成为一个可以交互的助手，而不是一个只会做特定任务的工具。

在这些微调方法之上，还有一种更高级的“补习班”，叫做“思维链微调” (Chain-of-Thought SFT, CoT-SFT)。

我们希望模型不仅能给出正确答案，还能告诉我们它是怎么想的。就像我们做数学题，只写一个答案不行，还要写出解题步骤。

思维链微调就是用带有详细推理过程的数据来训练模型。比如，回答一个视频问答题，数据里的答案不再是一个简单的选项，而是一段完整的分析过程：“第一步，分析用户的问题是什么；第二步，观察视频里的场景；第三步，结合场景和问题进行推理；第四步，得出结论并解释原因。”

用这种“过程全记录”的数据来训练模型，好处是显而易见的。这让模型的决策过程变得透明，方便我们理解和纠错。更长的、更详细的推理过程，本身就能提高最终答案的准确率。

早期的思维链是纯文本的，模型在推理时可能会脱离视频内容，产生“视觉幻觉”。

为了解决这个问题，后来的方法开始将推理步骤和视频里的具体证据（比如时间戳、画面区域）绑定起来。比如，模型在推理时会说：“在视频的第 35 秒，我看到了一个人拿起了一个红色的杯子，这证明了……” 这种有理有据的推理，大大降低了幻觉的风险。

但是，思维链微调也有它的天花板。训练数据里的推理路径通常是固定的，是人类预先设定好的。模型只是在模仿这些固定的套路，缺乏灵活性和自主探索能力。如果遇到一个新问题，预设的路径不是最优解怎么办？如果推理过程中一步走错了，后面是不是就全错了？

这种静态的学习范式，效果高度依赖于训练数据的质量。

为了让模型学会更抽象、更灵活的解决问题的能力，研究者们把目光投向了另一个强大的工具：强化学习。

思维链微调，成了通往强化学习的“起点”，即为模型提供一个稳定的、结构化的“冷启动”状态。

用“胡萝卜加大棒”调教模型

监督微调是老师手把手地教学生解题，强化学习 (Reinforcement Learning, RL) 是把学生扔到考场里，让他自己做题，做对了给奖励，做错了给惩罚。通过不断的试错和反馈，学生自己会摸索出最高效的解题策略。

在视频模型领域，这种“胡萝卜加大棒”的方法，正在变得越来越主流。

传统的强化学习方法，比如 PPO (近端策略优化)，需要先训练一个“奖励模型”，这个模型就像一个裁判，负责给 AI 生成的每一个答案打分。但训练这个裁判本身就很麻烦，而且裁判的品味也可能是有偏见的。

近期的研究趋势，是绕过这个主观的“裁判”，直接用可验证的、客观的结果来作为奖励。这就是“组相对策略优化” (Group Relative Policy Optimization, GRPO) 的核心思想。

GRPO 的过程很有意思。针对一个问题，我们让模型用当前的策略，生成一大堆不同的答案和推理过程。然后，我们用一个预设的、绝对客观的规则来检查这些答案。比如，如果问题是选择题，答案对不对是一目了然的；如果问题是时间定位，预测的时间段和标准答案的重合度 (IoU) 是可以精确计算的。

有了这些客观的分数，我们就可以计算出这一堆答案的平均分。高于平均分的，就是“好”的尝试，我们就调整模型参数，让它以后更倾向于产生类似这样的推理路径；低于平均分的，就是“坏”的尝试，我们就让模型以后尽量避免。

整个过程就像一个教练带着一支球队反复观看比赛录像。教练不需要给每个动作打一个主观分数，他只需要告诉队员们：“最后进球的这次进攻，我们多学学；那个导致丢球的失误，以后别再犯了。” 通过这种基于最终结果的群体性复盘，整个球队的战术水平就会不断提升。

为了让这种训练方式更适合复杂的视频任务，研究者们还设计了各种“变种”GRPO 算法。

比如“时间 GRPO”。为了确保模型是真正理解了视频的时序关系，而不是靠猜某一帧的静态画面蒙对答案，训练时会故意打乱视频帧的顺序。如果模型在正常顺序下表现好，在乱序下表现差，就给予额外奖励。这等于是在告诉模型：“靠小聪明蒙对是不行的，你必须真正理解前因后果。”

再比如“回归 GRPO”。它将优化过程看作是让模型的“得分”向客观的“优势分”（即比平均分高出多少）回归，使得训练过程更稳定。

还有“令牌加权优势 GRPO”。在一段长长的思维链里，不是每个词都同等重要。这个方法会给那些更关键的、信息量更大的词（令牌）更高的权重，让奖励和惩罚的信号能更精确地传递到关键步骤上。

当然，强化学习的效果，很大程度上取决于“奖励函数” (Reward Function) 设计得好不好。这个“游戏规则”必须设计得天衣无缝，才能引导模型走向我们期望的方向，同时防止它“钻空子”（也就是所谓的奖励黑客）。

一个好的视频推理奖励函数，通常是一个组合套餐，包含了多个维度的考量：

格式和保真度：模型的回答格式对不对？有没有胡说八道？推理过程和视频内容能不能对得上？答案正确性：最核心的指标，回答是否准确。时间定位：预测的时间戳准不准？和标准答案的重叠度高不高？时空定位：不仅要找对时间，还要在画面里框出正确的物体或区域。预算意识：模型是不是在有限的计算资源（比如只看一部分关键帧）内解决了问题？有没有浪费算力反复看同一个片段？验证器信号：引入外部的工具或模型来交叉验证答案的可靠性。

通过把这些不同维度的奖励加权组合起来，我们就能全方位地引导模型，让它在保持准确的同时，也变得更高效、更可靠、更诚实。

再让模型更聪明点

一个平时成绩很好的学生，到了考场上，也需要一些应试技巧才能发挥出最佳水平。

对于视频模型来说，这些“应试技巧”就是在测试或推理阶段，不改变模型参数，通过一些计算策略来提升表现。这被称为“测试时扩展” (Test-Time Scaling, TTS)。

一种常见的技巧是“束搜索” (Beam Search)。当模型生成一句话描述时，它不是一条路走到黑。在每一步，它都会保留几种最可能的候选词，像一个分叉的树枝。最后，它会从所有可能的路径中，选择一条整体概率最高的句子作为最终输出。相比于每一步都选择最可能的那一个词（贪婪解码），束搜索能生成更流畅、更自然的文本。

另一种强大的技巧是“思维链提示” (Chain-of-Thought Prompting)。即使模型在训练时没有专门学过思维链，我们也可以在提问的时候，通过指令引导它“一步一步地思考”。比如，在问题前面加上一句“请详细分析你的推理过程，然后再给出答案”。这个简单的提示，就能像打开一个开关一样，激活模型的推理潜力，让它表现得更聪明，答案也更准确。

更进一步，我们可以使用“自洽性解码” (Self-Consistency Decoding)。这个方法有点像“集体投票”。我们让模型针对同一个问题，用不同的随机性生成好几个不同的推理路径和答案。然后，我们看看哪个答案出现的次数最多，就把它作为最终的答案。这个简单的投票机制，能有效地过滤掉那些偶然的、不靠谱的推理错误，提升最终答案的可靠性。就像一个侦探，不会只根据一条线索就下结论，而是会综合多方证据，找出最一致的那个解释。

最新的进展还引入了“基于置信度的迭代推理”。模型在给出答案的同时，还会评估一下自己对这个答案的“信心”有多大。如果信心不足，它就不会草率地输出，而是会主动要求“再看一遍视频里的某个片段”，或者“再多想一会儿”，进行一轮或多轮的迭代优化，直到它觉得自己的答案足够可信，或者计算预算用完了为止。

研究团队很贴心地将所有这些研究成果整理成一个表，包含代码和模型的链接：