深度解读 AI 视频推理,Video-LMM:大模型看懂视频的关键技术

B站影视 韩国电影 2025-10-14 11:49 1

摘要:过去,我们觉得 AI 能识别一张图片里的猫就算“智能”了。现在,我们希望它看完一段悬疑案件相关的视频,不仅要说出里面发生了什么,还要能分析人物关系,预测下一步剧情,甚至找出破案的关键线索。

大模型看懂视频,可能是 AI 进入物理世界的关键入口,因为我们人类看世界,其实和看视频类似。

让 AI 看懂视频,并且像人一样思考,这事儿现在到哪一步了?

过去,我们觉得 AI 能识别一张图片里的猫就算“智能”了。现在,我们希望它看完一段悬疑案件相关的视频,不仅要说出里面发生了什么,还要能分析人物关系,预测下一步剧情,甚至找出破案的关键线索。

这已经不是简单的“看图说话”,而是要求 AI 拥有复杂的逻辑和时空推理能力。

为了实现这个目标,一种叫做“视频大型多模态模型” (Video-Large Multimodal Models) 的技术应运而生。简单说,就是给一个强大的语言模型大脑,配上一双能看视频的“眼睛”,也就是视觉编码器。

但光把眼睛和大脑连起来还不够,真正让它从一个基础的感知系统,进化成一个能进行复杂推理智能体,关键在于一个叫做“后训练” (post-training) 的过程。

一篇多所高校联合发布的论文,就是来解答这些关键技术的:

AI 看视频,经历了哪几重境界?

AI 看视频大概可以分为三个时代。

CNN+RNN 时代。

这个时期,AI 像看幻灯片。CNN (卷积神经网络) 负责看懂每一帧图像,RNN (循环神经网络) 负责把这些单帧的理解串起来,形成对时间流逝的感知。这种方法的局限性很明显,就像我们一帧一帧地看电影,很容易就忘了前面的剧情,处理不了复杂的长期依赖关系。

Transformer 时代。

Transformer 模型的出现,让 AI 摆脱了“线性”看视频的束缚。它能同时关注视频里的多个片段,更好地理解不同片段之间的关联,尤其擅长做视频和文字的匹配、检索任务。这个阶段的 AI,像一个优秀的图书管理员,你给它一段文字描述,它能很快帮你找到对应的视频片段。

然后就是我们现在所处的“视频编码器+大语言模型”时代。

科学家们想出了一个策略:让一个专门的视觉编码器负责“看”,把视频内容转化成语言模型能理解的“语言”,然后把这些信息喂给语言模型大脑去“思考”和“回答”。

语言模型在互联网海量的文本数据上进行的自监督学习,已经涌现出了惊人的知识、推理和交互能力。现在,只需要教会这个大脑如何理解视觉信息就行了。

在纯粹的视觉领域,还没有找到简单有效的方法,来让模型自发地从海量视频数据中学习。所以,目前来看,“视频编码器+大语言模型”虽然不是最原生的方法,但在计算效率和工程复用性上,非常有效和受欢迎。

让模型一步一步成长

一个刚连接好视觉编码器和语言模型的 Video-LMM,就像一个天赋异禀但没上过学的孩子。它有潜力,但不知道如何与人交流,如何遵循指令,如何有条理地解决问题。

后训练的第一步,就是“监督微调” (Supervised Fine-Tuning, SFT),也就是给它上“文化课”,让它学会规矩,掌握基础知识。

“模态整合”是最基础的一步,目的是让语言模型的大脑,能看懂视觉编码器这双眼睛传来的信号。具体做法通常是用大量的图片配文字、视频配文字的数据对来进行训练。比如,给模型看一张狗的照片,告诉它这叫“狗”。

通过这种方式,模型慢慢就把视觉特征和语言概念对应起来了。连接视觉编码器和语言模型的部分,通常是一个简单的线性层或者 MLP (多层感知器),它的作用就像一个翻译官,把视觉语言翻译成大脑能懂的语言。

当模型学会了看懂常规的视频后,我们可能希望它在某些专业领域表现得更好。比如,让它去看懂医学影像视频,或者工厂里的异常操作监控视频。这时候就需要用特定领域的数据对它进行“专科培训”。

另一个方向是赋予它特殊能力,比如时间定位。你看完一段视频,问它“那个男人是什么时候摔倒的?”,模型需要能准确地回答出“在视频的第 1 分 15 秒到 17 秒之间”。

这就是通过领域适应训练出来的能力。不过,这种专科培训有时会有副作用,可能会让模型忘记一些通用的指令跟随能力,所以往往需要后续的训练来弥补。

“视频指令微调”则是让模型变得“听话”和“好用”的关键。我们用大量的“指令-回答”数据对来训练它。比如,指令是“总结一下这个视频”,模型就应该生成一段简洁的摘要;指令是“找出视频里的关键帧”,模型就应该输出对应帧的索引。

经过这个阶段的训练,模型才能真正成为一个可以交互的助手,而不是一个只会做特定任务的工具。

在这些微调方法之上,还有一种更高级的“补习班”,叫做“思维链微调” (Chain-of-Thought SFT, CoT-SFT)。

我们希望模型不仅能给出正确答案,还能告诉我们它是怎么想的。就像我们做数学题,只写一个答案不行,还要写出解题步骤。

思维链微调就是用带有详细推理过程的数据来训练模型。比如,回答一个视频问答题,数据里的答案不再是一个简单的选项,而是一段完整的分析过程:“第一步,分析用户的问题是什么;第二步,观察视频里的场景;第三步,结合场景和问题进行推理;第四步,得出结论并解释原因。”

用这种“过程全记录”的数据来训练模型,好处是显而易见的。这让模型的决策过程变得透明,方便我们理解和纠错。更长的、更详细的推理过程,本身就能提高最终答案的准确率。

早期的思维链是纯文本的,模型在推理时可能会脱离视频内容,产生“视觉幻觉”。

为了解决这个问题,后来的方法开始将推理步骤和视频里的具体证据(比如时间戳、画面区域)绑定起来。比如,模型在推理时会说:“在视频的第 35 秒,我看到了一个人拿起了一个红色的杯子,这证明了……” 这种有理有据的推理,大大降低了幻觉的风险。

但是,思维链微调也有它的天花板。训练数据里的推理路径通常是固定的,是人类预先设定好的。模型只是在模仿这些固定的套路,缺乏灵活性和自主探索能力。如果遇到一个新问题,预设的路径不是最优解怎么办?如果推理过程中一步走错了,后面是不是就全错了?

这种静态的学习范式,效果高度依赖于训练数据的质量。

为了让模型学会更抽象、更灵活的解决问题的能力,研究者们把目光投向了另一个强大的工具:强化学习。

思维链微调,成了通往强化学习的“起点”,即为模型提供一个稳定的、结构化的“冷启动”状态。

用“胡萝卜加大棒”调教模型

监督微调是老师手把手地教学生解题,强化学习 (Reinforcement Learning, RL) 是把学生扔到考场里,让他自己做题,做对了给奖励,做错了给惩罚。通过不断的试错和反馈,学生自己会摸索出最高效的解题策略。

在视频模型领域,这种“胡萝卜加大棒”的方法,正在变得越来越主流。

传统的强化学习方法,比如 PPO (近端策略优化),需要先训练一个“奖励模型”,这个模型就像一个裁判,负责给 AI 生成的每一个答案打分。但训练这个裁判本身就很麻烦,而且裁判的品味也可能是有偏见的。

近期的研究趋势,是绕过这个主观的“裁判”,直接用可验证的、客观的结果来作为奖励。这就是“组相对策略优化” (Group Relative Policy Optimization, GRPO) 的核心思想。

GRPO 的过程很有意思。针对一个问题,我们让模型用当前的策略,生成一大堆不同的答案和推理过程。然后,我们用一个预设的、绝对客观的规则来检查这些答案。比如,如果问题是选择题,答案对不对是一目了然的;如果问题是时间定位,预测的时间段和标准答案的重合度 (IoU) 是可以精确计算的。

有了这些客观的分数,我们就可以计算出这一堆答案的平均分。高于平均分的,就是“好”的尝试,我们就调整模型参数,让它以后更倾向于产生类似这样的推理路径;低于平均分的,就是“坏”的尝试,我们就让模型以后尽量避免。

整个过程就像一个教练带着一支球队反复观看比赛录像。教练不需要给每个动作打一个主观分数,他只需要告诉队员们:“最后进球的这次进攻,我们多学学;那个导致丢球的失误,以后别再犯了。” 通过这种基于最终结果的群体性复盘,整个球队的战术水平就会不断提升。

为了让这种训练方式更适合复杂的视频任务,研究者们还设计了各种“变种”GRPO 算法。

比如“时间 GRPO”。为了确保模型是真正理解了视频的时序关系,而不是靠猜某一帧的静态画面蒙对答案,训练时会故意打乱视频帧的顺序。如果模型在正常顺序下表现好,在乱序下表现差,就给予额外奖励。这等于是在告诉模型:“靠小聪明蒙对是不行的,你必须真正理解前因后果。”

再比如“回归 GRPO”。它将优化过程看作是让模型的“得分”向客观的“优势分”(即比平均分高出多少)回归,使得训练过程更稳定。

还有“令牌加权优势 GRPO”。在一段长长的思维链里,不是每个词都同等重要。这个方法会给那些更关键的、信息量更大的词(令牌)更高的权重,让奖励和惩罚的信号能更精确地传递到关键步骤上。

当然,强化学习的效果,很大程度上取决于“奖励函数” (Reward Function) 设计得好不好。这个“游戏规则”必须设计得天衣无缝,才能引导模型走向我们期望的方向,同时防止它“钻空子”(也就是所谓的奖励黑客)。

一个好的视频推理奖励函数,通常是一个组合套餐,包含了多个维度的考量:

格式和保真度:模型的回答格式对不对?有没有胡说八道?推理过程和视频内容能不能对得上?答案正确性:最核心的指标,回答是否准确。时间定位:预测的时间戳准不准?和标准答案的重叠度高不高?时空定位:不仅要找对时间,还要在画面里框出正确的物体或区域。预算意识:模型是不是在有限的计算资源(比如只看一部分关键帧)内解决了问题?有没有浪费算力反复看同一个片段?验证器信号:引入外部的工具或模型来交叉验证答案的可靠性。

通过把这些不同维度的奖励加权组合起来,我们就能全方位地引导模型,让它在保持准确的同时,也变得更高效、更可靠、更诚实。

再让模型更聪明点

一个平时成绩很好的学生,到了考场上,也需要一些应试技巧才能发挥出最佳水平。

对于视频模型来说,这些“应试技巧”就是在测试或推理阶段,不改变模型参数,通过一些计算策略来提升表现。这被称为“测试时扩展” (Test-Time Scaling, TTS)。

一种常见的技巧是“束搜索” (Beam Search)。当模型生成一句话描述时,它不是一条路走到黑。在每一步,它都会保留几种最可能的候选词,像一个分叉的树枝。最后,它会从所有可能的路径中,选择一条整体概率最高的句子作为最终输出。相比于每一步都选择最可能的那一个词(贪婪解码),束搜索能生成更流畅、更自然的文本。

另一种强大的技巧是“思维链提示” (Chain-of-Thought Prompting)。即使模型在训练时没有专门学过思维链,我们也可以在提问的时候,通过指令引导它“一步一步地思考”。比如,在问题前面加上一句“请详细分析你的推理过程,然后再给出答案”。这个简单的提示,就能像打开一个开关一样,激活模型的推理潜力,让它表现得更聪明,答案也更准确。

更进一步,我们可以使用“自洽性解码” (Self-Consistency Decoding)。这个方法有点像“集体投票”。我们让模型针对同一个问题,用不同的随机性生成好几个不同的推理路径和答案。然后,我们看看哪个答案出现的次数最多,就把它作为最终的答案。这个简单的投票机制,能有效地过滤掉那些偶然的、不靠谱的推理错误,提升最终答案的可靠性。就像一个侦探,不会只根据一条线索就下结论,而是会综合多方证据,找出最一致的那个解释。

最新的进展还引入了“基于置信度的迭代推理”。模型在给出答案的同时,还会评估一下自己对这个答案的“信心”有多大。如果信心不足,它就不会草率地输出,而是会主动要求“再看一遍视频里的某个片段”,或者“再多想一会儿”,进行一轮或多轮的迭代优化,直到它觉得自己的答案足够可信,或者计算预算用完了为止。

研究团队很贴心地将所有这些研究成果整理成一个表,包含代码和模型的链接:

视频生成和理解技术的应用场景非常广阔,从智能监控、自动驾驶、影片剪辑,到交互式教育和娱乐,几乎无处不在。

但项技术依然面临着严峻的挑战。

首当其冲的就是可扩展性。目前的大多数模型,处理几十秒或者几分钟的短视频还行,但要让它们看完一部两个小时的电影,并回答关于整部电影剧情的问题,计算成本和内存消耗会呈指数级增长。如何高效地处理长视频,是所有研究者都在努力攻克的难题。

另外在强化学习中,如何设计一个能完美捕捉我们所有需求的奖励函数,同时又不会被模型找到漏洞利用,是一门很深的艺术。

Video-LMM 的进化之路,正是人工智能走向通用智能的一个缩影。

当 AI 真正看懂视频,它就能完美生成视频,虚拟和现实就这样连接起来。

参考资料:

来源:算泥社区

相关推荐