MMR-V团队:如何评估视频多模态推理能力?

B站影视 欧美电影 2025-06-09 15:21 2

摘要:北京时间2025年6月4日,来自中国科学院自动化研究所认知与智能决策复杂系统重点实验室和中国科学院大学人工智能学院的朱柯健、金卓然、袁宏邦、李佳淳等研究团队,联合清华大学的涂尚清,在arXiv预印本平台发布了一项名为"MMR-V: What's Left Un

北京时间2025年6月4日,来自中国科学院自动化研究所认知与智能决策复杂系统重点实验室和中国科学院大学人工智能学院的朱柯健、金卓然、袁宏邦、李佳淳等研究团队,联合清华大学的涂尚清,在arXiv预印本平台发布了一项名为"MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos"的研究成果。这项研究针对当前多模态大语言模型在视频推理能力上的不足,提出了一个全新的基准测试集。有兴趣深入了解的读者可以通过arXiv:2506.04141v1 [cs.CV]访问完整论文。

想象一下,当你看一部悬疑电影时,导演往往不会直接告诉你谁是凶手,而是通过各种线索引导你自己推理。现在,人工智能面临着类似的挑战——它能否像人类一样,通过分析视频中分散在不同时间点的线索,得出合理的结论?这正是这项研究要解决的核心问题。

近年来,人工智能在文本推理方面取得了显著进步。OpenAI的o1和Deepseek-R1等模型通过强化学习大幅提升了文本推理能力。与此同时,像o3和o4-mini这样的模型在图像推理任务上也表现出色,它们能够将视觉信息整合到推理过程中,进行深度反思和证据挖掘。然而,当前的研究主要集中在图像上,对更具挑战性的视频推理任务探索有限。

视频天然包含连续且更丰富的多模态信息,需要模型在长距离、多帧之间进行推理和证据挖掘。考虑到这种能力对实际应用如具身智能和智能安防监控至关重要,研究团队提出了一个关键问题:当前的多模态大语言模型能否像在图像任务上那样,在复杂视频上进行深度多模态推理和证据挖掘?

现有的视频基准测试集主要关注感知和理解任务,这些任务通常只需要定位问题中提到的帧(称为"问题帧")并理解相邻帧。例如,注意到男孩被金属框架撞到就足以理解为什么他会撞到女孩。这类任务不足以评估多模态推理能力。研究团队总结了现有基准测试集的局限性:一是即使对于长视频,现有任务通常只依赖于几个相邻帧,未能充分利用视频的长距离序列结构;二是缺乏推理,许多问题可以通过直接感知回答;三是任务不现实,简单的感知和相邻帧理解任务不符合对AI系统强大能力的实际需求。

为了弥补这些不足,研究团队提出了MMR-V基准测试集,它具有以下特点:一是长距离、多帧推理,任务涉及在非相邻视频帧上进行多模态推理,以定位和分析多个证据;二是超越感知,问题不能通过问题帧的直接感知来回答,需要推理和提取隐含含义;三是可靠性,所有任务都经过人工标注,并通过参考最受欢迎的视频评论来降低主观偏见;四是迷惑性,研究团队采用精心设计的标注策略,创建模型对齐的干扰选项,确保测试的挑战性。

研究团队受认知和心理学理论的启发,将MMR-V中的任务分为隐式推理和显式推理两大类。两者的关键区别在于问题是否需要超越表面信息来推断潜在含义。显式推理被定义为可以使用视频中可感知信息解决的问题,比如注意到手中隐藏了两个打火机。隐式推理则需要提取和解释视觉信息背后的潜台词,例如,推断女孩房间号码7象征好运。这更像是对情商(EQ)的评估,测试模型是否能像人类一样,利用对世界知识的深刻理解进行隐式和潜意识推理。

MMR-V包含317个视频和1257个任务。视频跨越六个主要类别,长度从7秒到3771秒不等,平均为277秒。任务进一步分为10个类别和子类别,每个任务采用多项选择格式,平均约有10个选项。任务通常需要推理平均12个视频帧,覆盖约60%的视频时长。所有问题和正确答案都经过人工标注和审核,干扰项则使用精心设计的标注策略生成。

研究团队评估了9个专有模型和11个开源模型在MMR-V上的表现。结果显示,即使表现最好的模型o4-mini也只达到了52.5%的准确率,突显了MMR-V对当前多模态大语言模型的重大挑战。主要发现包括:一是多模态推理挑战,研究发现推理增强策略(如思维链和扩展测试时计算)带来的改进有限,表明MMR-V对当前多模态推理模型提出了更大的挑战;二是更多模态会带来好处,研究发现对于支持所有模态的模型,添加额外的音频模态会提高性能;三是人类-模型差距,在人类实验中,研究团队发现虽然模型在文本推理任务上表现出人类水平的性能,但在多模态特别是视频推理任务上,模型与人类之间仍存在显著差距。

现在,让我们深入了解MMR-V的任务类别和具体内容。

一、隐式推理任务:探寻表象背后的含义

隐式推理关注的是如何将视觉信息背后的隐藏含义纳入推理过程。在这些任务中,表面的视觉线索往往隐藏着更深层次的含义,如隐喻。对人类来说,隐式推理往往基于经验和世界知识自动快速完成,几乎不需要刻意的注意力资源。

隐式推理任务分为五个主要类别:隐喻理解、主题理解、情感识别、评论匹配和隐式符号。

隐喻理解任务要求模型理解实体或环境的隐喻。例如,在一个视频中,模型需要解释棕色外套象征什么。正确的答案是它象征着父亲在困难时期保护家人。

主题理解任务评估模型推断作者通过整个视频传达的主要观点和态度的能力。例如,模型需要回答视频暗示的社会问题是什么,正确答案可能是"人们在购买房屋时面临巨大压力,因为在他们存钱的同时房价不断上涨"。

情感识别任务评估模型分析视频中人物情感状态的能力,以及更高层次的情感,如作者的态度和观众的情感反应。例如,分析一个失去工作的男人最终是否快乐,需要通过观察他在不同时间点的表情和行为来推断。

评论匹配任务测试模型是否能预测视频最合适的观众评论。例如,根据观看视频后选择哪条评论最幽默。这要求模型理解幽默等隐含信息,这对人类来说很容易但对AI模型却很具挑战性。

隐式符号任务测试模型是否能推断和分析视频表面视觉元素下隐藏的文化特征,如国籍、节日、习俗或宗教等。例如,推断视频拍摄地点的民族特征。

二、显式推理任务:挖掘视频中的客观证据

显式推理评估模型是否能基于跨越视频长距离、多帧明确呈现的多模态细节进行推理。虽然解决这些任务需要精细的感知和严格的逻辑推理,但所有信息都是客观存在的,不像隐式推理那样需要理解潜在含义。

显式推理任务包括因果推理、序列结构推理、反直觉推理、跨模态转移推理以及视频类型和意图等五个类别。

因果推理任务评估模型推理视频中因果关系的能力。比如,在一个视频中推断女孩制作贺卡的原因,可能是为了探望生病的男友并祝他早日康复。

序列结构推理任务评估对视频编辑和叙事结构的推理。例如,判断视频是否倒放,或者分析视频中的关键连接元素。这类任务往往需要跨多个视频片段进行分析比较。

反直觉推理任务评估分析与常识相悖信息的能力,需要详细的跨帧分析。例如,分析魔术师如何使物体消失的原理,这往往涉及魔术技巧或特效编辑。

跨模态转移推理任务测试将推理从视频转移到文本、音频、视频或图像的能力。例如,找出与视频主题具有相同含义的名言。

视频类型和意图任务测试分析视频类型(如商业广告、科幻电影、喜剧等)的能力,以及推断视频制作意图。

三、MMR-V的构建过程:确保基准测试的质量与挑战性

为确保MMR-V能有效评估多模态推理能力,研究团队遵循三个原则:一是多帧,问题需要参考长距离、多帧信息,促使模型跨多个视觉线索进行推理;二是深度推理,答案不应从视频中直接感知,而应要求理解潜台词或多模态推理,反映对内容的深刻理解;三是现实性,任务应与现实世界问答需求一致,确保答案符合普通用户理解,不受个人认知偏见或偏见的影响。

在视频收集方面,研究团队手动筛选了多样化的原创视频,并设计了以下检查清单:避免线性、描述性内容,如日常记录或体育广播;选择创意和主题丰富的视频,这些视频通常由创作者有意设计和编辑,往往传达精心设计的主题;与现实世界对齐,优先选择具有活跃评论区和观众参与度的高人气视频;多样化覆盖,确保基准测试在视频类型、主题和时长方面具有广泛覆盖,反映真实世界视频内容的多样性。

在数据标注方面,MMR-V中的所有任务都采用多项选择格式设计,每个任务有一个正确选项和多个错误选项。为确保这些干扰项的质量和合理性,研究团队设计了三种不同的干扰项标注策略:策略1,提示强大的模型GPT-4o直接回答人工标注的问题,如果模型生成不正确答案(经人工验证),则保留为高质量干扰项;策略2,给定人工标注的问题和正确答案,提示GPT-4o生成干扰项;策略3,人工标注者手动构建干扰项。

研究团队对100个问题进行了测试,使用三种策略形成三个测试集。结果显示,策略1生成的干扰项最具迷惑性,显著增加了任务的难度和质量。值得注意的是,在上述测试过程中,当GPT-4o直接回答100个任务时,经人类验证的准确率仅为17%,这反映了当前模型在多模态推理能力上的局限性。

为确保高质量,研究团队还根据构建原则开发了一个检查清单,并邀请人类标注者使用该清单验证任务的准确性和难度。研究团队邀请了至少具有学士学位的五名标注者参与标注和审查过程。

四、实验结果与分析:揭示当前模型的局限与未来方向

在实验设置方面,研究团队对9个专有模型和11个开源模型进行了广泛评估。主要实验在两种设置下进行:零样本和零样本+思维链(CoT),以检验推理是否能提高性能。此外,研究团队还引入了以下类别的比较模型:不同规模的模型,以及"思考"模型及其基础版本(如Gemini-2.0-Flash和Gemini-2.0-Flash-Thinking)。

对于支持全模态输入的模型(如Gemini-2.0-flash),研究团队进一步比较了它们有无音频输入的性能,以评估音频对推理结果的影响。在帧选择方面,由于某些模型仅支持多个图像或短视频剪辑,研究团队标准化了输入帧的数量,并在附录中提供了帧采样的详细信息。

为了提供MMR-V的有意义上限并检验人类-模型差距,研究团队邀请了至少具有学士学位的参与者进行人类实验。研究团队抽样了GPT-4o回答错误的100个任务和回答正确的100个任务进行实验。

主要实验结果表明,MMR-V基准测试对当前多模态大语言模型提出了重大挑战。即使表现最好的模型o4-mini也只达到52.5%的准确率。在开源模型中,Gemma-3-27b-it表现最佳,展示了相对较强的性能,但与专有模型相比仍存在差距。

研究还发现,当前在文本领域相对有效的推理增强策略,如CoT提示推理和扩展测试时计算(即"思考"模型),在MMR-V上提供的收益有限。CoT仅带来0.57%的平均增益,而"思考"模型仅提高2.4%。这表明MMR-V对现有模型的多模态推理能力提出了重大挑战。

通过对抽样模型响应的分析,研究团队发现视觉分析仅占CoT的约10%。这表明当前模型的推理过程主要基于文本(对问题和选项的推理),依赖于对问题帧的视觉感知,而非将视觉推理和证据挖掘整合到CoT中。这种局限阻碍了整体推理性能。

模型在MMR-V基准测试上的表现展现出明显的扩展法则效应。在相同架构下,较小的模型在需要复杂推理的任务上表现较差。例如,较大的模型如Qwen2.5-VL-72B(39.1%)和GPT-4o(44%)优于它们的较小版本Qwen2.5-VL-7B(30.1%)和GPT-4o-mini(34.8%),相对增益分别为9%和9.2%。

在不同任务类型上,研究团队发现模型在隐式任务上的表现优于显式任务(平均增益+7.9%)。通过对任务和模型响应的分析,研究团队发现在隐式任务中,视频创作者通常在整个视频中嵌入隐含含义,产生丰富的视觉线索支持推理。这减少了对多模态推理和线索定位的要求。相比之下,显式任务需要更精细的推理和识别特定证据的能力。

模型在反直觉推理(CIR)、序列结构推理(SSR)和评论匹配(CM)任务上表现特别差。对于CIR和SSR任务,糟糕的表现主要源于当前模型执行多帧推理的能力有限。这两类任务需要模型在长距离视频上进行推理,而非依赖内部知识。然而,模型往往依赖问题帧的表面视觉感知,然后对问题和选项进行文本推理,而非分析定位其他帧中的证据。对于CM任务,结果突显了模型与人类在隐式推理能力上的显著差距。虽然人类可以在最少认知努力的情况下推断幽默和情感等潜在信息,但当前模型始终无法捕捉这些微妙之处。

人类实验结果显示,人类平均得分为86%,这突显了人类-模型之间的显著差距。虽然研究表明模型在文本任务上达到了人类水平的表现,但在多模态推理任务上,模型仍然落后。人类可以轻松识别视频中的线索,而模型往往专注于问题帧,而不是探索其他证据帧。特别是,与模型不同,人类在隐式任务上表现略差,这主要是由于艺术和哲学中高度抽象的隐式理解所带来的挑战。

在输入帧数量的影响方面,研究团队对支持长视频输入的Gemini-2.0-Flash评估了随着帧数增加而性能变化的情况。如图4所示,准确率随帧数增加而提高,但改善率逐渐放缓。通过对CoT的采样和观察,研究团队发现初始增益来自添加证据帧,而放缓主要是由于模型多帧推理能力有限。隐式任务的性能在后期阶段继续提高,因为此类任务的视觉线索通常分散在整个视频中;更多帧往往提供更多线索。相比之下,显式线索更少且更局部化。

对于支持全模态输入的模型,研究团队比较了它们在添加音频模态前后的性能。如表4所示,整体性能随着音频的添加而提高。具体来说,Gemini 2.0-Flash、Gemini 2.0-Flash-Thinking和Phi-4-multimodal-instruct分别提高了1.4%、1.0%和1.0%。这表明推进全多模态模型研究是一个有前景的方向。

为了深入了解模型的错误来源,研究团队对GPT-4o的100个错误响应进行了采样分析。错误的主要来源可归类为:缺乏视觉推理,模型常常无法定位正确的证据帧,缺乏长距离、多帧视觉推理;隐式误解,揭示了模型与人类认知之间的显著理解差距;知识不足,模型缺乏一些内在知识;推理错误,在多步推理过程中出现错误;输出格式问题,模型拒绝或格式错误阻止了答案提取;幻觉,模型引入了虚假或不支持的信息。

在错误案例中,缺乏视觉推理占比最大。这表明当前模型仍然缺乏真正的多模态推理能力。它们往往在简单感知问题帧相邻帧后依赖于基于文本的推理,而不是进行深度、长距离、多帧视频推理。大多数现有推理模型在将多模态信息整合到推理过程中并进行全面分析方面仍然不足。相比之下,o4-mini展示了更好的推理范式。

研究团队进一步分析了模型的CoT,将每个步骤分类为视频或文本分析(如选项),视频分析又分为问题帧和其他帧分析。研究团队从模型中采样了500个CoT,将每个CoT分为10个等长片段,并使用GPT-4.1标记每个片段。如图6所示,MMR-V上表现更好的模型(图中右侧)显示更多的视频分析,特别是对其他帧(红线)的分析。值得注意的是,4o-mini以其对非问题帧的强大分析能力脱颖而出,突显了增强视觉推理和工具使用在多帧视频推理任务中的价值。

五、MMR-V在现有研究中的定位与贡献

现有的视频基准测试主要关注评估模型对视频中视觉元素的感知和直观理解,如动作识别和视频描述。近期的重要工作,如Video-MME、MVBench和MMBench-Video,已经将视频理解扩展到多种任务类型和视频类型,实现了对视频理解能力的更全面评估。此外,LVBench和LongVideoBench等基准测试引入了长视频问答任务。然而,这些任务主要评估模型是否能根据给定问题准确提取长视频中的相关信息,而后续步骤仍然主要是感知导向的。MMR-V的设计目的是评估模型是否能够基于给定问题在视频上执行多帧、长距离、多模态自主推理。

近期的研究大大提升了LLM的推理能力。许多顶级LLM在复杂推理任务上表现良好,但它们的评估主要集中在基于文本的推理上。MLLM在这方面仍缺乏全面评估。当前的多模态推理基准测试主要涉及以图像形式呈现的数学或编码任务,这主要测试视觉识别后的文本推理。真正的多模态推理需要整合深度、纹理和音频等细节进行复杂推理。MMR-V基准测试旨在评估视频任务中的多模态序列推理。

六、结论与未来展望

研究团队提出的MMR-V:视频多模态深度推理基准测试为评估模型在视频内容上的推理能力提供了一个新的视角。所有任务都由人类专家标注,并设计用于评估多模态推理能力。MMR-V对当前模型提出了重大挑战,最佳模型性能仍比人类低33.5%的准确率。这突显了人类和模型在解释和推理视频信息方面的差距。

值得注意的是,o4-mini在MMR-V上取得了最佳结果,这表明将视觉推理整合到CoT中并利用工具使用是解决视频推理任务的有前景方向。研究团队希望MMR-V能作为评估MLLM发展的可靠基准测试,并为推进多模态推理研究提供有价值的见解。

这项研究不仅揭示了当前模型在视频多模态推理方面的局限性,也为未来的研究指明了方向。随着技术的发展,我们可以期待AI系统在理解和推理复杂视频内容方面取得更大突破,最终缩小与人类认知能力之间的差距。

来源:至顶网一点号

相关推荐