此项研究成果已被 EMNLP 2024 录用。该论文的第一作者是中国人民大学高瓴人工智能学院硕士生程传奇,目前为蚂蚁技术研究院实习生,其主要研究领域为对话系统和多模态大模型。蚂蚁技术研究院副研究员关健为共同第一作者。摘要:此项研究成果已被 EMNLP 2024 录用。该论文的第一作者是中国人民大学高瓴人工智能学院硕士生程传奇,目前为蚂蚁技术研究院实习生,其主要研究领域为对话系统和多模态大模型。蚂蚁技术研究院副研究员关健为共同第一作者。
在满血版o1发布大概两个星期之后,OpenAI又预告了其后继模型o3的到来,让人们对AGI的实现充满了期待。除了强大的语言推理能力外,满血版o1的一项重要能力是能够进行多模态推理,即从“所见”、“所思”到“所得”。然而,在语言推理的研发已经进行得如火如荼之际,多模态推理的研究似乎正方兴未艾。
多模态推理的基础是多模态大模型,其中以视觉语言模型(Visual Language Models)最为受到关注。然而,当前的视觉语言模型在处理某些具体任务时仍面临挑战。例如,在识别图像中细微物体、准确计数等场景下,即使OpenAI-o1也往往难以给出令人满意的结果。这种局限性源于视觉信息本身的特点——与一维的文本相比,视觉信息包含了更为丰富的维度,涉及空间关系、大小比例、背景环境等多个方面。人类在处理此类视觉任务时,通常会采用细致的观察和逐步推理的方式,而这正是目前视觉语言模型所欠缺的能力。
更具挑战性的是,即便研究者们认识到了推理能力对视觉语言任务的重要意义,训练数据的匮乏仍然是一个亟待解决的问题。一方面,视觉语言模型需要从数据中学习如何结合视觉输入和语言模型所有知识进行推理,另一方面,包含完整推理链路的多模态数据却十分稀少。这一矛盾凸显出自动化视觉推理数据合成的重要性。
针对这些问题,来自中国人民大学高瓴人工智能学院和蚂蚁技术研究院的研究团队在EMNLP 2024上提出了一套解决方案。他们基于“由浅入深”(from the least to the most)的理念,设计了一个即插即用的视觉推理框架,并配套开发了一种高效的自下而上数据合成方法。这种方法可以低成本合成高质量视觉推理链。目前该团队已开源了包含百万量级推理链的数据集,希望能够推动多模态推理的研究。
论文标题:From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis
论文地址:https://arxiv.org/pdf/2406.19934
Github:https://github.com/steven-ccq/VisualReasoner
Dataset:https://huggingface.co/datasets/orange-sk/VisualReasoner-1M
1
视觉语言模型的“致命弱点”:为什么简单的问题总是答不对?
尽管视觉语言模型在多项任务上展现出令人瞩目的性能,但在一些对人类而言相对简单的问题上却常常出现错误判断,这严重制约了这些模型在实际场景中的应用。研究团队通过对比多个模型在不同数据上的错误样例,总结出以下3点原因:
1.“老花眼”—— 人类在观察图像时可以自然地将注意力集中到特定区域,并能够灵活地“放大”关注区域以获取更多细节信息。然而,现有的视觉语言模型往往倾向于对图像进行整体性处理,缺乏对局部细节的精确感知能力。这导致模型在需要识别小物体或分析细微特征时表现欠佳。
2.“注意力涣散”——计数问题一直是视觉大模型的痛点,尤其在有混淆项、背景复杂或者部分遮挡的场景下,模型总是会出现多数和漏数的现象。
3.“文盲”——文字信息是视觉信息的重要组成部分,而在文字密集或者出现艺术字的情况下,模型对文字的捕捉能力较差,进而影响了其对于图片内容的理解。
针对这些问题,学术界已有不少专门性的优化工作。但这些方案往往存在两个显著局限:其一是解决思路过于片面,仅针对某个具体问题进行优化;其二是实现方式较为复杂,往往需要修改模型架构或重新训练,难以快速应用。在当前大模型蓬勃发展的背景下,一个理想的解决方案应当具备即插即用的特性,能够在不改变原有模型架构的前提下,全面提升模型的各项能力。
2 由浅入深:即插即用的视觉推理范式
如何让视觉语言模型具备类人的深度思考能力,从而更好地应对复杂的视觉推理任务?研究团队提出了一种 “由浅入深”的多步视觉推理框架。该框架基于任务分解的思想,通过将复杂问题系统地拆解为一系列可控的子问题,最终通过逐步推理得出答案。
该推理范式具有3大优势:
1.逐步拆解,降低任务难度
传统方法往往试图直接解决整体问题,这种做法在面对复杂场景时容易力不从心。而所提推理框架采用“分而治之”的策略,将复杂问题分解为多个明确且简单的子任务。
2.推理链路透明,结果可解释
当前主流的视觉语言模型往往采用端到端的方式直接输出结果,这种“黑盒式”的处理方式存在两个明显问题:(1)难以理解模型的决策依据;(2)无法验证推理过程的正确性。相比之下,所提框架将推理过程完全透明化,每一步推理都可被追踪和验证。这种设计不仅提升了模型输出的可信度,也为后续优化提供了清晰的方向。
3.开箱即用,无需额外设置
所提框架无需修改原有模型架构,不依赖额外的训练过程,可在任意视觉语言模型上即插即用。实验结果表明,该框架能够在多个主流视觉语言模型上实现显著且稳定的性能提升。
3 “由浅入深”推理框架实现细节
1.工具定义
为了模拟人类在视觉任务中的认知过程,研究团队设计了四种专门的工具,每种工具都对应人类处理视觉信息时的特定能力:
定位工具 (Grounding Tool) 通过接收自然语言描述,在图像中精确定位相应的目标区域,并输出标准化的边界框(bounding box)。这一工具模拟了人类在视觉任务中首先锁定关注区域的行为,为后续的细节分析提供准确的空间定位信息。
高亮工具 (Highlight Tool)则模拟人类的选择性注意力机制,根据文本描述在图像中创建高亮遮罩,突出显示需要重点关注的区域,同时有效降低其他区域带来的干扰信息。这种选择性注意力机制使模型能够更专注地处理关键信息。
文本工具 (OCR Tool)专门负责提取和理解图像中的文字信息。与普通的视觉特征不同,文字承载了更为明确和丰富的语义信息,需要特殊的处理机制。该工具能够准确识别各种场景下的文本内容,为后续的推理过程提供关键的文本线索。
问答工具 (Answer Tool) 作为整个推理框架的决策中枢,基于现有的视觉语言模型构建,能够有效整合来自其他工具的多模态信息,并生成最终答案。这一工具采用即插即用的设计理念,无需额外训练即可与不同的视觉语言模型协同工作。
2.任务拆解
给定一个原始问题和原始图片,所提推理范式会将复杂问题逐步分解为一系列相互关联的子任务。每个子任务都与特定工具相对应,通过工具的调用获得阶段性结果。
值得注意的是,与一次性完成问题拆解不同,该推理范式的拆解是分多步进行的,每步之间存在依赖。这是因为动态的推理更加贴近人类解决视觉问题时的行为模式。一方面,历史步骤得到的信息会对当前步骤产生影响,因此需要动态调整推理链路;另一方面,随着推理进行,其中一些步骤涉及到图像内容的修改(例如裁剪和放大)。在完成所有必要的推理步骤后,系统最终调用问答工具,整合全部推理结果,生成最终答案。
推理框架示意图
4 自下而上的数据合成方法
视觉推理数据的匮乏一直是制约相关研究发展的关键瓶颈。虽然目前已有部分数据集包含推理链信息,但这些数据集存在两个主要局限:一是数据规模过小,难以支撑大规模模型训练;二是推理链以纯文本形式呈现,更像是结果说明而非真实的推理过程。为突破这一瓶颈,研究团队基于所提推理框架设计了一套自下而上数据合成方法。该方法能够以低成本自动生成高质量的视觉推理链数据。具体来说,该方法由如下4个模块组成:
1.实体识别
给定一张图片,实体识别模块从中抽取出可被识别的实体,返回实体名称与位置信息。
实体识别
2.多级节点构建
在完成实体抽取的基础上,构建3类不同层次的节点。每个节点由若干实体组成,并配有不同粒度的文档。3类节点分别是:
单个实体(Single-Entity):最低层次的节点,仅包含单个实体。该节点的文档由多个结构化的属性组成,包含位置、大小、颜色、文本内容等。每个属性使用专门的工具完成标注,目的是记录实体的详细情况。
实体组合(Entity-Group):中间层次的节点,包含相邻的若干个实体。该节点的文档为一句简短的文本描述,目的是简要概述节点包含的内容。
整张图片(Whole-Image):最高层次的节点,包含整张图片。该节点的文档为一段详细的描述,目的是尽可能地捕捉细节信息。
多级节点构建
3.子问题设计
推理过程由一系列简单的子问题及其对应的工具调用方式组成。在推理过程合成阶段,系统首先从已构建的节点集合中采样出一个节点链,并通过精心设计的规则来约束相邻节点间的连接关系。为确保推理过程的合理性,链的最后一个节点必须是“整张图片”节点。对于链中的每一对相邻节点,系统会利用一个称为“Questioner”的语言模型来设计子问题。具体而言,在给定节点对应的文本描述信息以及期望使用的工具后,Questioner会生成一个针对头节点特定属性的子问题,同时输出解答该问题所需的工具参数。通过反复迭代这一过程,最终可以得到一系列逻辑连贯的子问题,从而构建出完整的推理路径。
子问题设计
4.主问题合成
给定一系列有序的节点,在完成两两之间的子问题生成后,接下来要进行的就是主问题的合成。主问题合成模块会逆序遍历节点,以迭代更新的方式逐步合成主问题。每次更新时,系统会利用一个称为“Combiner”的语言模型接收中间态主问题Q*和当前子问题q,将q合并进入Q*。完成遍历后即可得到主问题。
主问题合成
该过程中涉及到的子问题设计模型Questioner和主问题合成模型Combiner均已开源。通过这种方式,研究团队构建并开源了百万级推理数据集。
5 实验效果
1.多个场景,一致提升
研究团队在四个具有代表性的基准测试集(GQA、TextVQA、ST-VQA和TallyQA)上进行了系统性评估。实验结果展现出"由浅入深"推理框架的显著优势:
场景普适性:测试集覆盖多样化的视觉任务场景,包含一般性视觉问答、文本视觉问答和计数等典型任务,“由浅入深”推理框架在所有任务类型上均实现了显著性能提升;
模型适应性:实验横向对比了不同架构的视觉语言模型,覆盖多种模型规格,验证结果表明“由浅入深”推理框架能够稳定提升各类模型的性能。
实验结果(其中“+Reasoner”表示本文提出的推理框架)
2.更大规模,更好效果
研究团队通过控制变量实验,系统考察了训练数据规模对性能的影响。结果显示性能随数据规模增长呈现持续上升趋势,尚未出现明显的性能饱和现象,仍具有较大的性能提升空间。这也证明了自动合成大规模数据的必要性。而合成同样规模的数据,若调用闭源模型接口则花费是巨大的。使用本文提出的自动化合成框架,最低只需要一张显卡即可完成——速度上甚至更快!
训练数据集的增大有助于性能提升
3.在更先进的视觉语言模型上仍然提升显著
为了验证所提框架在更先进的视觉语言模型上的效果,作者还对Qwen-VL等新一代模型进行了实验。考虑到这类模型本身就具备感知图像中边界框等能力,可能已经在一定程度上继承了外部工具的功能,作者将合成的数据集转换为端到端格式——即按顺序将每个推理步骤的输入和输出组合在一起,从而避免显式调用工具带来的计算开销。实验结果表明:
在端到端版本的数据集上微调后的Qwen-VL模型在所有数据集上都取得了显著提升。
使用所提方法并没有带来明显的时间开销增加,每个样本的处理时间仅从原始模型的1.1秒略微增加到1.4秒。
上述结果进一步证实了本文方法的实用性和高效性。
4.样例展示
6 结语
本研究提出了一种“由浅入深”的视觉推理范式,通过将复杂的合成任务分解为一系列简单的子任务,并利用自下而上的数据合成方法,成功地自动构建了大规模的视觉推理数据集。在多个视觉问答基准测试集上的实验结果表明,该范式能够显著提升现有视觉语言模型的推理能力。这一成果为增强视觉语言模型的推理能力提供了新的范式。展望未来,我们将继续深化这一研究方向,探索更复杂的推理模式和更广泛的应用场景,从而实现 “像人类一样思考,获得真正通用的推理能力”。
来源:AI科技评论一点号