用多维精细感知任务解析多模态大语言模型的方向理解能力

B站影视 韩国电影 2025-06-03 16:59 1

摘要:多模态大语言模型(MLLMs)近年来在许多视觉-语言任务上取得了令人瞩目的进展,但它们是否真正理解物体的方向性?这个看似简单的问题,实际上关系到机器人操作、自动驾驶和增强现实等众多实际应用。波士顿大学的研究团队于2025年5月发表了一项开创性研究,深入探究了这

多模态大语言模型(MLLMs)近年来在许多视觉-语言任务上取得了令人瞩目的进展,但它们是否真正理解物体的方向性?这个看似简单的问题,实际上关系到机器人操作、自动驾驶和增强现实等众多实际应用。波士顿大学的研究团队于2025年5月发表了一项开创性研究,深入探究了这个问题。由Keanu Nichols、Nazia Tasnim(共同第一作者)、Yuting Yan、Nicholas Ikechukwu、Elva Zou、Deepti Ghadiyaram和Bryan A. Plummer组成的研究团队创建了一个名为DORI(辨别性方向推理智能)的综合基准测试,专门评估MLLMs对物体方向的理解能力。有兴趣的读者可以通过其GitHub仓库(https://huggingface.co/datasets/appledora/DORI-Benchmark)获取完整数据集。

想象一下,你进入一个房间,需要快速判断哪些物体朝向你,哪些背对你,或者哪些物体彼此面对面。这对人类来说是如此自然的能力,我们甚至不需要思考就能完成。但对于人工智能系统,尤其是多模态大语言模型,这实际上是一项极具挑战性的任务。这项研究正是探索了这些AI系统在理解物体方向方面的能力与局限。

目前的多模态模型评估基准往往将方向理解与其他空间关系(如上/下、物体间距离)混为一谈,或者仅通过少量样本进行测试,无法全面评估模型的方向理解能力。而DORI基准则专门针对物体方向理解设计了一系列精细的测试任务,覆盖了从基础的朝向判断到复杂的多轴旋转理解等多个层次。

研究团队评估了15个最先进的多模态大语言模型,结果令人惊讶:即使是最好的模型在粗粒度方向任务上的准确率也仅达到54.2%,在细粒度方向判断上更是只有33.0%的准确率。更令人担忧的是,当任务涉及参考框架转换或复合旋转时,模型性能会大幅下降。这一发现表明,现有的多模态模型在物体方向理解方面存在根本性的局限,需要在未来的架构设计中专门增强方向表示机制。

一、为什么物体方向理解如此重要?

想象你正在使用增强现实眼镜,你需要系统能够准确判断现实世界中物体的朝向,以便正确放置虚拟对象。或者,你的家用机器人需要知道如何抓取朝向不同方向的物品。再或者,自动驾驶汽车需要判断其他车辆和行人的朝向以做出安全决策。这些场景都需要AI系统具备强大的物体方向理解能力。

人类从婴儿时期就开始发展方向认知能力,先掌握基本的正面朝向识别,然后逐渐发展出复杂的心理旋转操作能力。这种能力依赖于我们的感觉运动经验、本体感受整合和神经形成。简单来说,我们通过与环境的实际互动,发展出了理解物体如何在空间中定向的能力。

研究团队指出,物体方向理解涉及复杂的多阶段处理,包括内在物体特征识别、观察者视角、角度关系和参考框架转换。这就像你在三维迷宫中导航时,不仅需要知道自己的位置,还需要理解周围物体的朝向,以及它们与你和彼此之间的相对关系。

尽管多模态大语言模型在许多视觉-语言任务上表现出色,但先前的研究已经表明,它们在物体方向任务上普遍表现不佳。现有的评估基准往往只评估有限的方向问题集,如简单的方向判断而不测试精细的旋转理解,或者样本数量极少,导致对模型方向推理能力的评估不完整。

二、DORI:全面评估方向理解能力的创新基准

研究团队开发的DORI基准测试从四个基本维度评估物体方向理解能力,这些维度反映了人类认知中不同的神经和认知过程:

首先是"正面对齐"维度,它评估模型识别物体前表面相对于观察者朝向的基本能力。就像我们能立即判断一个人是面对我们还是背对我们一样,这是方向理解的基础。DORI通过两项互补任务评估这一能力:视角平行性分析(判断物体前表面与相机平面的角度)和方向面向感知(判断物体前表面相对于相机的朝向,如向左、向右等)。

第二个维度是"旋转变换",测试模型理解物体通过旋转发生方向变化的能力。想象你需要转动钥匙以插入锁孔,或者旋转地图以适应你的导航方向。DORI设计了从简单到复杂的任务,先测试单轴旋转(如物体需要顺时针旋转多少度才能面向相机),再进阶到更认知要求高的复合旋转(涉及沿多个轴的顺序旋转)。

第三个维度是"相对方向",检验模型理解物体之间以及物体与观察者之间方向关系的能力。人类大脑有专门处理"心理方向"的互连区域,使我们能从不同视角有效空间定向物体。DORI通过物体间方向关系(如两个物体是否面对面)和图像对旋转关系(识别同一物体在两张图片间的旋转角度)两项子任务系统评估这一能力。

最后一个维度是"规范方向感知",评估模型识别物体何时偏离其预期方向,以及确定恢复其规范状态所需变换的能力。就像我们能立即看出一张倒置的建筑物照片需要旋转180度才能正常一样。DORI首先评估模型识别规范方向偏差的能力,然后评估确定恢复所需具体几何操作(旋转、翻转或组合)的能力。

DORI基准包含33,656个精心构建的多项选择题,涵盖了来自11个现有计算机视觉数据集的13,652张图像,包括真实世界图像(37%)和模拟渲染(63%),以确保评估数据具有各种视觉复杂度水平。这些数据集包括KITTI、Cityscapes、COCO、ShapeNet等知名数据集,涉及67个物体类别(31个家居和36个户外物品类别)。

三、如何设计出更精准的方向理解评估?

研究团队采用了系统、以人为中心的方法设计DORI的评估提示,以隔离方向感知与混淆因素(如物体识别难度、场景杂乱、语言歧义等)。

每个提示遵循精心设计的格式,包含五个关键组成部分:(1)简明的任务描述,指定被测试的方向维度;(2)解释相关方向概念的背景信息;(3)逐步分析指导;(4)多项选择选项;以及(5)说明预期推理的具体示例。这种结构化方法借鉴了有效的指令调整数据集(如LLaVA)的经验,明确的任务框架和示例驱动指导能显著提高模型理解。

研究团队通过多轮非专家评估者反馈迭代完善提示,解决歧义,澄清术语,并提高任务特异性。例如,旋转变换提示的早期版本对旋转轴的解释产生了不一致的理解。人类评估者帮助研究团队纳入更精确的语言和视觉参考(如"像芭蕾舞者顺时针旋转"来说明垂直轴旋转),而不是抽象的方向描述。

为全面覆盖物体方向推理,研究团队开发了两层问题框架: - 粗粒度问题评估基本类别理解(如"两个图像之间物体是否旋转?") - 细粒度问题探测精确的定量估计(如"物体顺时针旋转了多少度?")

这种层次化方法使评估能从基本感知到高级方向推理系统化进行,就像人类认知发展中观察到的进阶模式一样。

四、多模态大语言模型真的理解物体方向吗?

研究团队评估了15个最先进的多模态模型,包括LLaVA系列、Yi-VL、Mantis和DeepSeek变体等开源模型,以及Gemini和GPT-4等专有系统。这些模型代表了不同的架构、参数规模和预训练方法。

实验结果揭示了几个关键发现:

首先,模型在处理复杂、动态旋转任务(需要在图像之间心理追踪物体旋转)时,性能平均比简单的静态方向任务(如识别当前物体姿态)低30%。这就像人们能轻松识别眼前物体的朝向,但要追踪快速移动物体的旋转变化就困难得多。

其次,模型在需要视角转换的任务上(例如,从物体自身参考框架而非相机视角确定两个物体是否相互面对)表现特别差,准确率比自我中心框架任务低25%。这相当于我们不仅需要知道自己看到的景象,还需要想象从其他位置看到的景象,这对AI系统来说是一项极具挑战的任务。

第三,基于令牌的集成方法(如Mantis-Idefics2-8B)在方向任务上始终优于线性投影方法,表明架构设计对方向推理能力有显著影响。可以将其想象为两种不同的信息处理方式:一种能保留更丰富的维度信息,而另一种则在转换过程中丢失了一些关键空间信息。

最后,模型规模并不能保证更好的方向理解;较小的对话调优变体(如DeepSeek-1.3B-Chat)经常优于较大的基础模型(如DeepSeek-7B-Base),突显了训练目标相比参数数量的重要性。这就像两个学生,一个接受了专门的空间思维训练,另一个只是学习了更多一般知识,前者在空间任务上可能表现更好,尽管后者知识面更广。

研究还发现,模型在涉及人和动物的方向任务上表现相对较好,这些类别有明显的前/后区分(如面部),而对家具或容器等更模糊的物体则表现较差。这表明当前模型在确定物体方向时主要依赖语义特征(如识别面部),而非更基础的几何理解。

最令人担忧的是,即使是最先进的商业系统在旋转变换和相对方向问题上仍然显著挣扎,突显了即使在最先进的商业系统中,方向理解也有很大改进空间。

五、人类vs机器:方向理解的鸿沟

为了进一步评估模型性能与人类能力的差距,研究团队招募了7名具有复杂标注经验的专家评估方向感知能力。每位参与者使用相同的图像评估了30个粗粒度和细粒度任务的例子。

结果显示,人类在粗粒度任务上达到了86.6%的准确率,在细粒度任务上达到了80.9%的准确率。相比之下,即使是最好的闭源模型在这些任务上的表现也低了将近30%,这表明人工智能系统与人类方向理解能力之间存在显著差距。

这种差距表明,当前的多模态大语言模型缺乏人类在方向理解方面天生具备的神经归纳偏置。人类通过身体体验、本体感受和运动反馈发展出强大的空间理解能力,而AI系统则没有这种体验式学习的优势。这些模型基本上是"脱离身体"训练的,迫使它们通过次优的注意力模式来近似这些神经机制,导致推理错误。

六、提升方向理解能力的未来方向

研究结果表明,当前多模态大语言模型在物体方向理解方面存在根本性局限,特别是在进行精确角度估计、跟踪多视角方向变化和理解复合旋转方面。这些局限可能源于当前架构如何压缩和表示几何信息。

多数评估的模型使用CLIP式对比目标进行预训练,这种方法优化高级图像-文本语义对齐,而非核心几何理解。这创造了"维度崩塌"现象,即连续的方向变化在嵌入空间中被压缩成离散的语义集群(例如,将"左"和"右"视为相反的分类概念,而非连续角度谱上的点)。

研究团队指出,通过生成目标微调可能会略微缓解这一限制,但MLLMs仍然缺乏人类利用的必要神经归纳偏置。这些"无身体"的训练机制迫使MLLMs通过次优的注意力模式来近似这些神经机制,导致产生错误的认知。

这项研究为未来的多模态系统设计提供了明确方向,表明需要专门的方向表示机制和架构创新,使模型能够更好地理解和推理物体方向。DORI基准为评估这些进步提供了全面的诊断工具,对机器人控制、3D场景重建和人机交互等众多应用有着直接的影响。

七、DORI基准测试的技术细节

DORI基准测试在设计上具有丰富的多样性和全面性。它涵盖了从KITTI、Cityscapes、COCO等真实世界数据集到ShapeNet、Get3D等模拟环境的多个数据源,确保评估数据具有各种视觉复杂度水平。

基准中的每种任务都经过精心设计,以测试方向理解的特定方面:

视角平行性感知任务评估模型确定物体前表面是朝向、背离或垂直于相机平面的能力。研究团队使用JTA和KITTI数据集构建了这个数据集,分析肩部位置相对于相机和头部角度,或利用可用的旋转矩阵对车辆和行人进行分类。

方向面向感知任务将方向评估扩展到基本方向,要求模型识别物体是面向、背离、向左或向右相对于相机。这使用COCO和Cityscapes图像,通过专家手动标注或利用旋转矩阵精确确定方向。

单轴旋转任务评估对垂直轴旋转变换的理解,要求模型确定物体面向相机所需的最佳旋转方向和精确角度调整。这使用3D-Future和Objectron数据集,计算对象面向相机所需的精确旋转调整。

复合旋转任务评估对涉及沿多个轴的顺序变换的复杂旋转的理解,使用Get3D、ShapeNet和OmniObject3D中的3D渲染对象,实施控制的渲染流水线,应用精确的水平和垂直轴旋转。

物体间方向感知任务评估从物体自身视角而非相机视角理解物体之间相对方向的能力。使用3D Future和NOCS REAL数据集,利用6 DoF参数计算物体对之间的精确角度关系。

观察者-场景方向感知任务评估感知两张同一物体图像之间旋转变化的能力。使用Get3D、ShapeNet和OmniObject3D数据集,渲染带有地平面参考的对象,然后创建物体绕垂直轴旋转特定角度的对应图像。

规范方向推理任务评估识别物体何时出现在非规范位置和确定恢复物体所需变换的能力。使用COCO图像子集,创建带有系统翻转和旋转的变体。

DORI基准包含总计33,656个多项选择题,覆盖67个不同物体类别,并提供了两种评估粒度(粗粒度和细粒度)以提供关于模型方向理解的全面视图。

八、研究的局限性与未来展望

尽管DORI基准提供了对多模态大语言模型方向理解能力的前所未有的洞察,但研究团队也承认存在一些局限性。

首先,DORI主要集中在静态图像上的方向理解,而未探索视频或交互式环境中的动态方向理解。就像看照片和看电影的区别一样,动态环境中的方向理解可能涉及额外的复杂性和挑战。

其次,尽管DORI涵盖了广泛的物体类别,但它仍然无法完全代表现实世界中所有可能的物体和场景。某些特殊领域(如医疗、工业)的物体可能具有独特的方向理解要求。

研究团队指出,未来的工作可以扩展到更多样化的数据源,包括更多物体类别和更复杂的场景。此外,探索物体方向理解与其他空间推理能力(如深度感知、遮挡理解)的交互也是重要的研究方向。

值得注意的是,研究表明,当前方向理解的限制可能源于现有架构中缺乏专门的几何表示机制。这启示未来的模型设计应考虑如何更好地编码和处理三维空间信息,可能通过整合专门的3D表示模块或采用能更好保留几何关系的训练目标。

最终,这项研究不仅指出了当前多模态系统的限制,也为未来的发展指明了方向。随着我们越来越多地依赖AI系统在物理世界中导航和操作,增强它们的方向理解能力将变得至关重要。DORI基准为这一关键能力的进步提供了清晰的路径和评估工具。

来源:至顶网一点号

相关推荐