摘要:这项由华为科技加拿大公司的Mohsen Gholami、Ahmad Rezaei、Yong Zhang、Mohammad Akbari和华为云的Zhou Weimin共同完成的突破性研究发表于2025年9月,论文标题为"Spatial Reasoning wi
这项由华为科技加拿大公司的Mohsen Gholami、Ahmad Rezaei、Yong Zhang、Mohammad Akbari和华为云的Zhou Weimin共同完成的突破性研究发表于2025年9月,论文标题为"Spatial Reasoning with Vision-Language Models in Ego-Centric Multi-View Scenes"。感兴趣的读者可以通过arXiv:2509.06266v1访问完整论文。
当你坐在汽车驾驶座上,环顾四周时,你的大脑会自动整合来自前方、左侧、右侧甚至后视镜的信息,构建出一幅完整的3D空间图景。你能准确判断哪辆车离你更近,预估到达目的地需要多长时间,甚至预判如果向北行驶会不会更接近某个建筑物。这种看似简单的空间理解能力,对于目前最先进的人工智能来说,却是一个巨大的挑战。
华为的研究团队注意到了这个关键问题。目前的视觉语言模型(就像是能够同时看图和理解文字的AI助手)在处理单张图片或室内视频时表现不错,但当面对真实世界中移动设备(比如自动驾驶汽车或机器人)所需要的多视角、动态户外环境时,它们的表现就大打折扣。这就好比一个人只能通过单独的照片了解世界,却从未体验过站在十字路口环顾四周的感觉。
为了解决这个问题,研究团队开发了两个重要成果。第一个是名为Ego3D-Bench的基准测试系统,这是世界上首个专门评估AI在多视角3D空间理解方面能力的测试平台。第二个是Ego3D-VLM框架,这是一个能够显著提升现有AI模型空间理解能力的训练方法。
一、为什么需要全新的测试方法
过去的AI空间理解测试就像让学生只看单张照片来理解地理,而华为团队意识到真实世界的需求完全不同。考虑一下无人驾驶汽车的工作场景:它需要同时处理前方摄像头捕捉的道路情况、左右两侧摄像头看到的车辆、后方摄像头观察的跟车距离。这些信息必须被整合成一个统一的3D理解,才能做出正确的驾驶决策。
传统的测试方法主要关注室内静态场景,比如让AI观看一个人在房间里移动的视频。但这与真实世界中的移动设备面临的挑战截然不同。在户外环境中,场景是动态变化的,多个摄像头同时工作,每个视角都有其特定的空间含义——"左边"和"右边"不是随意的描述,而是与设备移动方向密切相关的固定参考系。
华为团队从三个知名的自动驾驶数据集(NuScenes、Waymo和Argoverse)中精心挑选了验证数据,这些数据集覆盖了城市街道、高速公路和乡村道路等多种真实驾驶环境。每个场景都包含5到7个不同角度的摄像头视图,为构建全方位的空间理解测试提供了丰富的素材。
二、Ego3D-Bench:像考试一样测试AI的空间智慧
Ego3D-Bench包含超过8600个精心设计的问答对,就像一套全面的空间理解考试题。这些题目被分为五个主要类别,每个类别又分为"自我中心"和"物体中心"两种视角。
绝对距离测量就像问学生"从你的位置到那辆红色汽车有多远",这需要AI不仅能识别目标物体,还要准确估算距离。相对距离测量则更像选择题,比如"红色汽车和蓝色货车哪个离你更近"。定位任务要求AI从一个物体的角度描述另一个物体的位置,比如"从那棵树的角度看,邮筒在什么方向"。
运动推理测试特别有趣,它建立了一个以东南西北为基准的坐标系,然后询问"如果你向北移动,会离那个建筑物更近还是更远"。这种测试模拟了真实世界中的导航需求。行程时间估算则结合了距离和速度概念,询问"以时速50公里行驶,从当前位置到目标地点需要多长时间"。
为了确保测试的质量和公平性,研究团队投入了大量人工审核。他们首先筛选出场景中的独特物体(避免"那辆白色汽车"这种模糊表述在满是白车的街道上造成混淆),然后为每个物体编写简洁而准确的描述。所有问题的答案都通过数学计算和人工验证确保准确性。
三、当前AI模型的空间理解短板
华为团队对16个当前最先进的视觉语言模型进行了全面测试,结果令人深思。即使是表现最好的GPT-4o和Gemini-1.5-Pro,在多选题上的平均准确率也只有56.7%和57.5%,而人类的表现达到了85.3%。这个差距不仅仅是数字上的,它反映了AI在空间理解方面的根本性挑战。
更有趣的是,研究团队还测试了"盲测"表现——让AI仅凭文字描述而不看图片来回答空间问题。结果显示这种方法的表现仅比能看图的AI差5%,说明当前的视觉语言模型在空间推理时过度依赖文字知识,而非真正的视觉空间理解。
在距离估算任务中,AI模型的表现更是参差不齐。一些模型的距离估算误差高达30多米,这在实际应用中是完全不可接受的。比如一辆自动驾驶汽车如果将前方障碍物的距离估算错30米,后果将不堪设想。
不同模型规模的表现也很有启发性。参数量较小的模型(如30亿参数的模型)基本上是在随机猜测,准确率接近概率基线。只有参数量达到70亿以上的大型模型才开始显示出真正的空间理解能力,但即使如此,与人类水平仍有显著差距。
四、Ego3D-VLM:为AI构建空间认知地图
面对现有AI模型的空间理解短板,华为团队开发了Ego3D-VLM解决方案。这个方法的核心思想非常巧妙:与其让AI直接处理复杂的3D点云或鸟瞰图(这些方法计算量大且在动态环境中不稳定),不如为AI构建一个文字版的"认知地图"。
这个过程就像为AI配备了一个智能的空间秘书。首先,系统使用物体识别工具在多个摄像头视图中找到问题中提到的所有物体,就像秘书在不同角度的照片中标记出重要地标。然后,深度估算工具计算每个物体与摄像头的距离,相当于测量员的工作。
接下来是关键的坐标转换步骤。由于不同摄像头有不同的安装位置和角度,系统需要将所有视角的信息统一到一个参考坐标系中。研究团队选择以前方摄像头为基准,这符合人类驾驶时以前方视野为主要参考的习惯。
为了解决户外深度估算不准确的问题,系统采用了"关联缩放"技术。这个方法模仿人类利用已知物体尺寸来估算其他物体大小的认知过程。比如,如果系统知道一个普通成年人的身高约1.7米,它就可以利用画面中的行人来校准整个场景的尺度,从而提高所有距离估算的准确性。
最终生成的认知地图是一个结构化的文字描述,它以自我为中心建立坐标系,详细记录每个重要物体的3D位置和所属视角。这个文字地图随同原始多视角图片一起提供给AI模型,大大增强了模型的空间推理能力。
五、显著的性能提升验证
Ego3D-VLM的效果令人印象深刻。在多选题测试中,平均准确率提升了12%,这看似不大的数字背后代表着从随机猜测向真正理解的质的飞跃。在绝对距离估算任务中,改进更为显著,平均误差减少了56%,某些情况下距离估算精度从30米误差缩小到8米以内。
不同规模模型的改进幅度也很有启发性。对于大型模型(如78B参数的InternVL3),Ego3D-VLM能够将性能推向接近人类水平。而对于中小型模型,虽然绝对性能仍有差距,但相对改进幅度往往更大,这为资源受限的应用场景提供了希望。
研究团队还测试了Ego3D-VLM在其他多视角基准测试上的表现。即使在并非专为ego中心场景设计的All-Angle Bench和VSI-Bench上,该方法依然显示出了一致的性能提升,证明了其通用性和鲁棒性。
特别值得注意的是,Ego3D-VLM是一个"即插即用"的解决方案,可以与任何现有的视觉语言模型配合使用,无需重新训练模型参数。这大大降低了部署成本和技术门槛。
六、技术细节与实现挑战
Ego3D-VLM的实现涉及几个关键的技术挑战。首先是物体检测的准确性问题。在复杂的户外场景中,系统必须准确识别问题中提到的每个物体,即使它们可能被部分遮挡或处于不利的光照条件下。研究团队使用了Grounding-DINO作为物体检测工具,这是目前表现最好的开放词汇物体检测模型之一。
深度估算是另一个挑战。户外场景的深度估算比室内环境困难得多,因为缺乏明显的深度线索(如墙壁、家具等)。团队采用了Depth-Anything-V2-Metric-Large模型,这个模型专门针对户外场景的深度估算进行了优化。
坐标系转换需要精确的摄像头标定参数,包括每个摄像头相对于车辆的安装位置、角度以及内部参数。幸运的是,自动驾驶数据集通常提供这些标定信息,但在实际部署时,这些参数的准确性直接影响系统性能。
认知地图的文本格式设计也经过了仔细考虑。团队测试了三种不同格式:视觉化图表、JSON结构化数据和自然语言文本。结果显示文本格式表现最佳,这可能是因为当前的语言模型对自然语言的处理能力最强。
七、实验设计的严谨性
为了确保实验结果的可靠性,华为团队采用了严格的实验设计。所有测试都使用相同的提示词格式,确保不同模型之间的比较公平。他们还进行了详细的消融实验,逐一验证Ego3D-VLM各个组件的贡献。
消融实验的结果很有启发性。即使使用估算的摄像头参数而非真实标定值,系统性能仍能达到令人满意的水平。这对实际部署具有重要意义,因为在许多应用场景中获取精确的摄像头标定可能很困难。
关联缩放技术的贡献也通过实验得到验证。在添加这个组件后,距离估算误差平均减少了2.5米,证明了利用常识性尺寸信息进行校准的有效性。
团队还测试了系统在各种挑战性条件下的鲁棒性,包括低光照、运动模糊和物体遮挡。结果显示虽然这些条件会影响性能,但Ego3D-VLM相对于基线方法的改进仍然显著。
八、推理时间与计算效率
实际应用中,计算效率是一个重要考虑因素。华为团队对Ego3D-VLM的推理时间进行了详细分析。相比基线方法,该系统的内存占用增加了约0.6%,推理时间增加了31%。虽然推理时间有所增加,但考虑到性能的显著提升,这个代价是可以接受的。
推理时间的增加主要来自两个方面:物体检测和深度估算的预处理步骤,以及AI模型处理更丰富信息时需要的额外思考时间。有趣的是,研究发现AI模型在获得认知地图后确实会进行更深入的推理,这反映在更详细和准确的回答中。
为了进一步优化效率,团队还探索了只处理问题中明确提到的物体,而不是场景中所有物体的策略。这种"按需处理"的方法显著减少了计算量,同时保持了性能改进。
九、人类基准与模型对比
建立可靠的人类基准是评估AI性能的重要参考。华为团队邀请了多名标注员对随机抽取的测试样本进行评估。结果显示人类在需要精确距离估算的任务上也面临挑战,特别是在物体中心的绝对距离测量上,人类准确率只有57.1%。
这个发现很有意义,它表明某些类型的空间推理任务对人类来说也不容易。在这些任务中,Ego3D-VLM增强的AI模型甚至可以超越人类表现,这主要归功于系统能够利用精确的几何计算。
不同模型家族的表现分析也很有趣。闭源模型(如GPT-4o、Gemini)通常比开源模型表现更好,但差距并不像在其他任务上那么显著。这可能表明3D空间理解更多依赖于架构设计而非简单的参数量增加。
在专门为3D任务设计的模型测试中,SpaceThinker-Qwen2.5-3B显示出了最佳的基线性能,证明了专门的3D预训练的价值。但即使是这些专门模型,在应用Ego3D-VLM后仍有显著性能提升。
十、实际应用前景与挑战
Ego3D-VLM的成功为多个实际应用领域开辟了新的可能性。在自动驾驶领域,更准确的3D空间理解能力可以提升车辆的路径规划和障碍物避让性能。在机器人导航方面,这种技术可以帮助服务机器人更好地理解复杂的室内外环境。
虚拟现实和增强现实应用也可以从中受益。更准确的空间理解能够改善虚拟物体与现实环境的对齐,提升用户体验。在安防监控领域,多摄像头场景的空间分析能力也有重要应用价值。
不过,技术的实际部署仍面临一些挑战。首先是对外部工具(物体检测和深度估算)的依赖,这些工具的准确性直接影响最终性能。其次是对摄像头标定参数的需求,虽然可以使用估算值,但精确标定仍然有助于达到最佳性能。
另一个考虑因素是计算资源的需求。虽然Ego3D-VLM比基于点云的方法更高效,但相比纯文本处理仍需要额外的计算开销。在资源受限的边缘设备上部署时需要进行权衡。
说到底,华为团队的这项研究为AI的3D空间理解能力开辟了新的道路。他们不仅创建了业界首个针对多视角空间推理的基准测试,还提出了一个实用而有效的解决方案。虽然当前的AI模型在空间理解方面仍与人类存在差距,但Ego3D-VLM显示出了缩小这个差距的明确路径。
这项工作的意义不仅在于技术层面的突破,更在于它为真实世界中的AI应用提供了重要的基础能力。随着自动驾驶、机器人技术和智能监控系统的快速发展,这种空间理解能力将成为下一代AI系统的核心竞争力。虽然距离完全解决3D空间理解问题还有很长的路要走,但这项研究无疑是朝着正确方向迈出的重要一步。
Q&A
Q1:Ego3D-Bench测试包含哪些具体内容?
A:Ego3D-Bench包含超过8600个问答对,分为五个主要类别:绝对距离测量(估算具体米数)、相对距离测量(判断哪个更近)、定位任务(描述物体相对位置)、运动推理(判断移动方向的影响)和行程时间估算(结合距离和速度计算时间)。每个类别又分为自我中心和物体中心两种视角。
Q2:Ego3D-VLM为什么比传统3D方法更有效?
A:传统方法依赖3D点云或鸟瞰图,计算量大且在动态环境中不稳定。Ego3D-VLM采用文字版"认知地图",只关注问题中提及的重要物体,大幅减少计算量。同时结合多视角图像和结构化空间信息,让AI能够像人类一样整合不同视角的空间信息。
Q3:华为这项研究在实际应用中有什么意义?
A:这项研究为自动驾驶汽车、服务机器人、智能监控等需要3D空间理解的AI系统提供了重要技术基础。当前AI模型在空间推理方面与人类差距巨大,Ego3D-VLM将多选题准确率提升12%,距离估算误差减少56%,显著缩小了这个差距,为实际部署奠定了基础。
来源:科技行者一点号1