用多维精细感知任务解析多模态大语言模型的方向理解能力 多模态大语言模型(MLLMs)近年来在许多视觉-语言任务上取得了令人瞩目的进展,但它们是否真正理解物体的方向性?这个看似简单的问题,实际上关系到机器人操作、自动驾驶和增强现实等众多实际应用。波士顿大学的研究团队于2025年5月发表了一项开创性研究,深入探究了这 模型 模态 语言 理解能力 dori 2025-06-03 16:59 3