dori资讯_B站影视

用多维精细感知任务解析多模态大语言模型的方向理解能力

多模态大语言模型（MLLMs）近年来在许多视觉-语言任务上取得了令人瞩目的进展，但它们是否真正理解物体的方向性？这个看似简单的问题，实际上关系到机器人操作、自动驾驶和增强现实等众多实际应用。波士顿大学的研究团队于2025年5月发表了一项开创性研究，深入探究了这