谢赛宁、李飞飞「空间智能」新作:多模态大模型仍难突破空间推理
人类拥有视觉空间智能,可以通过连续的视觉观察记忆空间。然而,在百万规模的视频数据集上训练的多模态大语言模型(MLLMs)也能从视频中进行“空间思维”吗?
人类拥有视觉空间智能,可以通过连续的视觉观察记忆空间。然而,在百万规模的视频数据集上训练的多模态大语言模型(MLLMs)也能从视频中进行“空间思维”吗?
在购买家具时,我们会尝试回忆起我们的客厅,以想象一个心仪的橱柜是否合适。虽然估计距离是困难的,但即使只是看过一次,人类也能在脑海里重建空间,回忆起房间里的物体、它们的位置和大小。
李飞飞、谢赛宁团队又有重磅发现了:多模态LLM能够记住和回忆空间,甚至内部已经形成了局部世界模型,表现了空间意识!李飞飞兴奋表示,在2025年,空间智能的界限很可能会再次突破。
有着“AI教母”之称的斯坦福大学教授李飞飞又有新发现——尽管空间推理能力依然薄弱,但多模态大模型已经能够记住和回忆空间,甚至内部已经形成了局部世界模型,表现出了空间意识。
当前,即使是最先进的多模态大模型,在空间认知方面与人类相比仍有显著差距,测试中约71%的错误都源于空间推理方面的缺陷,即空间推理能力是当前主要瓶颈。
国家知识产权局信息显示,南京赛宁信息技术有限公司申请一项名为“一种网络靶场自适应组网方法与系统”的专利,公开号CN 119155158 A,申请日期为2024年11月。