当今的 AI 智能体(Agent)越来越强大,尤其是像 VLM(视觉-语言模型)这样能「看懂」世界的智能体。但研究者发现一个大问题:相比于只处理文本的 LLM 智能体,VLM 智能体在面对复杂的视觉任务时,常常表现得像一个「莽撞的执行者」,而不是一个「深思熟虑的思考者」。它们为什么会这样?因为它们感知世界的方式从简单的文本变成了复杂的视觉观察。它们拿到的信息往往是片面和嘈杂的(比如只能看到房间的一个角落)。这在学术上被称为「部分可观测马尔可夫决策过程」(POMDP)。简单来说,智能体就像通过一个钥匙孔观察世界,它必须根据看到的有限信息,去猜测(构建)整个房间的全貌。这个「猜测」的能力,就是「世界模型」(World Model)。我们不禁要问:我们能否通过强化学习(RL),教会 VLM 智能体在行动前,先在「脑中」显式地构建一个内部世界模型呢?这就是美国西北大学(Manling Li 团队)、华盛顿大学(Ranjay Krishna)和斯坦福大学(李飞飞、吴佳俊、Yejin Choi 团队)等机构的联合研究成果 VAGEN 的核心。摘要:当今的 AI 智能体(Agent)越来越强大,尤其是像 VLM(视觉-语言模型)这样能「看懂」世界的智能体。但研究者发现一个大问题:相比于只处理文本的 LLM 智能体,VLM 智能体在面对复杂的视觉任务时,常常表现得像一个「莽撞的执行者」,而不是一个「深思熟虑
来源:小玉科技频道