让VLM学会“心中有世界”:VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

B站影视 内地电影 2025-10-30 16:29 1

摘要:当今的 AI 智能体(Agent)越来越强大,尤其是像 VLM(视觉-语言模型)这样能「看懂」世界的智能体。但研究者发现一个大问题:相比于只处理文本的 LLM 智能体,VLM 智能体在面对复杂的视觉任务时,常常表现得像一个「莽撞的执行者」,而不是一个「深思熟虑

当今的 AI 智能体(Agent)越来越强大,尤其是像 VLM(视觉-语言模型)这样能「看懂」世界的智能体。但研究者发现一个大问题:相比于只处理文本的 LLM 智能体,VLM 智能体在面对复杂的视觉任务时,常常表现得像一个「莽撞的执行者」,而不是一个「深思熟虑的思考者」。它们为什么会这样?因为它们感知世界的方式从简单的文本变成了复杂的视觉观察。它们拿到的信息往往是片面和嘈杂的(比如只能看到房间的一个角落)。这在学术上被称为「部分可观测马尔可夫决策过程」(POMDP)。简单来说,智能体就像通过一个钥匙孔观察世界,它必须根据看到的有限信息,去猜测(构建)整个房间的全貌。这个「猜测」的能力,就是「世界模型」(World Model)。我们不禁要问:我们能否通过强化学习(RL),教会 VLM 智能体在行动前,先在「脑中」显式地构建一个内部世界模型呢?这就是美国西北大学(Manling Li 团队)、华盛顿大学(Ranjay Krishna)和斯坦福大学(李飞飞、吴佳俊、Yejin Choi 团队)等机构的联合研究成果 VAGEN 的核心。图 4:训练成功率曲线 。VAGEN-Full(橙色线)在 Sokoban、PrimitiveSkill 和 Navigation 等任务中,展现了比 VAGEN-Base(蓝线)更快、更稳定、更强的学习能力。总结VLM 智能体不应该只是被动响应的「执行器」。VAGEN 框架证明了,通过显式地强化智能体的内部世界模型推理(包括状态估计和转移建模),我们可以构建出更强大、更鲁棒、更具泛化能力的智能体 。通过 WorldModeling Reward(LLM Judge)和 Bi-Level GAE(双层奖励分配),研究者为 VLM 智能体装上了一个「会思考的大脑」,让它们在看世界的视觉任务中,真正做到了「三思而后行」。© THE END

来源:小玉科技频道

相关推荐