世界模型==VQA？机器人只需语义预测，无需画面

摘要：这话得分两步来讲清楚：先看结果，再说怎么做到的。实验里用的两个环境叫 LangTable 和 OGBench。简单说，研究团队不再追求每一帧像素都对上号，而是把“未来会发生什么”变成一堆能用文字回答的是/否或短文本问题。换句话说，把世界建模的问题从“画面像不像

在两个常用的机器人仿真测试集上，新的语义世界模型把原本很差的策略直接拉高了好几个档次：

这话得分两步来讲清楚：先看结果，再说怎么做到的。实验里用的两个环境叫 LangTable 和 OGBench。简单说，研究团队不再追求每一帧像素都对上号，而是把“未来会发生什么”变成一堆能用文字回答的是/否或短文本问题。换句话说，把世界建模的问题从“画面像不像”改成“语义对不对”，告诉模型去学那些跟任务决定有关的语义事实，别把精力浪费在跟决策无关的像素噪声上。

效果很直观：在 LangTable 上，基础策略原来平均只有 14.4% 的成功率，现在用语义世界模型后到 81.6%；在 OGBench 上从 45.33% 上升到 76%。短程任务（像是到达目标、把方块分开）用基于采样的规划方法 MPPI 在这个语义模型上几乎能拿满分。但是采样代价高，碰到需要大量样本的长程、多步任务就不划算。于是他们采取了折中办法：先让一个基础策略产出若干候选轨迹，再把这些轨迹交给语义世界模型做基于梯度的细化。结果很明显，长程多步任务的平均策略改进幅度达到了 52.0%，表现比之前常用的几种基线（比如 AVD、IDQL）都要好不少。

数据方面也有意思的发现：训练并不一定非得全是专家演示。团队把次优（non-expert）数据和专家数据混在一起训练，反而能得到更好的模型准确率。就算只用次优数据，模型也能到达中等水平。这说明以“语义问答”为目标的世界模型对数据质量没那么挑剔，能从各种来源学到有用的东西。数据格式上他们统一用了一个叫 SAQA 的标准：State-Action-Question-Answer。每条样本包含当前状态 S_i、一段动作序列 a_{i:j}、针对未来状态的问句 Q_{S_j} 和对应答案 A_{S_j}。训练时把图像特征、动作嵌入和问题 token 串起来喂进模型，用交叉熵去预测答案，不需要像素级的损失函数。

底层模型是以开源的视觉语言模型 PaliGemma 为起点，用了它的 30 亿参数检查点。PaliGemma 本身把语言模型和视觉编码器分开训练，再通过一个投影矩阵把视觉特征映射到语言模型的输入空间。研究团队在这基础上又加了一个动作投影，把动作也映成和视觉特征、问题 token 同一套语言式嵌入。这样图像、动作和问题三类信息就在同一个“语言空间”里被处理，最终模型直接输出文本答案。

为了验证模型到底学到了啥，他们把语言 token 到图像 patch 的注意力可视化。举个例子：当问“红色月亮是否接触蓝色立方体？”这类问题时，模型会把注意力集中到对应的那几块图像区域。更有意思的是，训练时并没有专门给它看过三物体组合的例子，但它遇到相关问题时仍能正确关注到三个对象，这说明模型继承了视觉语言模型的一些泛化能力。

在泛化测试上，团队做了组合泛化和场景分布外的检验。比如在 LangTable 中改变彩色方块的颜色-形状组合，或者在 OGBench 更换背景颜色组合；在这些改动下，语义世界模型相较于基础策略平均提升约 20%，而一些对比方法不能做到这一点。这说明把 VLM 在预训练阶段学到的语义知识带到动作条件的预测里，是有实用价值的。

说到规划的落地，目标先得被转成 SWM 能懂的东西。有两种途径：一是用了预训练的视觉语言模型自动把任务语义解析出来；二是人工把目标拆成一组“问题—期待答案”。不论哪种，拿到这组问答后，语义世界模型就能当成评估器，去估计某个动作序列能在多大程度上实现这些期待。基于这个评估，可以跑两类规划：完全靠采样的（像 MPPI）和在候选轨迹上做基于梯度的细化。采样在简单短程任务上表现好，但代价高；梯度细化在有候选轨迹时更节省计算而且能把效果往上推一把。

实验套了几种任务：短程的到达与分离、多步长程任务，以及组合泛化的测试。短程任务靠 MPPI+SWM 接近满分；长程任务的解决方案是先把大目标拆成若干子目标，然后围绕每个子目标做规划。整个流程里混入次优数据能进一步提升训练效果，这点被反复验证过，说明 SAQA 格式对于数据来源比较宽容，既能用专家演示，也能用游戏记录或普通行为数据。

这份工作是华盛顿大学和索尼 AI 的团队合作完成的。技术上他们把视觉语言模型预训练阶段积累的大量语义知识，和动作条件下的未来问答能力结合起来，造出了能直接用于规划的“语义世界模型”。在实现细节上，他们保留了 Gemma 的语言模型与 SigLIP 图像编码器的分离训练结构，靠投影矩阵把视觉和动作信息映射进语言模型输入空间，从而让语言模型在生成答案时同时考虑图像、动作和问题。训练中用的是 SAQA 格式的数据，输入就是图像嵌入 + 动作嵌入 + 问题 token，模型被端到端微调来输出正确答案。实验里还把注意力可视化，证据显示模型在回答涉及特定物体的语义问题时，确实把注意力对准了相关图像补丁。

来源：金华刘氏智能科技

标签：模型机器人预测语义 vqa

本文地址：http://news.43b.com.cn/a/1710233.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!