世界模型==VQA?机器人只需语义预测,无需画面

B站影视 韩国电影 2025-10-29 10:55 4

摘要:这话得分两步来讲清楚:先看结果,再说怎么做到的。实验里用的两个环境叫 LangTable 和 OGBench。简单说,研究团队不再追求每一帧像素都对上号,而是把“未来会发生什么”变成一堆能用文字回答的是/否或短文本问题。换句话说,把世界建模的问题从“画面像不像

在两个常用的机器人仿真测试集上,新的语义世界模型把原本很差的策略直接拉高了好几个档次:

这话得分两步来讲清楚:先看结果,再说怎么做到的。实验里用的两个环境叫 LangTable 和 OGBench。简单说,研究团队不再追求每一帧像素都对上号,而是把“未来会发生什么”变成一堆能用文字回答的是/否或短文本问题。换句话说,把世界建模的问题从“画面像不像”改成“语义对不对”,告诉模型去学那些跟任务决定有关的语义事实,别把精力浪费在跟决策无关的像素噪声上。

效果很直观:在 LangTable 上,基础策略原来平均只有 14.4% 的成功率,现在用语义世界模型后到 81.6%;在 OGBench 上从 45.33% 上升到 76%。短程任务(像是到达目标、把方块分开)用基于采样的规划方法 MPPI 在这个语义模型上几乎能拿满分。但是采样代价高,碰到需要大量样本的长程、多步任务就不划算。于是他们采取了折中办法:先让一个基础策略产出若干候选轨迹,再把这些轨迹交给语义世界模型做基于梯度的细化。结果很明显,长程多步任务的平均策略改进幅度达到了 52.0%,表现比之前常用的几种基线(比如 AVD、IDQL)都要好不少。

数据方面也有意思的发现:训练并不一定非得全是专家演示。团队把次优(non-expert)数据和专家数据混在一起训练,反而能得到更好的模型准确率。就算只用次优数据,模型也能到达中等水平。这说明以“语义问答”为目标的世界模型对数据质量没那么挑剔,能从各种来源学到有用的东西。数据格式上他们统一用了一个叫 SAQA 的标准:State-Action-Question-Answer。每条样本包含当前状态 S_i、一段动作序列 a_{i:j}、针对未来状态的问句 Q_{S_j} 和对应答案 A_{S_j}。训练时把图像特征、动作嵌入和问题 token 串起来喂进模型,用交叉熵去预测答案,不需要像素级的损失函数。

底层模型是以开源的视觉语言模型 PaliGemma 为起点,用了它的 30 亿参数检查点。PaliGemma 本身把语言模型和视觉编码器分开训练,再通过一个投影矩阵把视觉特征映射到语言模型的输入空间。研究团队在这基础上又加了一个动作投影,把动作也映成和视觉特征、问题 token 同一套语言式嵌入。这样图像、动作和问题三类信息就在同一个“语言空间”里被处理,最终模型直接输出文本答案。

为了验证模型到底学到了啥,他们把语言 token 到图像 patch 的注意力可视化。举个例子:当问“红色月亮是否接触蓝色立方体?”这类问题时,模型会把注意力集中到对应的那几块图像区域。更有意思的是,训练时并没有专门给它看过三物体组合的例子,但它遇到相关问题时仍能正确关注到三个对象,这说明模型继承了视觉语言模型的一些泛化能力。

在泛化测试上,团队做了组合泛化和场景分布外的检验。比如在 LangTable 中改变彩色方块的颜色-形状组合,或者在 OGBench 更换背景颜色组合;在这些改动下,语义世界模型相较于基础策略平均提升约 20%,而一些对比方法不能做到这一点。这说明把 VLM 在预训练阶段学到的语义知识带到动作条件的预测里,是有实用价值的。

说到规划的落地,目标先得被转成 SWM 能懂的东西。有两种途径:一是用了预训练的视觉语言模型自动把任务语义解析出来;二是人工把目标拆成一组“问题—期待答案”。不论哪种,拿到这组问答后,语义世界模型就能当成评估器,去估计某个动作序列能在多大程度上实现这些期待。基于这个评估,可以跑两类规划:完全靠采样的(像 MPPI)和在候选轨迹上做基于梯度的细化。采样在简单短程任务上表现好,但代价高;梯度细化在有候选轨迹时更节省计算而且能把效果往上推一把。

实验套了几种任务:短程的到达与分离、多步长程任务,以及组合泛化的测试。短程任务靠 MPPI+SWM 接近满分;长程任务的解决方案是先把大目标拆成若干子目标,然后围绕每个子目标做规划。整个流程里混入次优数据能进一步提升训练效果,这点被反复验证过,说明 SAQA 格式对于数据来源比较宽容,既能用专家演示,也能用游戏记录或普通行为数据。

这份工作是华盛顿大学和索尼 AI 的团队合作完成的。技术上他们把视觉语言模型预训练阶段积累的大量语义知识,和动作条件下的未来问答能力结合起来,造出了能直接用于规划的“语义世界模型”。在实现细节上,他们保留了 Gemma 的语言模型与 SigLIP 图像编码器的分离训练结构,靠投影矩阵把视觉和动作信息映射进语言模型输入空间,从而让语言模型在生成答案时同时考虑图像、动作和问题。训练中用的是 SAQA 格式的数据,输入就是图像嵌入 + 动作嵌入 + 问题 token,模型被端到端微调来输出正确答案。实验里还把注意力可视化,证据显示模型在回答涉及特定物体的语义问题时,确实把注意力对准了相关图像补丁。

来源:金华刘氏智能科技

相关推荐