摘要:一直以来,VLA模型训练走的都是“大规模预训练+有监督微调(SFT)”的路子。可这SFT简直是个“吞金兽”,要训练它得有大量高质量的机器人操作轨迹数据。
在机器人领域,让机械臂像人类手臂一样灵活应对复杂环境,一直是科研人员追逐的目标。
而视觉-语言-动作(VLA)模型,正是实现这一目标的核心关键。
可如今VLA模型训练却被两大难题卡住脖子。
就在行业陷入瓶颈时,清华与上海AI Lab的研究团队抛出了SimpleVLA-RL方案。
直接在缺数据的情况下拿下SOTA,给机器人领域带来了一场不小的震动。
一直以来,VLA模型训练走的都是“大规模预训练+有监督微调(SFT)”的路子。可这SFT简直是个“吞金兽”,要训练它得有大量高质量的机器人操作轨迹数据。
为了采集这些数据,不仅要搭建专门的实验场景,找各种各样的交互对象,还得靠专业人员一步步操作。成本高不说,数据规模也上不去,严重限制了VLA模型的推广应用。
更头疼的是,SFT训练出的模型特别“认死理”,只在训练数据的场景里好使,一旦遇到没见过的任务、环境或者物体,性能就断崖式下跌,尤其是处理需要长时间连贯操作的任务时,更是漏洞百出。
有人可能会想,强化学习(RL)在提升大规模推理模型能力上效果显著,能不能把它用到VLA模型训练上呢?
想法虽好,可现实却很骨感。传统机器人RL得靠人工设计过程奖励,比如判断机器人离目标物有多远,这种方式在复杂开放环境里根本玩不转。
而且VLA模型训练得和物理环境或者高保真模拟环境反复交互,效率低不说,成本比优化文本类大模型高多了。
就在大家一筹莫展的时候,清华和上海AI Lab的团队推出了SimpleVLA-RL。
这个方案在veRL框架基础上做了扩展,专门针对VLA模型特点优化,形成了一套端到端在线训练方案。它的核心设计思路,就是解决数据依赖和泛化能力的问题。
首先是交互式轨迹采样,和文本模型只靠文本token采样不同,VLA模型得在和环境的闭环交互中不断更新视觉信息和自身状态。
SimpleVLA-RL让模型直接输出动作token的概率分布,通过随机采样生成各种不同的操作轨迹。
机器人每做一个动作,环境就会反馈新状态,模型再根据新状态继续生成下一个动作,直到任务完成。这样一来,不用依赖大量预先采集的演示数据,模型也能在交互中积累训练素材。
而且团队摒弃了复杂的过程奖励,改用简单的二元结果奖励。任务成功就记1,失败就记0,然后把这个奖励平均分配到整个轨迹的每个动作token上。
这一招太妙了,既避免了过程奖励在不同任务间无法通用的问题,又不用花大量时间针对不同任务调整参数,让训练目标更聚焦。
为了防止模型“钻牛角尖”,只学会一种操作方式,团队还加入了探索增强机制。
一方面,动态筛选轨迹,只留下那些“半成功半失败”的轨迹组,保证后续计算的有效性,避免梯度消失;另一方面,扩大GRPO算法的裁剪区间,从原来的[0.8, 1.2]放宽到[0.8, 1.28],让那些看似概率低但可能有用的动作有更多机会被保留。
同时在轨迹生成阶段提高采样温度,鼓励模型尝试更多样的操作方式。不仅如此,团队还简化了GRPO的训练目标,去掉了KL散度正则项,也不再依赖参考模型,既节省了内存,又让模型能更自由地探索新操作。
SimpleVLA-RL最厉害的地方,就是它真正打破了VLA模型训练对大规模演示数据的依赖,而且还大幅提升了模型的泛化能力。
在LIBERO单臂操控基准测试里,把OpenVLA-OFT模型的平均成功率从91.0%提到了99.1%,长时序任务LIBERO-Long成功率更是从86.5%涨到98.5%,超过了不少之前的SOTA模型。
清华和上海AI Lab推出的SimpleVLA-RL,不仅解决了VLA模型训练的两大核心瓶颈,还在性能、数据效率、泛化能力和真实世界部署上都取得了突破。
它让我们看到,即使在数据有限的情况下,机器人模型也能达到顶尖水平。
随着这项技术的不断完善和推广,未来机器人在家庭服务、工业生产、医疗护理等领域的应用,或许会迎来质的飞跃,真正走进我们的日常生活,帮我们解决更多实际问题。
来源:小张的科普任意门