机器人训练遇瓶颈？清华和上海AI Lab出新招，缺数据也能冲 SOTA

摘要：一直以来，VLA模型训练走的都是“大规模预训练+有监督微调（SFT）”的路子。可这SFT简直是个“吞金兽”，要训练它得有大量高质量的机器人操作轨迹数据。

在机器人领域，让机械臂像人类手臂一样灵活应对复杂环境，一直是科研人员追逐的目标。

而视觉-语言-动作（VLA）模型，正是实现这一目标的核心关键。

可如今VLA模型训练却被两大难题卡住脖子。

就在行业陷入瓶颈时，清华与上海AI Lab的研究团队抛出了SimpleVLA-RL方案。

直接在缺数据的情况下拿下SOTA，给机器人领域带来了一场不小的震动。

一直以来，VLA模型训练走的都是“大规模预训练+有监督微调（SFT）”的路子。可这SFT简直是个“吞金兽”，要训练它得有大量高质量的机器人操作轨迹数据。

为了采集这些数据，不仅要搭建专门的实验场景，找各种各样的交互对象，还得靠专业人员一步步操作。成本高不说，数据规模也上不去，严重限制了VLA模型的推广应用。

更头疼的是，SFT训练出的模型特别“认死理”，只在训练数据的场景里好使，一旦遇到没见过的任务、环境或者物体，性能就断崖式下跌，尤其是处理需要长时间连贯操作的任务时，更是漏洞百出。

有人可能会想，强化学习（RL）在提升大规模推理模型能力上效果显著，能不能把它用到VLA模型训练上呢？

想法虽好，可现实却很骨感。传统机器人RL得靠人工设计过程奖励，比如判断机器人离目标物有多远，这种方式在复杂开放环境里根本玩不转。

而且VLA模型训练得和物理环境或者高保真模拟环境反复交互，效率低不说，成本比优化文本类大模型高多了。

就在大家一筹莫展的时候，清华和上海AI Lab的团队推出了SimpleVLA-RL。

这个方案在veRL框架基础上做了扩展，专门针对VLA模型特点优化，形成了一套端到端在线训练方案。它的核心设计思路，就是解决数据依赖和泛化能力的问题。

首先是交互式轨迹采样，和文本模型只靠文本token采样不同，VLA模型得在和环境的闭环交互中不断更新视觉信息和自身状态。

SimpleVLA-RL让模型直接输出动作token的概率分布，通过随机采样生成各种不同的操作轨迹。

机器人每做一个动作，环境就会反馈新状态，模型再根据新状态继续生成下一个动作，直到任务完成。这样一来，不用依赖大量预先采集的演示数据，模型也能在交互中积累训练素材。

而且团队摒弃了复杂的过程奖励，改用简单的二元结果奖励。任务成功就记1，失败就记0，然后把这个奖励平均分配到整个轨迹的每个动作token上。

这一招太妙了，既避免了过程奖励在不同任务间无法通用的问题，又不用花大量时间针对不同任务调整参数，让训练目标更聚焦。

为了防止模型“钻牛角尖”，只学会一种操作方式，团队还加入了探索增强机制。

一方面，动态筛选轨迹，只留下那些“半成功半失败”的轨迹组，保证后续计算的有效性，避免梯度消失；另一方面，扩大GRPO算法的裁剪区间，从原来的[0.8, 1.2]放宽到[0.8, 1.28]，让那些看似概率低但可能有用的动作有更多机会被保留。

同时在轨迹生成阶段提高采样温度，鼓励模型尝试更多样的操作方式。不仅如此，团队还简化了GRPO的训练目标，去掉了KL散度正则项，也不再依赖参考模型，既节省了内存，又让模型能更自由地探索新操作。

SimpleVLA-RL最厉害的地方，就是它真正打破了VLA模型训练对大规模演示数据的依赖，而且还大幅提升了模型的泛化能力。

在LIBERO单臂操控基准测试里，把OpenVLA-OFT模型的平均成功率从91.0%提到了99.1%，长时序任务LIBERO-Long成功率更是从86.5%涨到98.5%，超过了不少之前的SOTA模型。

清华和上海AI Lab推出的SimpleVLA-RL，不仅解决了VLA模型训练的两大核心瓶颈，还在性能、数据效率、泛化能力和真实世界部署上都取得了突破。

它让我们看到，即使在数据有限的情况下，机器人模型也能达到顶尖水平。

随着这项技术的不断完善和推广，未来机器人在家庭服务、工业生产、医疗护理等领域的应用，或许会迎来质的飞跃，真正走进我们的日常生活，帮我们解决更多实际问题。

来源：小张的科普任意门

标签：机器人清华 lab sota ailab

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!