英伟达让机器人“做梦学习”!仅需 1 个动作数据,解锁 22 种新技能

B站影视 内地电影 2025-05-22 12:38 1

摘要:近日,NVIDIA GEAR Lab推出DreamGen项目,该项目能够让机器人实现“在梦境中学习”,在业内真正实现了零样本行为泛化和零样本环境泛化。同时,英伟达还计划在未来几周对DreamGen进行全开源。

机器人前瞻(_pro)

作者 | 许丽思

编辑 | 漠影

机器人前瞻5月22日报道,近日,NVIDIA GEAR Lab推出DreamGen项目,该项目能够让机器人实现“在梦境中学习”,在业内真正实现了零样本行为泛化和零样本环境泛化。同时,英伟达还计划在未来几周对DreamGen进行全开源。

在过去,机器人学习依赖人工收集大规模遥操作数据,这往往耗费大量时间与成本。而仿真合成数据,也会因为sim2real 问题,导致机器人很难学以致用,应用到真实的场景中。

英伟达机器人总监兼杰出科学家、GEAR实验室联合负责人Jim Fan介绍,DreamGen是一款全新的引擎,它不依赖人类操作员团队来扩展机器人的学习能力,而是通过数字梦境来实现。

DreamGen 借助Sora、Veo这样的视频世界模型,创造出大规模逼真的机器人训练数据,直接从real2real开始,能应用在不同类型的机器人身上,并让机器人在新物体、新动作和新环境中实现强泛化能力。

一、简单四步,教会机器人在梦境中学习

DreamGen只需要通过以下四步流程即可实现:

1、微调视频世界模型

基于人类遥操作的机器人轨迹,在目标机器人上对视频世界模型进行微调,这一适配过程使模型能够学习机器人的物理约束和运动能力。

2、生成多样化场景

输入一些初始帧和语言指令后,模型便能生成机器人执行任务的视频。

仿真实验中,从模拟器采集新初始帧,并随机化每个任务中目标物体的位置或环境参数;在真实场景实验中,手动拍摄新初始帧并随机化目标物体位置。对于环境泛化实验,采集新环境的初始帧,同时限制视频世界模型仅基于单一环境数据训练。

这些视频不仅包括已知任务,还包括新环境中从未执行过的新行为。这一过程也需要过滤掉那些不听从指令的噩梦。

3、提取动作数据

使用潜在动作模型或反向动力学模型(IDM),从视频中提取出“伪动作”序列(pseudo actions),形成神经轨迹。

▲伪动作提取架构

4、训练机器人模型

基于 DreamGen 生成的神经轨迹,以语言指令和图像观测为条件,训练机器人视觉运动策略。

这里提出了两种不同的基于神经轨迹的训练场景:与真实轨迹联合训练时,采用 1:1 的采样比例混合神经轨迹与真实轨迹;在行为泛化和环境泛化实验中,仅使用神经轨迹进行策略训练。

▲RoboCasa 中神经轨迹数量的扩展实验

二、在全新环境里掌握22种新行为,任务成功率显著提升

有了DreamGen之后,原本只会“拾取-放置”动作的人形机器人,能够在10个全新环境里掌握倾倒、锤击、折叠、熨烫、舀取等22种全新行为。

实验结果表明,机器人利用单一动作数据学习新动作的成功率从11.2%提升至43.2%;在单一环境训练下,陌生环境中的成功率也从0%达到了28.5% 。

在以RoboCasa为基准的仿真验证中,神经轨迹规模达到了人类演示数据的333倍,策略性能随轨迹数量呈对数线性提升。

在Fourier GR1、Franka Emika和SO-100等机器人平台上,复杂任务的成功率也显著提升。

除此之外,团队还开发了首个机器人视频生成评估基准DreamGen Bench,通过测量两个关键指标——指令遵循度(生成的视频是否严格遵守给定的指令)和物理合理性(评估生成的视频的物理合理性),来衡量模型生成数据的质量。

结语:机器人通过数字梦境学习的新时代已到来

DreamGen的出现,为机器人学习开辟了一条全新路径,从传统的依赖大量人工遥操作数据,转变为通过世界模型扩展GPU计算,从而生成数据。不仅能增强现有任务的训练效果,更赋予机器人在陌生环境中学习全新行为的能力。

这为充分释放世界模型在机器人领域的潜力奠定了基础,也意味着,机器人通过数字梦境学习的新时代已到来了。

论文链接:https://arxiv.org/abs/2505.12705

项目链接:https://research.nvidia.com/labs/gear/dreamgen/

来源:机器人前瞻

相关推荐