人形机器人的运动控制,正成为强化学习(RL)算法应用的下一个热点研究领域。当前,主流方案大多遵循 “仿真到现实”(Sim-to-Real)的范式。研究者们通过域随机化(Domain Randomization)技术,在成千上万个具有不同物理参数的仿真环境中训练通用控制模型,期望它能凭借强大的泛化能力,直接适应动力学特性未知的真实世界。尽管这类 “零样本迁移”(Zero-Shot Transfer)方案在多种运动任务上取得了卓越表现,但其本质目标是训练一种在任何环境下都 “能用” 的保守策略。这种策略牺牲了机器人在特定真实环境中的性能上限,因为对于最终落地而言,真实世界的表现才是唯一重要的标准。为了突破这一瓶颈,近期一些工作开始探索在仿真预训练后,利用少量真实数据对模型进行微调。例如,来自英伟达和 CMU 等机构的研究者提出的 ASAP [1],通过训练一个残差网络来快速补偿仿真与现实的动态差异;而学界经典的 RMA (Rapid Motor Adaptation) 算法 [2] 也被应用于双足机器人,通过一个适配模块从历史动作中推断环境动力学信息 [3]。然而,这些工作大多仍着眼于对动态偏差进行一次性补偿,交互范式也更偏向于离线学习,并未在真实环境中对模型本身进行持续的在线调整。由于人形机器人本身极不稳定,任何微小的失误都可能导致昂贵的硬件损坏,因此在真实环境中直接进行强化学习训练,长期以来被视为一个难以逾越的障碍。从人类父母教授婴儿学步的过程中汲取灵感,我们创造性地提出,使用一个 “教师” 机械臂在现实世界中 “手把手” 地指导 “学生” 人形机器人进行在线强化学习。,时长00:28在这一过程中,教师机械臂扮演了多重关键角色:它既是保护安全的 “吊索”,防止学生摔倒 ;也是自动重置的 “帮手”,可以在失败后迅速扶起学生继续训练;它还是敏锐的 “信号源”,通过力传感器收集宝贵的训练数据,为学生提供在真实环境中不易获得的奖励信号;更是智慧的 “教练”,通过设置课程学习(Curriculum Learning)进度和施加对抗性扰动,在训练初期帮助学生快速适应环境,再循序渐进地提升训练难度,增强学生的学习效率和策略的鲁棒性。,时长00:19我们将这一创新的软硬件协同系统命名为 RTR (Robot-Trains-Robot),凸显了由机器人教师提供主动物理辅助,对于实现人形机器人真机强化学习有重要意义。同时,为解决真实世界数据采集成本高昂的难题,团队还提出了一种新颖的强化学习算法,通过仅优化一个与环境动力学相关的低维隐变量来快速调整机器人的行为,极大地提升了样本效率。这一算法上的贡献进一步解放了真机强化学习的潜力,在评测中显著超越了 RMA 等传统的在线系统识别基准。摘要:人形机器人的运动控制,正成为强化学习(RL)算法应用的下一个热点研究领域。当前,主流方案大多遵循 “仿真到现实”(Sim-to-Real)的范式。研究者们通过域随机化(Domain Randomization)技术,在成千上万个具有不同物理参数的仿真环境中训练
来源:小孙科技频道