从“站桩”到“碰天触地”,这款易部署系统让多款人形机器人真正“工作起来”摘要:大数据和大模型已成为具身智能领域业界和学术界的焦点,人们也在期待人形机器人真正步入大数据、大模型时代。然而,行业一直缺乏稳定的人形机器人全身遥操作与数据采集方案。近日,银河通用机器人携手清华大学发布了全开源、多机型、跨虚实的人形机器人全身遥操作系统——Open
大数据和大模型已成为具身智能领域业界和学术界的焦点,人们也在期待人形机器人真正步入大数据、大模型时代。然而,行业一直缺乏稳定的人形机器人全身遥操作与数据采集方案。近日,银河通用机器人携手清华大学发布了全开源、多机型、跨虚实的人形机器人全身遥操作系统——OpenWBT。即便是新手,也能在小时内从零完成部署,并以接近日常人类工作空间的方式,高效采集人形机器人全空间操作数据,为打造具备操作智能的人形机器人提供坚实的数据支撑。
为什么需要“全身遥操”?
“如果机器人只能站直不动,它的作业空间可能还不如一台扫地机。”研究团队成员解释道。传统遥操作往往仅依赖上半身控制,而OpenWBT通过全身运动控制,让机器人实现移动、碰高、摸低等多种能力。只需要一款VR头显,就可以遥控多种机器人,使其像人类一样弯腰拾起地上的物品,或伸手擦拭高处的窗台。
OpenWBT三大技术亮点:
亮点1:极简部署方便使用
只需要一副VR头显、一台笔记本电脑,新手也可以在小时内从零完成系统的快速部署。不受场地限制、无需复杂的设备校准与穿戴,躺在家里床上,也可以遥控千里之外的机器人。
亮点2:多机型跨平台轻松操作
OpenWBT 不仅兼容 29 自由度的 Unitree G1,还支持拥有成人身高的 Unitree H1,可轻松覆盖成年人完整的工作空间,成为对人类劳动力的有力补充。
亮点3:灵活兼顾虚实遥操
OpenWBT同时支持在真实世界和仿真环境中进行遥操作。在真实世界中遥操作,可避免感知与控制的域偏差,直接获得高质量机器人数据;在仿真环境中遥操作,无需搭建物理场景,便于快速采集和大规模数据增强,提高样本效率,并为后续模型的泛化能力奠定基础。
OpenWBT背后技术揭秘
让机器人如此稳定在超大工作空间运动的秘诀来自于最近银河通用机器人和清华大学研究团队联合推出的一项工作:Unleashing Humanoid Reaching Potential via Real-world-Ready Skill Space(https://www.arxiv.org/pdf/2505.10918)。旨在解决基于仿真强化学习的人形机器人全身控制中仿真到真实(sim2real)迁移这一难题。将仿真中的人形机器人技能迁移到真实世界极具挑战性,尤其是当机器人需要完成走路、下蹲、弯腰、手臂自由挥动等多种动作时,传统方法往往难以应对这一多样性,而提出了一种分层式的新颖框架来解决这一问题。
首先将运动分为若干原子技能(如走、蹲、前倾等),针对每种原子技能设计专门的奖励函数与训练策略,使其可以稳定迁移到真实世界中。然而当机器人需要在这些原子技能之间频繁切换的时候,由于缺少对技能间组合与过渡的建模,机器人仍然难以保证稳定。因此,进一步通过强化学习对原子技能的组合与衔接进行优化,并利并用条件变分自编码器对包括原子技能及其组合衔接在内的各种底层控制进行统一生成式建模,我们将该生成空间命名为Real-world-Ready Skill Space即。依据高层级任务需求,我们可以从该空间中选取特定的技能与组合,进而实现稳定的全身控制。把复杂的多技能sim2real问题拆分成可解决的单技能sim2real问题,再利用层次结构与生成式建模把技能整合起来,仿真到真实(sim2real)迁移难题就不再可怕。具体来讲,该工作的技术核心包括以下三点:
稳定秘诀:“真实世界稳定”的原子技能库
让机器人学会一种skill很难,让机器人学会多种skills更难,让机器人能够将学会的多种skills进行稳定的sim2real transfer更是难上加难。一般的端到端强化学习受限于优化难度和sim2real transfer稳定性,很难同时学会多种可在真实世界稳定运行的技能。
因此,本文提出首先通过基于启发式奖励函数的强化学习构建一个“真实世界稳定”的原子技能库。从功能性上设计出不同的原子技能,每个技能由专属的奖励函数训练,并通过sim2real transfer验证其在真实世界中的稳定性。该工作将机器人的全身控制拆分为了三种不同的原子技能:locomotion,body-pose-adjustment和hand reaching。Locomotion负责让机器人健步如飞,body-pose-adjustment支持机器人像人一样弯腰下蹲,hand-reaching使得机器人双手可以精确触达目标点。针对locomotion,该工作使用步态引导产生稳定的行走动作:
针对body-pose-adjustment,该工作鼓励在运动学和动力学上的对称性来实现稳定的机器人动作控制:
化零为整—融合不同原子技能实现全身控制
分开训练虽然大大保证了原子技能在真实世界的表现,但是却不足以支撑真正的机器人全身控制,因为这需要机器人能够在不同技能之间协同、切换。因此,在原子技能库基础之上。该工作进一步提出一种IL+RL的技能融合策略,通过结合监督学习和强化学习的损失:
使得机器人能够同时掌握多种技能,并将其编码到一个技能隐空间当中,并通过KL散度和约束函数使得其空间更具结构性:
执行时,policy只需要从隐空间解码,便可得到真实的关节力矩,在保留原子技能的真实世界稳定性的基础之上,实现原子技能之间的稳定组合与衔接,大幅扩展机器人的运动空间。
用途丰富:从全身遥操作到分层强化学习
该工作可以很好的支持全身遥操的需求,只需将遥操指令与机器人状态进行联合编码即可选取合适的技能组合并完成对机器人的稳定全身控制。此外,该工作也可以被应用在分层强化学习当中,帮助机器人自主完成一系列触达任务,例如基于环境感知的碰点、搬箱子等。该工作发现,技能融合时得到的技能隐空间,是一个非常高效的关于机器人全身运动的表征方式,将高维无序的机器人动作编码为具有高度结构性的技能空间。高层规划策略只需要从该隐空间中采样,便能略去底层运动控制的细节,使得机器人以稳定的方式完成各种任务。该工作通过实验验证了其技能隐空间对于任务学习的有效性:
研究团队表示OpenWBT在持续更新中,在未来支持更多的机器人类型与更加复杂的技能类型,OpenWBT项目也欢迎大家加入,持续招募全职工程师和实习生,期待全球开发者共同参与测试、优化,推动通用人形机器人技术发展。
据了解,该论文由清华大学与北京银河通用机器人有限公司合作完成。论文的共同第一作者为清华大学学生、北京银河通用实习生张智楷、薛晗,以及北京银河通用实习生陈超;指导老师为清华大学弋力助理教授与北京大学王鹤助理教授。
来源:DeepTech深科技