摘要:机器人学习系统中的一个关键挑战是“具身差异”(embodiment gap):即演示者(人)与学习者(机器人)在物理形态、动力学和感知能力上的不匹配。这种差异使得从人类演示中提取的策略在机器人上表现不佳。现有方法,如从视频中学习[1]或简单的运动重定向[2],
文章链接: https://arxiv.org/abs/2509.04441
项目链接: https://dex-op.github.io/
机器人学习系统中的一个关键挑战是“具身差异”(embodiment gap):即演示者(人)与学习者(机器人)在物理形态、动力学和感知能力上的不匹配。这种差异使得从人类演示中提取的策略在机器人上表现不佳。现有方法,如从视频中学习[1]或简单的运动重定向[2],都难以克服这一差距,因为它们无法捕获和传递操作中至关重要的力和接触物理信息。DEXOP的设计哲学源于一个核心思想:要消除具身差异,就必须让人类在提供演示时,直接“具身”于一个与目标机器人尽可能一致的环境中。因此,DEXOP不仅仅是一个数据收集工具,更是一个精心设计的“具身模拟器”,一切设计都围绕 “最大化数据迁移性” 和 “保持人类操作自然性” 这两个有时相互冲突的目标进行权衡。它通过机械结构的硬连接,强制实现了人与机器人之间在运动学和接触力学上的高度一致性,从而在数据源头就最大限度地缩小了这种差异。
上图演示了本文提出DEXOP结构。DEXOP使操作者能够自然地执行多种灵巧操作任务,并同步采集包含视觉、触觉与本体感觉的多模态演示数据。DEXOP所收集的高质量数据不仅适用于高度灵巧的任务,还能有效用于机器人策略训练,来实现人类操作技能向机器人的高效迁移。
2.1 Perioperation范式本文提出 “Perioperation”作为一种全新的机器人数据收集范式,其核心在于:操作者并非通过远程控制,而是借助专用硬件接口直接“具身”于一个与目标机器人形态及感知能力一致的代理中,在真实环境中进行自然演示,从而产生可直接迁移的高质量数据。该范式遵循三大原则,并直接指导了DEXOP的硬件设计:
(1). 自然性与透明度:最大化人类操作员的灵巧性和操作直觉,使其能够以接近徒手操作的水平执行任务,而非远程控制机器人。
(2). 数据迁移性:确保收集的数据能最大限度地直接迁移到目标机器人上,最小化“具身差异”。
(3). 感知丰富性:捕获操作任务中全面的多模态交互信息(视觉、触觉、本体感觉)而不仅仅是关节运动轨迹。
2.2 DEXOP 硬件设计DEXOP硬件系统是与上述范式原则共同迭代设计的产物。它主要由三部分组成:可穿戴外骨骼、被动机器人手和连接二者的连杆传动系统。
2.2.1 DEXOP 的机械结构与可穿戴外骨骼本文设计了三种DEXOP变体以适应不同应用场景:DEXOP-12(4指12自由度)和DEXOP-9(3指9自由度)和DEXOP-7(3指7自由度)。下图 (a) 展示了各版本的实物形态,图 (b) 呈现了DEXOP-9在抓取球体任务中的典型应用及对应的多模态传感数据。
可穿戴外骨骼的核心在于精准捕捉人手运动意图并传递给被动手,同时实时反馈环境交互力。该系统采用指套式人因工程设计,可适配不同手形,其运动学链与被动手及目标机器人手完全一致,确保运动与力映射的准确性。外骨骼结构针对人体解剖特征进行了优化,如食指与中指采用侧置薄板、拇指TM关节轴线偏移等设计,有效避免了运动过程中的机械干涉。
2.2.2 DEXOP 的运动学设计与被动机械人手被动机械人手设计的目标是紧密匹配人类手指的运动链,使操作更加直观。DEXOP-12 拥有 12 个完全驱动的自由度 (DoF),每根手指 3 个 DoF。食指、中指和无名指各有一个 2-DoF 的 MCP 关节和一个 PIP 关节。2-DoF 的 MCP 关节用于实现外展功能,以改变手指间距。拇指具有一个 2-DoF 的 TM 关节和一个 IP 关节,TM 关节实现拇指的屈曲运动,支持对掌抓取。DEXOP-12 未包含 DIP 关节和拇指 MCP 关节。下图以蓝色与橙色共同展示的是人手运动链中关节的示意图,DEXOP-12 所实现的关节结构只有蓝色部分。
DEXOP通过多组四连杆机构(4-bar linkages)连接被动机器人手与可穿戴外骨骼,形成高效的动力传递系统。
上图(b)上半部分详细展示了食指、中指和无名指的四连杆传动结构。每组手指由两套串联的四连杆机构分别驱动近端和远端指骨,确保运动精确与力传递可靠。下半部分为拇指旋转连杆系统的示意图。其关节的两个垂直轴中,外展轴与exoskeleton对应关节保持同轴,由单一连杆协同驱动屈曲与外展。IP关节则通过一个空间四连杆机构实现独立控制,以适应拇指复杂的运动需求。
本文提出的DEXOP系统通过收集多模态数据(如视觉、触觉和运动数据),涵盖了多种精细操作任务,如钻孔、瓶盖开启、盒子包装和灯泡安装。数据通过高精度触觉传感器和手腕相机获取,并用于训练机器人控制策略。本文测试了DEXOP系统的硬件特性并将其数据收集效率与远程操作系统进行比较。评估过程需依托真实的机械手平台,才能获得具有实际意义的对比结果。因此,本文采用了DEXOP-7变体及其协同设计的EyeSight Hand真实机械手作为实验对象。 为了评估DEXOP的效果,本文将其与远程操作(通过视觉反馈控制机器人)和人工手操作进行了对比。实验结果如下表所示。
DEXOP-7 在与目标机器人之间的硬件性能匹配能力和数据可迁移方面有明显优势。具体而言,DEXOP-7在力输出、工作空间和手指速度三个关键维度上与真实机械手EyeSight Hand高度匹配,不仅保障了人类操作可高效、无损地转化为机器人可执行的动作指令,也从机理上避免了因“具身差异”导致的数据失效问题。
上图直观反应了DEXOP系统相比传统远程操作的优势。在钻孔、包装盒封装、开瓶和灯泡安装四项任务中,采用DEXOP-7系统的参与者表现显著优于传统远程操作,其任务吞吐量接近徒手操作(性能上限)。DEXOP在一些接触密集型任务(如钻孔与包装)中优势最为突出。相反,远程操作由于缺乏真实的触觉反馈,在操作精确对齐与接触状态判断方面存在明显不足,导致执行效率与成功率较低。
此外,DEXOP系统在多种任务中具备灵巧操作的能力。上图中箭头标示了被操作物体或其部件的运动轨迹。DEXOP系统不仅能够完成精确的手指级操作,例如物体重定向、注射器操控以及微小螺丝与螺帽的精细处理,还支持全手协同操作,包括打开调味瓶盖、按压喷雾器以及稳定使用裁纸刀等任务。
DEXOP采集的数据可以有效提升真实机器人的操作性能。本文使用DEXOP-7与定制全身外骨骼AirExo-2和远程操作同步采集数据,并在相同条件下进行模型训练与测试。从上图(a)可以看到混合160条DEXOP与40条遥操作数据训练出的策略,在综合性能上显著优于远程操作数据训练的策略,证明DEXOP所获数据在质量与效率上的优势。图(b)进一步展示了DEXOP在各步骤的数据采集速度均优于远程操作,误差线表征平均值的标准误差。
DEXOP 作为一种新型的硬件接口,为机器人灵巧操作研究提供了高效且可扩展的高质量数据收集解决方案。尽管当前系统仍存在一定局限性,例如尚未实现基于传感数据的关节扭矩估计、受限于现有 EyeSight Hand 的自由度而无法完全复现人手的全部灵巧动作,以及缺乏面向操作者的触觉反馈。然而,其提出的“perioperation范式”,展现出在大规模、高真实性、接触丰富的机器人数据收集中巨大的发展潜力。该研究为推动“数据-硬件-算法”的协同进化奠定了坚实基础。通过提供更优质的数据,可以促进更具表现力的机器人硬件发展,从而推动更灵巧、更通用机器人系统的实现。
[1] Antotsiou D, Garcia-Hernando G, Kim T K. Task-oriented hand motion retargeting for dexterous manipulation imitation[C]//Proceedings of the European conference on computer vision (ECCV) workshops. 2018: 0-0.
[2] Qin Y, Su H, Wang X. From one hand to multiple hands: Imitation learning for dexterous manipulation from single-camera teleoperation[J]. IEEE Robotics and Automation Letters, 2022, 7(4): 10873-10881.
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
来源:白腿哥科技讲