摘要:从厨房中切菜倒水的行云流水,到实验室里操作精密仪器的精细入微,人类双手展现出与物体进行精准交互并完成复杂任务的高超能力。这种能力在常人看来或许平常,但对机器人而言,要想进行复现却面临巨大挑战。
从厨房中切菜倒水的行云流水,到实验室里操作精密仪器的精细入微,人类双手展现出与物体进行精准交互并完成复杂任务的高超能力。这种能力在常人看来或许平常,但对机器人而言,要想进行复现却面临巨大挑战。
究其原因,主要在于人类双手的灵活运用背后,涉及对物体功能、操作逻辑与任务目标的深度理解和认知,而当前技术虽已在手部姿态估计、交互合成等领域取得一定进展,但在长程、多目标任务的执行中仍与人类水平存在显著差距。
图1. 团队提出 OakInk2数据集的数据和内容概览。OakInk2数据集专注于复杂日常活动中的双手操作物体任务。1)第一行展示了数据收集过程,包括任务设置(左上角面板)、人类演示(中间上方)和标注(右上角)。2)第二行展示了OakInk2为复杂任务构建的三个抽象层次,包括功能可供性(Affordance)、基元任务(Primitive Task)和复杂任务(Complex Task)。OakInk2数据集提供了人体操作过程的第三人称和第一人称视频,以及相应的3D姿态标注和任务规范。
为攻克这一难题,穹彻智能携手上海交通大学卢策吾团队发布 OakInk2数据集,首次通过三级抽象结构(功能可供性Affordance - 基元任务 Primitive Task -复杂任务 Complex Task)系统化解构双手操作,提出了表征与理解物理世界中机器人操作任务的新方法。
项目地址:https://oakink.net/v2/
论文链接:
▍结构化认知:三层框架解码复杂操作
OakInk2采取了以物体为中心的三层递进任务表示,将复杂操作转化为机器可解析的层级化结构,构建从物体功能到任务规划的完整认知链条:
1. 功能可供性(Affordance)
物理世界的“功能词典”:定义物体或其部件所能提供的核心功能,如“刀刃可切割物体”、“瓶盖可密封液体”,并与物体几何特征(刀刃曲率、螺纹结构)及物理参数(摩擦系数、扭矩阈值)深度绑定。
300+功能-物体映射:覆盖75类物体、38种功能,涵盖刚体(刀具)、关节体(抽屉)等形态,为机器人提供“工具选择”的常识逻辑。
2. 基元任务(Primitive Task)
“基元任务”是实现单一功能可供性的最小交互单元,例如“拧瓶盖”对应密封功能,包含抓取、旋转、施压等动作链。每个基元任务都设定了严格的起止条件和运动约束,确保动作的可量化与可复现。
动作的“原子单位”:包含60类完成物体对应功能的“最小”交互单元,涵盖“切割”、“倾倒”、“插拔”等高频操作,平均时长8.1秒,为复杂任务的分解提供了清晰的路径。
物理约束显式建模:例如“拧瓶盖”要求螺纹完全啮合,确保密封功能实现。
3. 复杂任务:多目标任务的系统化表示
图2. 复杂任务获取过程的示意图。该图以一个复杂任务“准备一杯热甜水果茶”为例来展示整个过程。最初,标注者分析了四种基本物体(夹子、刀、茶壶和微波炉)的功能可供性,并设计了相应的基元任务。例如,为了准备水果片,需要执行与刀片相关的基元任务“切割”。随后,专家为复杂任务布置场景,接着,受试者利用设计好的基元任务,规划复杂任务的执行路径。之后,这些执行路径被构建成基元任务依赖图。
“复杂任务”是指通过多个原始任务的顺序组合来完成具有长时间跨度和多目标的操控任务。
多目标任务的系统化表示:通过构建基元任务依赖图(PDG),详细描述了基元任务之间的依赖关系和执行顺序,为复杂任务的规划和执行提供了系统的表示方法。例如,从密封的瓶子中倒出液体,必须先拧开瓶盖,然后才能倒出液体。
38种复杂任务模板:最大深度达12层基元链,例如,“准备热茶”任务分解为开茶叶罐(L0)→倒茶叶(L1)→加热水(L2)→搅拌(L3)、关茶叶罐(L3),层级间依赖通过基元任务依赖图表征,如必须打开茶叶罐才能取出茶叶、在加入茶叶和热水之后才能搅拌。
图3. 任务执行的注释说明。左列:当前场景的状态。中列:从专家处检索到的叙事对话。右列:即将执行的原语任务。
▍数据规模与质量双突破
OakInk2在数据工程层面实现了“量-质-维”三重飞跃,树立了双手操作数据集的新标杆。其大规模、高质量的数据为机器人操作智能的研究提供了坚实的基础。
1.多场景覆盖,大规模的多模态数据集
场景覆盖:OakInk2涵盖4大交互场景(厨房、书房、实验室、浴室),包含75类物体,涵盖刚体(刀具)、关节体(抽屉)等形态,确保数据集的多样性和广泛适用性。
数据总量:数据集包含627个任务序列(4百万帧图像),其中264个为复杂任务,可解析为1376个基元任务。
多模态同步:4视角RGB视频(1个第一人称和3个第三人称)和12相机光学动捕系统,结合9名受试者SMPL-X姿态序列,构建时空对齐的多模态数据库,为多视角感知和运动分析提供了丰富的数据支持。
2.高精度且符合物理学约束
标注精度:
手部姿态和形状:跨数据集验证了OakInk2在手部重建任务上的有效性。
物体位姿:光学动捕系统确保物体位姿追踪的高精度和可靠性。
物理合理性:
手物交互过程中的穿透深度(PD)
采集系统:采用环形布局的12台OptiTrack Prime 13W动捕相机(定位精度0.1mm),与4台RGB相机同步采集,时间同步误差
▍三大核心应用场景
OakInk2数据集因其多模态、结构化的任务分解框架等特点,在手部网格重建、动作生成、复杂任务规划等机器人操作领域的核心场景任务,都有突破性应用。
1. 手部姿态准确估计
手部网格重建(Hand Mesh Reconstruction, HMR)是 OakInk2数据集在实际任务中的重要应用之一。通过4路同步摄像头(1路第一人称视角+3路第三人称视角)构建空间感知网络,结合改进的Transformer架构(POEM算法),实现手部姿态毫米级重建(如表2,单视角6.18mm、多视角5.46mm的PA-MPJPE精度,超越基线模型20%以上)。这一功能对于理解人类手势、开发人机交互系统以及设计辅助机器人等具有重要意义。OakInk2数据集通过多视角图像流和精确的3D姿态注释,为手部姿态估计提供了丰富的数据支持,使得模型能够在不同视角下准确还原手部网格,为相关研究提供了坚实的基础。
2. 带任务语义对齐的动作生成
任务感知运动实现(Task-aware Motion Fulfillment, TaMF),OakInk2在已有方法基础上提出MF-MDM双阶段架构(生成器+优化器),通过轨迹Transformer和扩散模型实现动作-物体轨迹耦合。
图5. MF-MDM架构。首先采样随机噪声xT;然后在每一步从T到1的迭代中,MF-MDM G预测去噪后的样本x0,并将其扩散回xt−1。在生成样本x0后,通过MF-MDM R对其进行细化,以获得更好的交互细节。
该功能能够根据给定的文本任务描述和物体运动轨迹,生成符合功能语义的手部动作(接触率0.90,运动平滑度PSKL-J 0.0446),以完成特定的物体轨迹需求,解决了“动作-任务”语义对齐难题。
这一功能在机器人操作、虚拟现实和增强现实等领域具有广泛的应用前景。例如,在机器人操作中,TaMF可以帮助机器人根据任务目标生成精确的动作序列,从而更高效地完成任务。OakInk2数据集通过提供高质量的运动数据和任务描述,为TaMF任务提供了丰富的训练素材,使得生成的运动轨迹不仅物理上合理,而且具有高度的真实性。
3. 复杂任务解析与规划
复杂任务完成(Complex Task Completion, CTC),创新融合大语言模型(GPT-4)与动作知识库,是OakInk2数据集在实际任务中的又一重要应用。大语言模型任务解析器采用GPT-4构建语义-逻辑转换层,将"准备早餐"等指令分解为平均4.2个基元任务的PDG图(依赖关系规划准确率78.6%),运动知识图谱建立包含60类基元任务的Oracle系统,为场景中的物体中重新定位轨迹。手部运动生成器基于TaMF和物体轨迹生成完成给定基元任务的手部运动轨迹。
CTC能够帮助机器人或智能系统更好地理解和执行复杂的任务。这一功能在自动化生产线、家庭服务机器人以及医疗辅助机器人等领域具有巨大的应用潜力。OakInk2数据集通过提供复杂的任务场景和详细的任务分解,为CTC任务提供了丰富的数据支持,使得机器人能够更智能地规划和执行任务。
图8. 复杂任务完成的流程图。任务输入填充一个预定义的模板以生成规划提示。1⚪大语言模型(LLM,如GPT-4)通过程序执行路径的代码进行响应,勾勒出基元任务依赖的有向无环图(DAG)。在代码响应块中,橙色片段标记了2⚪用于重新定位物体轨迹的Oracle;蓝色片段指示了3⚪基元任务的运动生成器。
▍从 OakInk 到 OakInk2:持续进化之路
团队于CVPR 2022发布初代OakInk数据集。借助运动捕捉平台,数据集包含1000段视频,记录了12名参与者在100个实例物体(来自32个类别)的基础上完成多达5种基于意图的手部交互。基于收集到的真实世界示范数据,提出了一个新的学习拟合混合的方法(Tink),在物体之间迁移交互知识,进一步将交互数据从1000条扩充至5万条。在OakInk数据集中,团队为每个物体标注了其功能部件、可供性标签,并提供了人类抓取姿态,这些姿态揭示了操控过程中使用该可供性的意图。
OakInk2在此基础上扩展了数据和方法:收集了实现物体可供性的真实示范数据,引入了包含多个物体可供性按顺序执行的复杂操控任务。这些扩展不仅丰富了数据集的内容,还为研究者提供了更多探索复杂任务操作的机会。
▍未来展望
OakInk2的发布为机器人操作智能研究开辟了多维进化路径,其结构化数据架构与任务分解范式将推动以下前沿方向的突破:
1. 语言-操作跨模态预训练
依托数据集中300+功能语义标签与60类基元任务的强关联性,研究者可构建多模态大模型的新型训练基座。通过将物体功能(如“切割”、“密封”)与自然语言指令(如“削苹果皮”、“拧紧瓶盖”)映射到统一语义空间,模型可学习从抽象指令到物理操作的跨模态推理能力。这一方向有望突破当前视觉-语言模型在具身操作中的“语义鸿沟”,实现“看到即理解,理解即执行”的智能跃迁。
2. 端到端任务链生成
基于基元任务库的模块化特性,未来研究可探索从自然语言指令直接生成操作程序链的通用框架。例如,当接收到“用微波炉加热牛奶”指令时,系统能自动分解为[取杯→开盖→倒奶→设定功率→启动加热]的基元序列,并同步生成各步骤的运动学参数(如:旋转角度120°)。关键技术挑战在于建立层级化动作规划与物理约束的联合优化模型,这需要数据集提供的精确时空标注作为训练基础。
3. 异构操作终端迁移
OakInk2的基元任务库具有强可移植性,可通过运动重定向技术适配不同形态的机器人平台。利用近来出现的灵巧手轨迹追踪算法,OakInk2中的操作任务演示可迁移至不同灵巧手上,为多种操作场景提供灵巧操作技能库。
4. 仿真-现实闭环进化
数据集构建的4大交互场景已完整迁移至Isaac Gym物理引擎,形成虚实联动的训练模式。虚拟环境可生成无限扩展的任务变体(如不同形状的刀具、多样化的桌面布局),通过强化学习训练策略模型;真实世界采集的高精度操作数据则用于校正仿真参数(如摩擦系数、惯性矩)。这种闭环系统将加速机器人应对开放场景的适应能力。
上述方向并非孤立发展,而是构成协同进化的技术生态:语言-操作预训练提供语义理解基础,端到端生成框架实现任务规划,异构迁移技术扩展应用边界,仿真-现实闭环保障落地可靠性。这种多维联动将推动机器人操作智能从“单一技能复现”向“开放场景推理”跨越,最终实现“像人类一样思考工具价值,像工匠一样精准执行任务”的终极目标。OakInk2作为这一进程的基础设施,将持续为学术界与产业界提供创新引擎。
来源:机器人大讲堂