马斯克宣布放弃遥操!具身机器人要靠看视频学干活了?

B站影视 日本电影 2025-09-02 19:45 1

摘要:Optimus开始尝试通过人类视频学习任务。此前据传Optimus人形机器人在6月就已经放弃动作捕捉服与远程操作方案,转向纯视觉数据驱动的训练方式。

把2D视频数据进行针对性升维,有望重构具身智能数据采集范式。

作者 | 许丽思

编辑 | 漠影

近日,马斯克在X上确认了一则消息,Optimus开始尝试通过人类视频学习任务。此前据传Optimus人形机器人在6月就已经放弃动作捕捉服与远程操作方案,转向纯视觉数据驱动的训练方式。

特斯拉希望借助互联网上海量的视频资源,提升数据收集效率、提升训练规模。这个逻辑和特斯拉自动驾驶系统(FSD)的研发路径高度相似——FSD就是通过车载摄像头捕捉的2D视频,实现对道路环境的感知与决策,Optimus相当于把这一视觉学习思路从车迁移到了人形机器人上。

当前在具身智能领域,数据获取主要有两大路径:遥操作和虚拟合成。遥操作能够获取机械臂末端轨迹、末端开合状态及第一/第三摄像头视角信息,数据模态丰富但搜集效率低成本高;虚拟合成则是在仿真环境中生成数据,成本低但存在sim2real gap,而特斯拉试图跳过这两类方案存在的局限,直接从海量视频中提取具身数据。

视频数据蕴含着丰富的物理信息、空间信息与交互信息,且获取成本极低,堪称具身数据宝库,有望重构具身智能数据采集范式。但如何使用视频数据赋能具身模型训练,行业仍处于探索阶段。

根据特斯拉的Milan Kovac的披露,特斯拉目前已经实现让机器人从第一视角视频中学习,正在努力尝试将这一能力迁移到使用包含人类作业过程的第三视角视频上。这一突破一旦实现,意味着未来互联网上的海量视频都将成为具身智能的训练数据,机器人能像人一样通过“看”视频学习新技能!

然而行业目前对纯视频训练具身模型存在诸多质疑:根据最新的研究,仅2D视频并不足以满足具身模型的训练需求,要想具身模型有更好的泛化性和更高的任务成功率,还需要机器人末端3D坐标及轨迹、6DOF位姿,被操作物体轨迹,第一视角视频等等多模态数据。这类数据目前仍然要依靠昂贵的人工遥操作方式采集,无法被2D视频替代。

特斯拉的具体的训练策略尚未可知,而一家来自深圳的年轻创企提出了更加颠覆的视频具身解决方案——将2D视频数据升维,还原空间信息,从2D视频中提取出操作轨迹、末端6DOF位姿等具身模型训练所必须的多模态数据,进而实现视频训练具身智能模型。

▲2D视频数据升维,实现视频提取具身数据

这家公司是枢途科技,他们推出的SynaData数据管线实现了从互联网RGB视频中提取具身智能训练数据,并实现了清华RDT、PI π0等第三方VLA模型的数据验证。除了满足VLA模型所必须的操作轨迹、末端状态等信息外,SynaData还能提取出物体mesh、物体点云、末端与物体的接触状态及接触力、物体6DOF位姿等关键数据。这些信息,恰恰是机器人能在真实世界中精准干活的核心。

枢途科技成立于2024年,聚焦于多模态具身智能技术研发,已获得来自包括前微软全球副总裁陆奇博士在内的多轮融资。创始人兼CTO林啸是一名科技领域连续创业者,师从香港科技大学机器人研究院院长张福民教授,具有多年的数据编码器及模型研发经验,枢途核心成员来自Google Deepmind、腾讯、上汽、清华大学等头部企业和科研机构,涵盖了计算机视觉、传统图形学、深度学习与机器人运动控制等领域。

近日,机器人前瞻对话林啸,深入了解这家年轻创企如何跳出行业惯性,走出了一条独树一帜的具身智能数据训练路径。

01.

破解具身智能数据之困

把2D视频升维成多模态数据

具身智能的目标是让机器人像人一样理解并交互物理世界,而这一切的前提,是海量高质量的训练数据。但当前行业面临的现实是:数据要么太贵、要么质量不够高。

传统的遥操方案需要人力去手把手教,不仅效率低下、难以规模化,成本上和硬件强绑定,采集成本高。也有不少企业尝试在仿真环境中生成数据,但仿真环境比较难精准模拟真实世界的物理约束sim2real gap让训练出来的模型容易在真实场景中掉链子。

既然遥操方案无法规模化,仿真数据质量又不够好,那么是否有可规模化又高质量的数据采集方案呢?结合在视频数据编码器和模型研发上的多年研究经验,林啸与特斯拉一样,默契地选择了包含丰富物理约束、高维信息的视频数据作为掘金对象。

行业目前对视频数据使用的思路包含几类:

1、从视频中学习任务意图:对视频进行语义理解和任务拆解,比如把冲咖啡的视频拆解成“拿杯子—加咖啡粉—倒水”这样一系列流程,机器人可以通过视频来理解人类做什么,分几步做。

2、从视频中学习操作轨迹:用视频的下一帧预测指导机器人“预测下一步动作”,虽然借助扩散模型确实可以逐步推演机器人末端下一时间单位的空间坐标从而形成轨迹,但推理成本巨大且推理过程“黑箱”:模型能力提升了,不知道是视频里的哪个细节起了作用;模型失效了,也不知道该怎么优化,只能不断增加数据,增加成本。

枢途科技的突破,在于跳出了传统的视频使用思维,选择对2D视频进行针对性升维,提取出符合具身智能需求的高维多模态数据。高维数据能更精准地描述物理世界,机器人模型的学习效率和泛化能力自然会提升,还具有了可解释性和定向优化的能力。

▲SynaData视频具身数据提取

02.

具身训练精度、成功率大幅提升

数采成本降到千分之五

受到拍摄设备多变、空间数据缺失、拍摄视角变化等限制,要用视频数据训练机器人,经常面临视频提取轨迹及其他多模态数据精度不足等各类问题。

枢途SynaData从几个方面解决了相关痛点:

1、毫米级轨迹提取引擎:单目视频存在缺乏深度信息、物体自遮挡问题,SynaData通过整合海量先验知识库,实现了数据升维真实性和轨迹复原的准确性。在餐具分拣测试中,轨迹重建误差从传统方法的±5厘米降至±0.5厘米,让机器人的抓取动作更加精准。

▲展示提包的互联网视频转化为训练机器人拎包的数据

2、跨域Retargeting技术:动态结构适配算法,实现跨形态高精度运动重定向,将模仿学习误差降低超50%,任务成功率提升40%,大幅降低human to humanoid迁移成本。能将视频具身数据运用于不同类型、不同品牌、不同自由度的机器人本体上。

▲SynaData毫米级轨迹提取及跨域Retargeting技术

3、真实物理属性约束:解决在仿真环境中缺乏物理属性(摩擦力、惯性、重力加速度等)约束问题,确保机器人能够以真实世界的物理形态操作。

以“拿取外卖袋”这个任务为例,枢途SynaData从海量人手拿取袋装物体视频中批量提取出人手及物体轨迹、物体mesh等具身数据,并用于模型训练。该数据集训练的抓取模型对外卖袋的抓取成功率提升至88%

▲机械臂通过大量视频数据学会抓袋子

据了解,SynaData将具身数据的综合采集成本降至行业平均水平的千分之五。林啸提到,这不仅意味着数据采集成本的降低,而是从客户提出需求到机器人真正能实现动作的全流程的成本降低到千分级别以下。

目前,SynaData已通过了第三方具身模型的广泛验证,成功应用于清华RDT、PI π0、智元UniVLA、EquiBot等主流VLA模型,推动具身智能训练从“手把手教学”奔向“观看教学”新范式。

林啸介绍,SynaData在学术领域的应用,能够为模型研发带来新思路。此前,高校与科研机构的具身智能研究,大多依赖遥操或仿真数据集,数据场景可能会较为单一、特征相似,限制了对模型的探索。而枢途SynaData提供的数据包含20个以上的模态维度,产出涵盖抓取、放置、组装等逾百种任务场景的数据集,为研究人员提供了新的探索空间。

在商业化落地方面,枢途已经和国内多家头部人形机器人企业展开合作,SynaData能帮助机器人企业实现运动控制、灵巧操作方面的能力,同一套数据适配多种不同的硬件。

▲人形机器人学习视频中的人类动作

03.

结语:解锁视频富矿

支撑机器人走向千行百业

对于枢途科技而言,SynaData的发布只是一个开始。未来,其将从三大方面拓展视频数据采集的技术边界:

精度升级:通过引入动态遮挡建模和多视角重建机制,将各模态重建平均精度从目前的5毫米级进一步压缩至2毫米以下,满足更多模态支持需求;

泛化扩展:持续扩展支持的机器人本体数量至100种以上,适配包含人形机器人、多类型灵巧手、协作机械臂,AGV、AMR等各类结构;

生态共建:枢途计划于2025年四季度发布首个基于真实场景视频的多模态具身开源数据集,与NVIDIA Isaac等仿真环境伙伴共建具身数据基础设施。

“模型决定上限,数据逼近上限。”林啸强调,“SynaData的出现,为数据这一核心短板提供了可行解,不仅降低了数据成本,更是解锁了互联网上海量的视频‘数据富矿’,让机器人能像人类看视频学技能一样,高效获取真实世界的交互经验,为机器人进入千行百业提供数据上的核心支撑!

来源:机器人前瞻

相关推荐