抢跑特斯拉,中国团队用视频学习教机器人学会操作

B站影视 内地电影 2025-09-28 11:05 1

摘要:当特斯拉宣布Optimus机器人将摒弃传统动作捕捉方案,转而借助员工日常操作视频开展训练时,这一决策犹如投入湖面的巨石,在业界激起千层浪,也昭示着具身智能的学习范式正经历着一场深刻变革。

当特斯拉宣布 Optimus 机器人将摒弃传统动作捕捉方案,转而借助员工日常操作视频开展训练时,这一决策犹如投入湖面的巨石,在业界激起千层浪,也昭示着具身智能的学习范式正经历着一场深刻变革。

无独有偶,李飞飞团队、Figure AI 也都提出了机器人通过人类视频学习日常技能的方法。

但很少有人知道,这背后的底层技术,有一个中国团队早已抢先落地:早在今年年初,跨维智能披露 YOTO (You Only Teach Once) 双臂协同精巧操作技术框架(YOTO [1]),用30秒短视频,将双机械臂训成“米其林帮厨”,0 遥操、0 真机、无需采集大量真机数据,高泛化迁移能力。这一前沿的技术框架,演示了仅凭单条双目纯视觉人类视频,就能让双臂机器人零示教复现复杂长程操作,相关论文亦于2025年初被机器人顶会RSS收录。视频学习的赛点,其实早已在中国按下“开始”键。

这种 “所见即所得” 的学习模式,极大地拓展了机器人与环境交互的可能性边界。

近期,该研究团队再次发布升级版视频学习框架,双臂机器人不仅能完成精准的双臂长程任务,更是能自主识别任务对象的状态,无论是倒扣的透明一次性碗或塑料框,还是从未见过的任意丢出的多种水瓶,面对随机的干扰,都能丝滑地将任务完成,任务成功率高达95%。并且这一系列操作,已经快速迁移到不同的机器人本体,体现出该技术架构通往智能涌现的无限潜力。

1. 视频学习的本质到底是什么,真能让机器人“一看就会”吗?

视频学习的本质在于将人类在视频中暴露出的时空行为模式与语义意图转化为可供机器人执行的操作策略:视频提供了丰富的自然演示,包括空间布局、手-物交互、动作分段与语义上下文等。这些信息如果被可靠地抽取与对齐,能够极大地降低对人工示教或昂贵遥操作数据的依赖,从而实现规模化的技能获取(关于从互联网视频扩展机器人学习的概念与综述,请参见近年的Survey [2])。

图源自网络

然而,视频学习天然存在若干核心缺陷:

• 具身本体差异:人类演示的运动学/动力学与机器人平台往往不匹配,直接照搬会导致失败;

• 物理交互缺失:单纯的视觉信号无法提供接触力、摩擦等物理量,导致策略在真实接触时不稳定;

• 感知噪声与语义歧义:比如遮挡、视角差异、物体多样性等使得直接从稀疏无标签视频中学到可执行动作存在高噪比;

• 长时序一致性与阶段化策略学习的困难:即如何从连续视频中抽取有语义的分段(keyframes)并保持时空一致性。

上述问题也是近期多项具身操作领域的研究工作试图解决的动因,例如若干团队正探索用大规模视频预训练或无标签视频蒸馏来获得通用视觉-动作表示(Latent Action Pretraining [3] / VidBot [4] 等),以期向“从互联网视频直接学习可跨形态的机器人控制”靠近。

在跨维智能研究团队的视频学习框架中,团队通过一系列设计,有针对性地缓解了上述固有缺陷。

为了解决具身本体差异与长时序一致性问题,并不直接回归密集连续动作,而是将人手演示简化为语义化的关键帧序列与运动掩码(motion mask),该离散化既能去噪又保留了操作任务的要点,使得在不同臂型之间的运动重定向(retargeting)更稳定、易校正。

为了解决物理交互信息缺失,团队采用示教驱动的快速示例增殖(auto-rollout + 3D几何变换),在真实机器人上生成多样化、可验证的训练示例,从而在视觉与真实执行之间建立可靠对照样本。为提高感知鲁棒性并实现闭环抗扰,团队在 YOTO++ 中引入轻量级的视觉对齐(pre-grasp alignment)模块(YOTO++ [5]),利用 2D mask 的几何中心与二阶矩估计平移与朝向偏差,并通过手眼标定映射到机器人坐标系,从而在初始抓取阶段实施高频闭环校正,这一做法在动态扰动下显著提升了抓取与后续执行的成功率。

该视频学习框架的做法与当前“用大模型做语义引导”的趋势是互补的(比如李飞飞团队提出的关联关键点ReKep [6]、操作模态链CoM [7]等 ):团队把多模态大模型(VLM)用于物体语义/掩膜/语言提示的稳健感知,而把关键帧+扩散策略(BiDP)用于动作表示与生成,二者在“语义先导、动作可执行”的路径上形成协同。

实际上,近年来业界的动向(以 Google 与 Tesla 为例)也反映了两条互补路线:一方面,Google 等团队尝试将大规模多模态/语言模型与机器人控制结合(例如 RT-1 [8] / Gemini Robotics [9] 的思路),强调把语言与视觉作为条件来训练统一的控制器,从而提高跨任务泛化;另一方面,工业阵营(例如 Tesla 的 Optimus 团队)正在将训练重心从昂贵的动作捕捉/遥操作转向大规模、视觉驱动的数据采集,以期通过海量视频或员工演示实现更高的训练覆盖面。这两条路线均显示出“用大规模视频与强语义模型扩大样本池”的潜力,但也同时凸显了纯视觉预训练在物理可靠性与跨具身执行上的局限性。

另一个观察视角是重新审视“数据金字塔”的概念,团队将视频模仿学习的样本来源分层为:底层为海量互联网视频,特点是无标签、分布多样、语义丰富;中间为半结构化的人类演示数据/仿真合成数据,常常带有较好视角与场景一致性,但与机器人本体仍旧存在些许差异;顶层为验证过的真机数据 / 遥操作数据,这些数据带精确动作与物理反馈。这些数据的获取难度逐层递增,现存的数量也逐渐变得稀少。

跨维智能视频学习框架的设计理念是:利用底层与中层的视频来快速获取语义与时空先验(高效、直观、可解释),再通过自动增殖与少量真实回放快速生成底层的有标签训练对照,从而形成“少样本——可扩展——可验证”的闭环体系。这种“少样本视频模仿”具有直观(直接来自人类演示)、高效(减少昂贵采集)、可扩展(通过几何变换/合成扩增)与可解释(关键帧/语义标签易于人工审查)等优点,从而在实用工程中更加可行。跨维智能研究团队在视频学习方向上展示出了超前、卓越的技术成果:

• 基于关键帧与 motion mask 的表示,能在跨臂型迁移中显著提高执行成功率;

• 结合真实 auto-rollout 与几何扩增的数据增殖策略,可在不大量人工标注的情况下快速产出数千条可验证轨迹以训练鲁棒策略;

• 视觉对齐的闭环预抓取,在多次动态扰动试验中显著提升抓取成功率并缩小抓取到完成任务间的性能差距(即部分解决了最脆弱的接触前阶段);

• 将 VLM 用作语义/掩膜增强器与将 BiDP 用作动作生成器的组合,能在工具使用等长时序任务中维持较好的时空一致性与泛化能力;

使用该视频学习框架既契合大规模视频预训练的长期发展方向,也通过工程化的表示、数据增殖与闭环对齐手段,补足了纯视频学习在“物理可执行性”方面的短板,从而为可泛化的具身操作提供了一条务实可落地的路线。

2. 视频学习结合 Sim2Real 技术,机器人高鲁棒、泛化的曙光

这一创新性的视频学习框架,通过极少的真实数据样本,结合 Sim2Real 高效数据增殖,使VLA模型具备极强的泛化性能。在家居服务场景中,机器人仅需一次视频数据输入,即可达到任务成功率≥95%。

视频中,双臂机器人通过“头部”的双目纯视觉传感器识别不同瓶子的位置及状态,能快速地将随机扔出的任意状态的瓶子扶正。即便面对随机扔出的未见过的瓶子,机器人仍然体现出了极强的抗干扰及泛化能力,并且在连续作业中体现出了高达95%的任务成功率,率先通过“连续 20 次一镜到底”压力测试。

同时,机器人在面对连续的随机干扰时,能自主识别哪只“手”距离瓶子更近,用更靠近操作对象的“手”去完成任务。这一技术不仅实现了任意未知物体、未知状态间、连续扰动下的技能泛化,还实现了新技能的0真机快速生成、跨机器人平台的平滑迁移,体现出了VLA模型更智能、高鲁棒、跨场景、规模化部署的无限潜力。

研究团队正是以视频学习框架为核心,面向动态环境提出的这一套高效且鲁棒的模型适配框架。

该框架利用视觉语言大模型(VLMs)的跨模态理解与推理能力,从单次示教人手视频中抽取关键帧,并生成动作语义化表示,显著降低数据需求;同时建立“感知—语义—动作”统一表征,将领域知识嵌入视觉、语言与动作空间,实现跨任务、跨环境泛化。

为提升抗干扰与一致性,研究团队引入 Sim2Real 数据扩增与增量适配机制,提出“闭环抓取 + 开环执行”混合控制范式,并设计基于图像矩的轻量化视觉对齐算法替代传统 6D 姿态估计,确保高动态场景下的实时性能。

进一步地,双臂扩散策略模型(BiDP)结合语义条件学习,对长时序、多阶段动作(如工具使用)进行建模,保持时空一致性。实验在单臂、对侧双臂、同侧双臂及人形双臂等多种具身平台上验证框架的跨形态可迁移性,突破了传统模仿学习对大规模示教和单一任务环境的依赖。

3. 具身智能或将迈入“全民共创”新时代

从厨房到便利店、从产线到无菌实验室,双臂机器人一旦摆脱“千次示教、万元治具”的枷锁,具备“看完就会”的协同能力,将把“示范一次”变成“遍地可用”的新标准,这必将带领机器人叩开千行百业的大门。

这种技术演进正在重塑工业智能化发展路径。从跨维智能让机器人看懂互联网视频,到特斯拉用头盔摄像头记录员工动作,具身智能正逐步摆脱对专业数据采集的依赖,迈向 “全民共创” 的崭新时代。跨维智能视频学习框架的成功实践充分证明,视频不再仅仅是数据的载体,更成为了机器人理解世界的 “通用语言”。随着多视角融合、开放域识别等技术的日益成熟,未来,工厂里的机器人或许能通过观看数十年前的工艺视频,重新掌握失传的技艺;家庭服务机器人也可实时学习网红菜谱。这种跨越时空的知识传递能力,正是视频学习赋予具身智能的独特魅力所在。

Reference:

[1] You Only Teach Once: Learn One-Shot Bimanual Robotic Manipulation from Video Demonstrations, RSS'2025 https://arxiv.org/abs/2501.14208

[2] Towards Generalist Robot Learning from Internet Video: A Survey, JAIR'2025 https://arxiv.org/abs/2404.19664

[3] Latent Action Pretraining from Videos, ICLR'2025 https://arxiv.org/abs/2410.11758

[4] VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation, CVPR'2025 https://arxiv.org/abs/2503.07135

[5] YOTO++: Learning Long-Horizon Closed-Loop Bimanual Manipulation from One-Shot Human Video Demonstrations, https://hnuzhy.github.io/projects/YOTOPlus/

[6] ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation, CoRL'2025 https://arxiv.org/abs/2409.01652

[7] Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models, ICRA'2025 https://arxiv.org/abs/2504.13351

[8] RT-1: Robotics Transformer for Real-World Control at Scale, RSS'2023 https://arxiv.org/abs/2212.06817

[9] Gemini Robotics: Bringing AI into the Physical World, https://arxiv.org/abs/2503.20020

来源:机器人大讲堂

相关推荐