Figure发布Helix,技术路线与清华系具身智能企业“撞车”?

B站影视 2025-02-24 21:48 1

摘要:与OpenAI分道扬镳后,Figure多次预告的AI新成果,在2月20日晚终于揭晓了答案。Figure发布通用人形机器人控制的视觉-语言-动作(VLA)端到端具身模型Helix。实现了从视觉输入和自然语言指令到机器人动作的直接映射,克服了传统方法中需要大量任务

与OpenAI分道扬镳后,Figure多次预告的AI新成果,在2月20日晚终于揭晓了答案。Figure发布通用人形机器人控制的视觉-语言-动作(VLA)端到端具身模型Helix。实现了从视觉输入和自然语言指令到机器人动作的直接映射,克服了传统方法中需要大量任务特定训练的限制。其高效训练、强大泛化能力和多机器人协作功能,使其在人形机器人领域具有显著优势和广阔的应用前景。

从全球范围来看,无论是特斯拉、PhysicalIntelligence(PI),还是Figure都无一例外采用了端到端的大模型,由此看来,端到端具身大模型是实现具身智能体的重要路径。各路科技媒体纷纷报道这一世界级新成果。

英雄所见略同?

但有趣的是,机器人大讲堂经过深入研究发现,Figure Helix的这一最新模型架构却与清华姚班团队在2024年6月发表在CoRL2024的一篇论文中的端到端具身大模型HiRT模型架构高度相似。HiRT还同期应用在了清华系具身智能企业星动纪元自研端到端原生机器人大模型ERA-42上,因此星动也是国内第一个能够做到One policy for multipletasks,实现端到端原生机器人大模型落地真机的公司。

Figure Helix与清华姚班团队

2024年6月发布在CoRL2024的端到端具身大模型HiRT架构高度相似

HiRT应用在清华系具身智能企业星动纪元自研端到端原生机器人大模型ERA-42

HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers于2024年6月发表在CoRL2024

论文传送门:https://arxiv.org/pdf/2410.05273

Figure Helix的端到端机器人大模型架构

技术架构解读

从论文中可以看到Figure Helix和ERA-42在模型框架结构上高度相似,都采用相同的层次化系统结构,使用latent来连接上层视觉语言模型和下层控制网络,完全拥有相同的高频控制特性、泛化能力、端到端架构。

具体来看,首先,Helix和ERA-42都采用了层次化设计。

Helix:采用系统1(S1)和系统2(S2)的双系统架构。S2是一个拥有70亿参数的视觉-语言模型(VLM),处理频率为7-9Hz,负责高级理解;S1是一个拥有8000万参数的视觉-运动控制策略,处理频率为200Hz,负责实时动作控制。

ERA-42:采用高层次规划和低层次控制的双系统架构。高层次规划负责理解任务和生成动作序列,低层次控制负责实时执行动作。高层使用70亿参数的Instructblip 视觉语言模型,低层使用4000万参数的transformer结构,两种之间使用latent变量进行通信连接。

其次,两者都采用端到端训练。

Helix:Helix的训练是完全端到端的,从原始像素和自然语言指令映射到连续动作输出,使用标准回归损失进行训练。

ERA-42:ERA-42也支持端到端训练,能够直接从输入数据到输出动作进行学习,无需复杂的中间表示。

第三,两者都具备强大泛化能力。

Helix:Helix具有强大的泛化能力,能够处理数千种形状、大小和材质各异的物品,并且可以在零样本情况下泛化到新测试对象上。

ERA-42:ERA-42通过层次化的Transformer模型,能够更好地处理复杂的机器人控制任务,并且在不同的环境和任务中表现出良好的泛化能力。

第四,两者都可以在机器人上实现实时控制。

Helix:Helix的系统1(S1)能够以200Hz的频率输出精确的机器人动作,实现高精度的动作协调。

ERA-42:ERA-42通过层次化的Transformer模型,能够实现对机器人动作的实时控制,确保机器人在复杂环境中快速响应。

第五,两者都用单一神经网络。

Helix:Helix使用单一的一组神经网络来学习所有行为,无需进行任何针对特定任务的微调。

ERA-42:ERA-42通过层次化的Transformer模型,能够在一个统一的框架下处理多种机器人控制任务,无需为每个任务单独训练模型。

路线的分化与创新

后期,星动纪元还将世界模型融入原生机器人大模型ERA-42中

Video Prediction Policy:A Generalist Robot Policy with Predictive Visual Representations 于2024年12月发表在arXiv

论文传送门:https://arxiv.org/pdf/2412.14803

后期,星动纪元采取了一条不同的训练道路,将世界模型融入,使ERA-42不仅具备行动能力,还具备了对物理世界的理解能力,能够对未来行动轨迹进行预测,有效提升了机器人执行任务的高效性、准确性和在执行长时序任务时的抗干扰性,使人形机器人商业化应用潜力更进一步。

现实执行任务行动轨迹和ERA-42预测执行任务行动轨迹对比图,

体现了融入世界模型后ERA-42不仅能够对未来行动轨迹进行预测,且预测行动轨迹和现实行动轨迹几乎一致。

此外,强化学习在模型训练中的应用提升了模型的推理能力和泛化能力。它也为未来人工智能在具身智能体领域的研究和应用提供了新的思路和方法。

例如,DeepSeek通过其GRPO(基于群组采样的高效大语言模型强化学习训练方法)实现了更高效和稳定的训练过程。此外,强化学习还被证明能够激励模型自主发展出复杂的行为和解决问题的策略,例如DeepSeek-R1-Zero在训练过程中展现出的“顿悟时刻”,进一步证明了强化学习在解锁新智能水平方面的潜力。这些成果表明,强化学习不仅是提升模型性能的关键技术,更是未来人工智能发展的必然趋势。

因此,星动后续模型训练也采用了强化学习技术,通过奖励机制引导模型学习最优的动作策略。这些方法使得模型能够在复杂的环境中自主学习和优化,进一步提升训练效率、降低训练成本和提升了模型的泛化能力。(星动纪元发表相关论文:Improving Vision-Language-Action Model with Online Reinforcement Learning 在ICRA 2025)

论文传送门:https://arxiv.org/pdf/2501.16664

构建通用具身智能体需要软硬件协同迭代,就像人的“大脑”和“身体”需要同步成长一样,这也是星动纪元与Figure技术思路相一致的地方。据相关报道显示,ERA-42协同星动纪元自研全直驱、12个全主动自由度五指灵巧手星动XHAND1以及高性能通用人形机器人星动STAR1能够能够执行灵巧高精度任务。目前星动XHAND1已学会了使用不同工具完成100多种复杂灵巧操作精细化任务,并且持续在同一个模型下学习新的技能。

基于端到端原生机器人大模型以及为AI设计的硬件平台,国内企业在推动原生通用具身智能体产业落地方面已具备一定优势。随着技术的不断进步与完善,有望在未来的全球市场竞争中占据有利地位,并加速实现机器人的广泛应用。

来源:机器人大讲堂

相关推荐