摘要:官方视频中展示了机器人通过模仿人类操作,学习并完成各种家务任务,例如倒水、制作吐司早餐等。强调了机器人的物体追踪能力、智能跟随能力,以及通过学习大量人类视频数据来实现快速泛化的能力。
智元机器人发布了通用具身基座大模型——智元启元大模型(Genie Operator-1,简称GO-1)。
官方视频中展示了机器人通过模仿人类操作,学习并完成各种家务任务,例如倒水、制作吐司早餐等。强调了机器人的物体追踪能力、智能跟随能力,以及通过学习大量人类视频数据来实现快速泛化的能力。
那么,GO-1是如何实现这些功能的呢?其背后是ViLLA(视觉-语言-潜在动作)架构。
具体来看,该架构由VLM(多模态大模型)+MoE(混合专家模型)组成。其中,MoE里包含2个关键的组成混合专家1 —— Latent Planner(隐式规划器)和混合专家2 —— Action Expert(动作专家)。将用于场景感知和语言理解的视觉语言模型与用于运动规划和执行的专家系统相结合。通过在人类操作视频和真实机器人数据上进行训练,能够在极少输入的情况下实现快速泛化。
简单理解,VLM用多模态大模型InternVL-2B“看懂”和“听懂”任务,Latent Planner基于大量数据制定动作“蓝图”,Action Expert基于真机经验执行具体动作。
VLA模型通常基于大型神经网络,利用视觉输入(如摄像头图像)和语言指令(如“拿起杯子”)生成动作输出(如机器人手臂的移动),以执行复杂任务。VLA 模型的兴起得益于视觉-语言模型(VLM)和大语言模型(LLM)在机器人任务中的应用。典型例子包括OpenVLA、Helix 和 Pi0,这些模型通过视觉和语言输入直接生成动作。这些模型表明,通过大规模数据和先进的算法,机器人已经能够在一定程度上实现跨任务和跨场景的适应。
与VLA模型直接基于视觉和语言条件生成动作不同,ViLLA通过预测Latent Action Tokens(隐式动作标记),弥合图像-文本输入与机器人执行动作之间的鸿沟。在真实世界的灵巧操作和长时任务方面表现卓越,超过了已有的开源SOTA模型。
数据之困:如何让机器人“消化”海量网络视频?相比于互联网庞大的数据集,带有明确动作标签的机器人数据仍然很少。现有的VLA架构由于依赖真机和合成数据,而未能充分利用互联网视频这一宝贵资源。
这些不同来源、不同格式、不同结构的视频数据,在编码格式、帧率、分辨率、内容类型等方面存在差异,因此在处理时需要额外的适配和优化。导致机器人难以直接从视频中学习并执行任务。这种“翻译”过程涉及动作映射、环境适应等复杂问题,使得机器人迭代成本更高,进化速度更慢。
ViLLA的主要目的是为了利用利用这些视频资源。为此,智元机器人和上海AI Lab的研究人员提出了一种新方法,利用“潜在动作”来捕捉连续视频帧之间的动态关系。这样,就可以把那些没有动作标签的网络视频,以及不同类型机器人的数据,一起用于训练。
简单来说,这种方法能从各种不同来源的视频中学习真实世界的物理规律,并把这些知识转化为通用的机器人操作能力。
智元机器人在2024年末开源了AgiBot World数据集,这是一个大规模、高质量的现实世界机器人数据集,涵盖了五个应用领域的 217项任务,超过 100 万条轨迹,被称为具身智能的“ImageNet时刻”,GO-1的训练也利用了这些数据集数据集。
此外,数据方面,GO-1大模型的构建和训练整合了四种数据类型:通过互联网大规模纯文本和图文数据使机器人理解特定情境下指令的含义;借助人类和其他机器人操作视频学习任务的关键环节;利用仿真数据模拟不同物体、环境条件下的操作流程以打通整个任务过程;最后,通过真机示教数据,实现精准的操作执行。这种多元数据融合使GO-1能够从理解任务含义到精确完成实际操作的的能力。
GO-1“野心”:智元不想只做一个“造机器人的公司”一位Robotics行业从业者告诉硅星人,GO-1的亮点是引入了一个Latent空间,从而能够利用互联网的大量数据,但是技术路线基本是业内探索过的。“前段时间的Figure的Helix,也是用Latent Code作为语言和动作的桥梁,智元是把这个Latent code给明确化了,也确实是沿着之前的技术路线在走。”
Figure AI的具身大模型Helix 由System 2(S2)和 System 1(S1)组成。S2 是一个预训练的视觉-语言模型(VLM),负责场景理解和语言理解;S1 是一个快速反应策略,负责将 S2 的输出转化为机器人动作。S2 会生成“latent semantic representations”(潜语义表示),S1则将其转化为“precise continuous robot actions”(精确的连续机器人动作)。
科技博主不是郑小康也认为,智元新推出的GenieOperator-1(GO-1)与Physical Intelligence去年10月发布的π0模型存在一些“异曲同工”之处。比如,两者均为VLM+动作专家模型,能通过视觉语言输入执行复杂任务。训练上都结合了互联网数据与专业数据集——智元使用AgiBot World,PI则采用Open X Embodiment及自有数据。技术路线各有特色:GO-1配备隐式规划器提升视频学习能力;π0应用流匹配Diffusion变体实现50Hz连续动作输出,动作更为流畅。
具身大模型GO-1和数据集AgiBot World都是AgiBot World Colosseo的一部分。AgiBot World Colosseo由上海AI Lab与智元机器人联合推出。主要贡献在于构建了大规模、高质量的机器人学习数据集,以及开发了利用潜在动作表示的机器人基础策略,使其能够在异构数据上进行预训练。技术报告中也明确提到,团队试图为机器人领域提供类似于NLP和CV领域那样的数据基础。
其次是推动通用机器人能力的研究。强调了从简单的实验室任务向复杂、长期规划的真实世界任务转变的重要性。通过覆盖家庭、零售、工业、餐厅和办公室等多种真实场景,希望训练出能够应对开放环境复杂性的通用型机器人策略。
此外AgiBot World Colosseo通过提供标准化的数据收集管道和人在回路的验证机制,建立了一个可靠的平台来评估不同算法的性能,使研究更具可比性和可重复性。
最后,根据AgiBot World Colosseo的实验,模型性能与数据规模之间存在幂律关系,这验证了“数据规模化”策略在机器人领域的有效性,为未来更大规模的数据收集提供了理论支持。
根据技术报告,GO-1模型在复杂任务中的成功率超过60%,比现有技术高出32%。另外值得关注的是,团队承诺将整个生态系统开源。目前,数据集、工具链和预训练模型均已开源。
GO-1的发布也透露出智元这家公司的野心。
“对机器人公司,你如果不做大模型,那是属于没有未来的机器人,没有智能化,没有作业能力只是一个硬件。他能做的事情非常有限,所以我们投入非常大的。”智元具身业务部总裁姚卯青在模型发布后点评到。
作为被大家因硬件创造能力而最初熟悉起来的公司,智元显然不想变成又一个“传统机器人公司”,不想只做机器人的本体和硬件产品。今天具身智能的火热背后,是AI软件层面的突破,算法模型和硬件的结合是一切想象力所在。这也是智元想让外界注意到的能力。
GO-1这个名称让人联想到AlphaGo这一AI史上的里程碑,这个充满野心的模型发布后,要让这个通用的模型真正变成机器人智能迭代的关键还有很多工作要做,但对智元来说,最重要的是它已经迈出了这关键一步。
来源:硅星人