“不做大模型,机器人是没有未来的”,智元发布首个通用具身基座大模型

B站影视 日本电影 2025-03-10 15:00 2

摘要:“对机器人公司,你如果不做大模型,那是属于没有未来的机器人,没有智能化,没有作业能力只是一个硬件。他能做的事情非常有限,所以我们投入非常大的。”智元新创技术有限公司研究院执行院长、具身业务部总裁姚卯青在2025年3月10日的线上媒体沟通会上如是说。

“对机器人公司,你如果不做大模型,那是属于没有未来的机器人,没有智能化,没有作业能力只是一个硬件。他能做的事情非常有限,所以我们投入非常大的。”智元新创技术有限公司研究院执行院长、具身业务部总裁姚卯青在2025年3月10日的线上媒体沟通会上如是说。

这一天,智元机器人正式发布了全球首个通用具身基座大模型——智元启元大模型(Genie Operator-1,简称GO-1),这标志着具身智能向通用化、开放化、智能化方向快速迈进。

ViLLA架构:从数字金字塔到具身智能的飞跃

GO-1的核心在于其开创性的Vision-Language-Latent-Action(ViLLA)架构。这一架构由多模态大模型(VLM)与混合专家模型(MoE)组成,试图弥合视觉、语言与动作之间的鸿沟。

任广辉详细阐述了这一设计的初衷:“现有的VLA(Vision-Language-Action)架构没有充分利用大规模人类和跨本体操作视频数据,缺少一个重要的来源,导致迭代成本高、进化速度慢。我们提出的ViLLA通过预测Latent Action Tokens(隐式动作标记),有效利用了互联网异构视频和高质量的AgiBot World数据集,增强了策略的泛化能力。”

ViLLA的底层逻辑源于智元提出的“数字金字塔”概念。任广辉将其比作人类学习的过程:“以打乒乓球为例,你先通过课本和视频理解理论,知道球的上旋、下旋是怎么回事;然后看世界冠军的比赛视频,学习动作模式;再通过发球机模拟练习,最后找教练手把手教。数据金字塔也是如此——底层是互联网海量图文数据,赋予模型通用知识;中间是人类和跨本体操作视频,提供动作理解;再往上是仿真数据增强泛化性;顶层则是真机示教数据,确保动作精准。”

具体而言,VLM继承了开源多模态模型InternVL2.5-2B的权重,负责场景感知和语言理解;MoE中的Latent Planner(隐式规划器)基于人类和跨本体视频数据抽象出动作序列;Action Expert(动作专家)则利用百万真机数据将动作映射到机器人本体上。任广辉说:“比如‘挂衣服’,VLM理解指令和场景,Latent Planner推演出提衣、挂杆的步骤,Action Expert将其转化为机器人的精确执行。这是一个全链路的闭环。”

在评测中,GO-1的表现令人瞩目。智元机器人在五种不同复杂度任务上针对GO-1的测试显示,相比已有的最优模型,GO-1的任务成功率领先,平均成功率提高了32%(46%->78%),其中在“Pour Water”(倒水)、“Table Bussing”(清理桌面)和“Restock Beverage”(补充饮料)的任务中表现尤为突出。

任广辉透露:“单独验证Latent Planner的作用时,成功率也提升了10多个百分点。这证明了ViLLA架构的有效性。”

四大特性,从实验室通向真实世界

GO-1并非实验室中的概念验证,而是旨在解决具身智能落地困境的实用方案。任广辉总结了当前行业的四大痛点:“泛化性差、扩展新任务成本高、不同本体数据无法共享、缺乏持续进化机制。”GO-1通过四大特性直面这些挑战。

一是人类视频学习:GO-1大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解。

二是小样本快速泛化:该大模型具有泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后训练成本非常低。

任广辉举例:“擦拭桌子上的污渍,我们只用了150条数据,一天采集完成;倒水需要1000条。相比传统方法动辄上万条,我们降低了1-2个数量级的成本。”

三是一脑多形:该大模型是通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体。

任广辉解释:“GO-1抽象出了跨本体的动作概念,能快速适配轮式或人形机器人,实现群体升智。”

四是持续进化:该大模型搭配一整套数据回流系统,可以从实际执行中遇到的问题数据中持续进化学习。

任广辉强调:“我们有一套完整的数据回流系统。比如机器人放咖啡时抖落了杯子,这些异常数据会回传,经过人工审核后优化模型,越用越聪明。”

这四大特性让GO-1从单一任务走向多任务,从封闭环境迈向开放世界,从预设程序进化到指令泛化。任广辉总结:“GO-1就像给机器人提供了‘基础教育’和‘职业教育’,让它天然适应新场景和新任务。”

数据飞轮,开源的力量

GO-1的成功离不开智元在数据端的深耕。2023年9月,智元建成全球首个数采超级工厂;同年12月,开源了AgiBot World数据集,包含百万条真机数据。这一数据集在HuggingFace上连续多周位居下载榜首,GitHub上发布一周获1200星,远超谷歌Open X-Embodiment一年的900星。截至2025年3月,下载量已超2万次。

姚卯青回顾道:“我们在硬件量产的基础上,用千台机器人编队采集数据,再用这些数据自研大模型,最后部署回本体,形成了闭环迭代。这是全球首创。”任广辉补充:“AgiBot World的质量和规模远超同行,每条数据都有人工审核,确保工业级标准。用户反馈这是他们能接触到的唯一高质量大规模数据集。”

数据回流系统则是GO-1持续进化的关键。任广辉举例:“机器人执行任务时发现问题,比如放咖啡失败,这些数据会回传,经过审核后加入训练集,推动模型迭代。”

机器人领域,数据采集的成本是很高的,未来数据采集里有没有可能单独剥离出来,形成一个产业?姚卯青认为,这是有可能的,“上一代 AI 的发展是有明确的产业分工的,像数据的采集标注、审核甚至是数据的交易都是有一些平台性的机构出现的,那么在机器人领域,我认为这也是有机会的。”

姚卯青说,因为每一家都来自己建设场地,投入设备,是一个重复造轮子、重复投资的行为。长期来看的话,可以由个别的几家企业来集中承担公共平台的职责。”

姚卯青透露:“我们在上海‘魔都生成语料普惠计划’中,与多家企业统一数据接口,推动数据汇聚。Q1末可能会有数据交易模式的政策发布。”这将为具身智能行业注入新的活力。

同时,关于数据的标准方面,“理想状态是统一标准,共享互联网图文、动作视频和真机数据,推动具身智能量级跃升。”任广辉说。

从工具到智能体转型

“机器人如果没有自主作业能力,价值非常有限。AI能力将是未来竞争的核心,就像新能源车和手机行业一样,硬件会收敛,供应链会整合,最后拼的是智能化。”姚卯青接受采访时说。

在应用场景上,智元采取渐进式策略。姚卯青表示:“短期内,我们聚焦工业、服务业和商业场景,比如POC项目已在工厂落地。长期目标是走进家庭,五年左右可能实现。工业场景对成功率要求高,我们会实地采集几万条数据,但比传统方法仍更高效。家用场景如倒茶、做早餐,万元内能够实现。”

价格方面,姚卯青坦言:“当前量产规模在千台以上,但供应链尚未完全成熟,机器人定价可能在30万元以上。不过AI研发成本会被分摊,不会显著推高售价。”商业计划上,他透露:“今年出货量将达数千台,营收比去年增长数倍,覆盖科研、教育、工业和服务业。”

GO-1还将在Q1末对核心用户开源模型。任广辉说:“我们已公开技术博客和论文,未来用户可将GO-1部署到自家机器人上。”这不仅加速了技术普及,也为智元构筑了数据与模型的双重护城河。

关于DeepSeek是否带来启发或技术路线方面的影响时,姚卯青回应:“DeepSeek等优秀工作给我们很大启发。我们参考了通用能力预训练加垂类数据后训练的思路,但在机器人领域增加了Latent Planner和Action Expert的创新。而且机器人是物理应用,与数字模型不同,我们的定制化创新让GO-1通用具身基座大模型更贴合具身需求。”

近期火热的Manus智能体也引发讨论。姚卯青也表示:“Agent智能体在任务规划上有借鉴意义,但机器人更复杂,涉及小脑控制和物理交互。短期内,我们靠数据到模型的闭环,长期可能融合Agent理念。”

在技术路线上,姚卯青判断:“机器人模型尚未收敛,未来会结合模仿学习和强化学习。我们已有布局,几个月后将发布基于强化学习的Foundation Model。”

面对当前市场上大量的具身智能公司,包括有八九年历史的“老公司”,也有仅2年历史的智元科技,新公司的优势在哪里?姚卯青认为:“‘老牌公司’可能有历史包袱,战略调整难且保守。智元平均研发年龄30岁以下,势头正猛,两年走完别人八年的路,今年有望成为国内龙头。”

“中国的人才储备强于国外,当然竞争也比较激烈。”姚卯青在采访现场还打起了广告,他还说公司正在持续招聘,打造全球第一梯队。

来源:随申Hi

相关推荐