华为离职“天才少年”登上热搜,智元称“机器人公司不做大模型是没有未来的”|钛媒体AGI

B站影视 内地电影 2025-03-10 13:01 2

摘要:该模型基于Vision-Language-Latent-Action(ViLLA)框架,由VLM(多模态大模型)+MoE(混合专家)组成,具有采训推一体,小样本快速泛化、“一脑多形”的跨本体应用、持续进化、人类视频学习等突出优势,可以借助人类和多种机器人数据,

曾是华为“天才少年”、现智元联合创始人“稚晖君”彭志辉(来源:央视网)

曾凭借华为“天才少年”计划以201万年薪加入、现任智元联合创始人兼CTO的“稚晖君”彭志辉,日前在微博发布预告“下周智元机器人有好东西发布”。

3月10日上午,智元机器人正式发布首个通用具身基座模型——智元启元大模型GO-1(Genie Operator-1)。

该模型基于Vision-Language-Latent-Action(ViLLA)框架,由VLM(多模态大模型)+MoE(混合专家)组成,具有采训推一体,小样本快速泛化、“一脑多形”的跨本体应用、持续进化、人类视频学习等突出优势,可以借助人类和多种机器人数据,赋予机器人革命性学习能力。

上述消息引发热议。10日上午,#华为离职天才少年官宣刷屏#、#稚晖君或再掀机器人行业风暴# 等多个词条登上了微博热搜。

3月10日上午沟通会上,智元具身研究中心常务主任任广辉对钛媒体AGI等表示,截至目前,智元机器人已经量产下线1000台机器人。他还透露,Go-1基于通用数据训练,拥有非常强的泛化能力,在零数据下可以泛化到一个新场景、新任务,而基于该模型可以部署到各行各业当中,整体成本会比较低。

任广辉强调,“具身智能”会向通用化、开放化和智能化迈进,走向开放世界,不再局限于实验室了。

智元机器人合伙人、研究院执行院长、具身业务部总裁姚卯青表示,智元对于 AI 技术的投入是战略级的,非常坚定,今年也将开始规模化的生产和交付,并不会去显著将一些 AI 研发投入转移到最终的终端售价上面。他认为,在智元启元大模型GO-1下,智元机器人进入到G3-G4过程当中,能够很好完成某一任务,同时也逐步具备这种通用能力。

“机器人公司如果不做大模型,那是属于没有未来的,机器人没有智能化、没有作业能力只是一个硬件,他能做的事情非常有限。”姚卯青对钛媒体AGI等强调,未来,AI 能力一定是区分机器人产品竞争力的核心。硬件也许大家会有一些类似的方案逐渐收敛,供应链也会高度整合,那么在最后大家比拼一定是AI的能力,这对于机器人落地和自主作业能力至关重要。

据悉,成立于2023年的智元机器人,是当前国内人形机器人赛道头部企业之一,其创始人之一彭志辉是坐拥250多万粉丝的B站UP主“稚晖君”。

公司成立不到1个月,智元就完成天使轮融资、年内更斩获4次融资,成立仅6个月就发布首款人形机器人,2024年还发布五款商用人形机器人新品,并且去年底开源百万真实机器人数据集,以及年初率先达成1000台机器人量产等,引发行业关注。

截至目前,智元机器人已完成天使轮、A1、A1+等多轮融资,累计募资总额超过16亿元。

智元机器人共有三条主打产品线,分别是远征、Genie和灵犀。

事实上,现有具身模型面临多个落地困境,包括泛化性差,到新场景时成功率大幅下降;扩展新任务时需要大量数据,落地成本高;不同本体的数据无法共用,数据成本高;模型无法持续进化;DP/ACT等具身小模型技能单一且无法快速学习新技能,GR-1/2等模型无法构建通用的场景感知、指令理解等能力,语义指令泛化受限,以及小样本泛化到新场景/新任务能力较弱等。

如今,智元希望解决上述一系列问题,并于今天发布了首个具身基座大模型Genie Operator-1 (GO-1)。

这是全球第一个基于大规模、高质量自有数据,基于自有机器人本体训练并部署的机器人基座模型。

该模型开创性地提出了Vision-Language-Latent-Action (ViLLA) 架构,该架构由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力,三者环环相扣,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体。

Genie Operator-1有五大特点:采训推一体,搭配智元软硬件一体化框架,可以实现数据采集、模型训练、模型推理的无缝衔接;小样本快速泛化,具有强大的泛化能力,使得后训练成本非常低,能够在极少数据甚至零样本下泛化到新场景、新任务;一脑多形,是一个通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体;持续进化,搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习;人类视频学习,可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解。

据智元介绍,相比已有的最优模型,GO-1平均成功率提高了32%(46%->78%)。其中,在执行“Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(补充饮料) 任务表现尤为突出。

智元机器人方面表示,GO-1的出现,为机器人代替人类完成工作生活中的各种事情,提供了强大的脑力支持。从准备餐食、收拾桌面这样的家庭场景任务,到接待访客、发放物品这类办公和商业场景的常见工作,再到工业等更多场景的其他操作任务,通用具身基座大模型都可以快速实现。这也意味着“具身智能”从单一任务到多种任务、从封闭环境到开放世界、从预设程序到指令泛化加速迈进,让机器人走向更多不同场景、适应多变的真实世界。

此外,任广辉透露,公司已与阶跃星辰合作,后续围绕阶跃的多模态、推理和训练、工程化等底层模型能力,进行深度的合作,将阶跃星辰多模态等能力赋能到机器人上面。

在姚卯青看来,利用 AI 大模型,能够助力机器人操作上手能力,从而加速进入工厂、零售、服务业等场景工作,长期还能进入家庭。“这才是机器人价值被充分发挥的时刻。”

谈到最受关注的9.9万元机器人话题,姚卯青对钛媒体AGI独家表示,9万9的机器人只具备基础运动能力,在本体、硬件、算法都还没有收敛的情况下,大家急着“卷”价格战,没有什么意义。因此,姚卯青呼吁人形机器人产业需要看产品竞争力,如果都达不到给用户创造价值的时候打9.9万元,只会把整个行业变成一个很不健康的状态。

姚卯青强调,未来1-2年,人形机器人能够在局部工业场景应用落地,机器人走进家庭还需要5年左右的时间。此外,机器人实现像人一样有通用能力的物理世界AGI(通用人工智能)还需要5-10年时间。

据钛媒体AGI独家了解,预计2025年第二季度,智元将会推出基于强化学习的仿真模型,今年下半年,智元机器人将发布X2等多个新款商用机器人产品,以及“灵巧手”等多个新技术,加速推进2025年智元10倍营收增长目标。

来源:钛媒体

相关推荐