对话星动纪元陈建宇:向人学习是构建通用人形机器人的最短路径

B站影视 内地电影 2025-08-13 17:02 2

摘要:在2025世界机器人大会(WRC)主论坛上,北京星动纪元科技有限公司创始人陈建宇发表了题为《构建通用人形机器人》的演讲,分享了星动纪元打造通用人形机器人的思路——将通用大脑与通用本体相结合,同时强调向人类学习是实现通用人形机器人的最短路径。

通用大脑+通用本体的融合是构建通用人形机器人的范式。


IPO早知道消息,2025世界机器人大会(WRC)主论坛上,北京星动纪元科技有限公司创始人陈建宇发表了题为《构建通用人形机器人》的演讲,分享了星动纪元打造通用人形机器人的思路——将通用大脑与通用本体相结合,同时强调向人类学习是实现通用人形机器人的最短路径。

在陈建宇看来,之所以其认为最短的路径就是直接向人学习,是因为人类是现实世界中唯一存在的通用具身智能体。


“我们的语言模型为什么成功,正是因为它借鉴了人类语言的学习过程,从海量人类文本中学习而来。”陈建宇说道,“机器人涉及维度更广,因此需要构建人的通用大脑,不光要有语言功能,还要有能控制双手、双腿在物理世界中交互的功能,同时我们还要构建与它匹配的通用本体。”


陈建宇进一步指出,通用大脑+通用本体的融合是构建通用人形机器人的范式,再通过场景和数据形成物理世界AI进化飞轮。即是在顶层构建统一模型,该模型可通用赋能各类人形机器人本体(包括灵巧手),而不同本体适配不同场景,场景应用又会反馈数据形成不断迭代进化的闭环飞轮。


在大脑端,星动纪元已发布了一款ERA-42通用大脑模型,其集视觉、理解、预测、行动为一体,实现同一个端到端VLA模型控制高自由度人形机器人的全身灵巧操作,语音命令即可完成上百种复杂操作,包括柔性物品分拣、扫码,使用螺钉枪、移液器等。此外,星动纪元还构建了物理世界AI “模型-本体-场景数据”进化飞轮的正向循环。


在本体侧,星动纪元全栈自研关节模组、灵巧手、电机、减速器、控制器等核心零部件,实现供应链的垂直整合及稳定可控,以保障产品的高质量高效交付。


截至目前,星动纪元已推出了国内首个同时实现“大运动+巧操作”的全尺寸双足人形机器人「星动L7」,性能甚至超越特斯拉Optimus,其也是国内首个由VLA大模型驱动、具备全身55个自由度的双足人形机器人,将应用在工业、商服等场景;而超拟人服务机器人「星动Q5」则面向商场导购、文旅讲解、企业接待、医疗养老、家庭服务、学校教育等场景,并已与海尔智家、世纪金源、天悦酒店等企业达成战略签约,意向订单超百单。


星动纪元与海尔联合研发的家庭管家“HIVA 海娃”


值得一提的是,星动纪元今年已交付超300台产品,另有上百订单量产交付中;全球市值TOP 10的科技巨头中,9家为星动纪元客户;而在全球化布局方面,星动纪元已率先布局业务出海——自年初布局以来,星动纪元海外市场占比已超过50%。


在本届WRC期间,星动纪元创始人、清华大学交叉信息研究院助理教授陈建宇向「IPO早知道」等分享了星动纪元打造通用人形机器人的思路、以及对人形机器人行业的最新思考。


以下系经「IPO早知道」整理的对话精选:


从Day One开始就坚持“软硬一体”的路径


Q:目前很多公司将自己定位成“软硬一体”。星动纪元的灵巧手已经做得很好了,VLA能力也相当不错,你们是怎么定义自己的?


陈建宇:我们从Day One开始就坚持“软硬一体”的路径——一开始我们先从造双腿以及做locamotion开始,但当时就做了一个完整的人形,模型、运动控制就直接做端到端的模型;到后面我们逐步把双手做出来了,这是一定要做的,因为双手其实相比双腿更重要一些,所有的干活都是靠双手完成,双腿最重要的作用是把双手运到可以干活的地方。双手的难度确实更高一些,其实我们的一只手可能跟很多人形机器人的自由度差不多了。一方面要集成到很小的一块,另一方面还要保证到它的性能,这对模型也是很大的挑战,相当于端到端控制每个手指的动作,我们一直朝着这个方向努力。



整体来讲,在软件这块、比如说VLA模型,我们基本上算是国内在这方面研究时间最长、发表相应论文或者成果最丰富的一个团队。在硬件端,我们一方面在形态上面完全有能力做最完整的双手和双足机器人,同时我们也是非常少能够在整机里面,比如我们的灵巧手还能够产品化出售的。同时,所有的核心零部件都是我们完全自主设计的。所以说,在软、硬两方面我们都扎得比较深。


Q:所以本体和大脑一起做会比较好一些?


陈建宇:我觉得在这个阶段一定是本体和大脑同时做比较好。


这个阶段软件和硬件还是耦合得非常深的,从设计端到试验阶段,很难说有一款标准本体,或者一个标准大脑能够随便放在一个本体,所以在这个阶段去做软硬一体,同时再进一步延伸,甚至我们的商业化探索也是一体去做,尽快把这个闭环形成是更重要的事情。



向人学习是构建通用人形机器人的最短路径


Q:在各家本体还没有统一的情况下,训练出来的数据和成果在复用性和泛化性方面怎么解决?


陈建宇:这确实是一个难题。毕竟不同的机器人可能自由度都不一样,模型的输出维度都不一样,包括传感的类型可能也不一样。所以对我们来说,我们的解决方案是:


在预训练阶段,我们尽量使用跟具体本体无关,也就是不是从真机上面采集的数据,比如说采取人的数据、视频截取的方式;之后在真机的调整上面会有这么一个规律,如果说你的形态相对比较接近的话,它的迁移成果就比较好,这时候我们想通过人形的方式,因为我们可以把人的行为、视频的数据更好地迁移过来。


而当我们的机器人迭代之后,如果都是类似人形、只是胳膊颜色换了、自由度换了的话,它可以比较好地迁移。我们在实验中发现,比如上一代机器人到下一代机器人,实际上胳膊的构型还是有挺大的改变,颜色从黑色换成白色等等,但是我们发现模型完全没有收集任何新的数据,就直接拿原有的模型、没有做任何的微调,它也能干同样的事儿,只不过成功率稍微受到一些损失。


所以这样我们就能看出,如果说类似的人形机器人的形态,它的迁移还是不错的。但直接从人形迁移到四足上,或者从机器狗迁移到人形上,这可能就不行,从单臂迁移到双臂上面,这可能也不行。


Q:目前整体来讲是“软件定义硬件”还是“硬件定义软件”?


陈建宇:我觉得整体来说还是软件定义硬件。


对于模型建模,都是通过一个抽象的方式建模,它能够适配到各种各样不同的硬件上。当然,我的数据可能跟硬件是绑定的,特别是真机的数据是跟硬件绑定的,但模型是能通用在各种各样不同的硬件上面。比如说我们的模型和算法,一定程度要去考虑硬件怎么设计,会影响它的性能发挥,因为硬件会决定我们模型发挥能力的上限。一个是取决于我们想做怎么样的场景工作,比如对于操作来说,一些复杂的工具使用类的,我可能就需要用到灵巧手;比如怎么造灵巧手,为什么我们采取直驱的方式?因为直驱有两个好处,非常重要的一点是直驱响应非常快,响应非常快了之后数据就可以收集得更加精准,质量更高。同时,直驱的方式对强化学习也更有好处,因为它在仿真里面建模是能够更加准确的,所以一开始我们用了这样一个方式去做,很大程度上是考虑了AI模型算法的做法。



开源有助于行业繁荣、技术路线愈发收敛


Q:今天AI领域都在讲开源,你们其实也有开源。


陈建宇:我们2024年年初的时候就推出了全球第一个做出运控强化学习并且公开的开源算法(humanoid gym),目前应该是人形机器人在github最受欢迎的开源算法、有1000多个stars。今年年初,我们又开源了VLA的一个基于生成式模型的大模型VPP,后续我们还会持续做一些开源的动作,因为具身智能还是需要整个生态一起努力和繁荣,从而实现更多的突破,这样的话最终我们也会受益。


Q:具身开源的意义是什么?有人会觉得是为了更好地销售自己的本体。


陈建宇:商业化肯定是一个比较重要的维度。


但从另一个维度来看,为什么AI领域现在发展得这么快?就是因为AI领域有很好的开源风气和习惯。当开源之后,大家就都能够非常快地进行更深的研究。就像我们开源了之后,我们看到也有很多人在跟随我们的工作,并做进一步的改进。其实他们也做了开源,不管是论文开源、还是模型开源,我们也随之受到了很多启发。


Q:整体的技术路线现在看来是不是越来越收敛的?


陈建宇:在大的方向上,技术路线是有一定的收敛,不管是软件还是硬件。


在软件方面近期提到一个比较多的词叫VLA、端到端,在23、34年提这个的还非常少,最开始大家会对端到端、甚至对是否是Learning-based 都有争议。后来我们看到了比如说机器人通过强化学习等方式,让它更稳定地行走起来。大家觉得确实是该用Learning-based 的方法。


之前大家所争议的还在于,比如说对操作人员,究竟是用一个分层式的模型,还是说一个端到端的VLA模型。但我们逐步可以看到不管国内国外、不管是我们还是其他一些友商,都展现出来了比较不错的VLA能力,所以说我们可以看到大家开始逐步相信了。


对我们来说,我们从一开始就从第一性原理出发,坚持VLA和端对端的路线;当我们和一些同行证明了它的有效性后,更大范围的人相信了(这个路线)。


现在我们也在探索一些新的演进路线,今天还没有发生,但我们会下一个“赌注”往前改进。如果说我们把这个路线再次证明的话,它又会引领技术的进一步收敛。



人形机器人的“杀手级应用”将在家庭场景


Q:目前机器人的干活效率到了怎样的程度?


陈建宇:我还是持比较乐观的态度。


首先对我们来说,我们已经在部分真实的工业场景已经达到了人类70%多的效率,明年有望达到90%的样子,已经在接近这个数字了,可能在今年后半年大家会陆续看到。



现在的软件和硬件还处于打磨阶段,这也是得益于端到端——端到端的好处是能实时反馈、实时控制,就像人一样,端到端是能够满足这样一个方式的,所以从模型的架构上已经能支撑;同时,硬件本体本身的性能,尤其是速度这些能提到足够高,硬件层面也能支撑了。接下来就是软硬打磨,假以时日,我相信是能达到人类的水平,甚至是超人类的水平也是有可能的。


Q:哪些场景最有可能成为人形机器人的“杀手级应用”?


陈建宇:长期来看,“杀手级应用”最终还是要进入家庭,但前期我们需要在一些B端场景里,一个是为企业落地先行,一个是磨炼机器人整套技术,包括做数据的积累,帮助把这个飞轮转起来,所以短期来看一定是B端的工业这些场景先跑出来一些。但最终杀手级的应用,我认为一定是在家庭场景里面。


Q:这个时间需要多久?


陈建宇:实际上机器人进入家庭现在已经发生了,比如说扫地机。所以说这是逐步出现的过程,我认为近几年就会有相对简单形态的机器人进入到家庭场景里面,也可能有少部分高净值人士的家庭里面会直接用到比较通用的人形机器人。但它的功能还没有到特别强大的时候,可能少部分人会尝鲜使用,这是在近几年就会逐步出现的。如果以未来五年为界限的话,可能就是家用场景机器人爆发的时间。


本文为IPO早知道原创

作者|Stone Jin

来源:IPO早知道

相关推荐