智平方郭彦东:劳动创造了人,真实劳动也将创造机器人

B站影视 电影资讯 2025-09-28 13:57 1

摘要:9月27日,2025网易未来大会在杭州举行,主题为“以智能·见未来”。本次大会由网易公司主办,杭州市经济和信息化局(杭州市数字经济局)、杭州市商务局、杭州高新技术产业开发区管委会指导。

9月27日,2025网易未来大会在杭州举行,主题为“以智能·见未来”。本次大会由网易公司主办,杭州市经济和信息化局(杭州市数字经济局)、杭州市商务局、杭州高新技术产业开发区管委会指导。

本届大会将作为“第四届全球数字贸易博览会”的组成部分之一,聚焦人工智能各领域的发展,探索未来趋势。大会将由中国工程院院士潘云鹤等三大院士领衔,汇聚具身智能领域泰斗、顶尖AI创业先锋、知名投资人及产业翘楚。与会嘉宾将共同探讨大模型、具身智能、AI Agent等前沿技术突破与商业落地,在思想碰撞中捕捉全新的时代机遇。

在大会中,智平方科技的创始人兼CEO郭彦东博士发表了题目为《具身大模型:驱动机器人进入通用智能新时代》主题演讲,他表示,人类已历经 PC、手机、智能汽车三代智能终端,而通用智能机器人将成为第四代了不起的通用智能终端,其市场规模预计达手机量级、汽车单价水平,市场空间非常巨大

他强调,通用智能机器人需突破 “听得懂人话、感知周围环境、完成多任务执行” 三大核心能力,为此,智平方坚持采用“端到端VLA大模型”作为机器人的智能基础,将人的自然指令直接转化为机器人动作序列,不再需要预编程或者遥控器来操作机器人,极大的降低操作的复杂度。

以下是郭彦东博士演讲实录:

郭彦东:谢谢主持人,网易新闻的各位来宾们,大家下午好!我是郭彦东,是智平方的创始人、CEO。

在人类的历史当中,我们已经经历了三代非常了不起的智能终端,从PC到手机,到智能汽车,极大地改变了人类的生活。

这些智能终端之所以能改变人类的生活,我总结背后的原因和逻辑有两个:

1、 交互越来越方便,PC有了图形界面,手机有了触屏,汽车有了自动驾驶,人的操作更加便利。

2、 它能够在多场景完成多任务,不再是为了单一任务而创造出来的一种独立的智能终端。

我刚好自己的工作经历也经历了微软、OPPO、小鹏这样的智能终端公司,在2023年我们就提出和定义了这样一个通用智能机器人的第四代了不起的通用智能终端。这样的终端无论是国家的重视,还是市场分析对它都是非常看好的,这里摩根士丹利说中国未来会有3亿台的终端市场体量,其实我在手机厂、汽车厂做过,未来通用智能机器人的数量会是手机的数量,单价会是汽车的单价,其市场空间非常巨大。

什么样的通用智能机器人会有这么大的市场空间?怎么打造这样的通用智能机器人?

最核心的要素还是要让机器人能听得懂人话,能聪明地感知周围的环境,并且能完成多任务的执行。其实在这张片子上我们放了三个在通用智能机器人时代的企业,从图中的例子大家可以很清晰地看到,头部的通用智能机器人企业往往都是聚焦于多任务去推进的,这个跟以前做机器人聚焦只做一件事的整体逻辑不同。

比如,特斯拉Optimus,既在特斯拉自己的工厂里做服务,也要强调能在特斯拉餐厅里做cyber restaurant。比如Figure AI的机器人既要在汽车宝马工厂里做服务,同时也要在家庭里面提供家政服务,同款硬件完成多种功能。

片子当中可以看到智平方的机器人既在全球头部的车企提供制造里边的柔性服务,同时也在各个公共服务场所提供拟人贴心服务。

怎样才能构建出来一个在多种任务、多种环境都能够做服务的通用智能机器人?从第一性原理来看就是要构建一个端到端的VLA大模型。这里花半分钟的时间简单跟大家分享一下VLA大模型是什么,原理是什么?首先从输入输出来看,输入是人的自然指令,不再需要预编程或者遥控器来操作机器人,极大的降低操作的复杂度,同时依赖于一个空间感知大模型、基础模型能够既精细又通用的分析周边环境,并且通过大模型的力量来直接输出数字化的机器人动作序列。这样一个端到端的思考,其实最早是在自动驾驶行业提出,我们也是第一个把这样的理念从自动驾驶领域引入到机器人这个赛道。

在2023年中国人工智能学会的时候,我们给大家分享,要用端到端的VLA大模型这样一个符合第一性原理的方式去推动通用智能机器人的发展,我们也持续的保留了行业当中最大的一个投入压强。在2025年初的时候发布了中国的创业公司中第一个开源的具身大模型,GOVLA,这个模型开源之后,通过三方的benchmark测试,比同期美国的π的模型在未建任务的成功率提升了30%,这也是为什么图灵奖得主杨立昆在提到具身大模型的时候,重点分析点赞智平方的具身大模型,也是国际社会对于中国大模型力量一个非常好的点赞和褒奖。

其实在是否可以用端到端VLA大模型来解决通用机器人这样一个话题当中,其实有很多不同的声音,大家有的觉得是不是没有办法做精细化的操作,是不是常见的VLA大模型常常只能控制双臂,对于全身的控制不是那么友好,是不是用了大模型以后机器人的反应速度就会变慢,正是因为这样一些思考,其实行业当中仍然存在着一些不同的声音,是否应该用这样一个大模型来解决机器人智能化的问题。

智平方在这个方向的思考和答卷是我们认定符合第一性原理的这样一个大模型的思路之后,我们的想法是如何把这个大模型在空间感知精细化,在全身控制以及提升执行速度上一个一个去解决它,我们花了千卡集群,采用互联网全网的数据,提升机器人感知的精细度,使得我们的机器人不仅在桌面进行操作,也可以在泛空间当中进行操作,同时扩大训练数据的体量,使得机器人可以全身控制,并且在今年提出Fast-in-Slow这样一个独特的网络架构,使得我们的机器人的操作速度也比只用大模型的机器人操作速度有了一个明显的提升,集合这些行业当中创新的思考和研发,打造了GOVLA这样一个全域全身的大模型,也在行业当中第一个把它开源出来,也推动中国的创业公司持续的在这个赛道去开源模型,这个赛道的繁荣也是我们智平方最希望看到的。

有了这样一个大模型,通过我们的大模型正向定义了、设计了我们智平方的AlphaBot(爱宝)这样一个硬件本体,采用了深圳速度,不到三年的时间迭代了三代这样的本体,在行业当中也首次推出可以承诺持续工作5万小时的硬件本体,这样的本体可以带着大脑真正进入到真实场景当中去工作,去把真实的数据带回来。在这个片子里面简单地看看爱宝在各个场景当中做的一些服务工作。

其实刚才我们展示了智平方爱宝用同款硬件既可以做各种各样的软饮、咖啡、冰激凌,打这个可乐,同时还可以像人一样快速地学习一门新的乐器,同时同款的硬件还可以在工厂里面去做工,这其实是智平方具身大模型的优势,因为有了大模型才可以用同款硬件做更多的场景,同时也是因为让智平方爱宝机器人积极去做更多种类的场景,同时给我们的具身大模型带来更加多样更加真实的这样一个数据反哺。

在这里我也提出智平方首次提出的正反金字塔大数据模型。在2024年我在行业当中提出要把一个具身机器人训练得好,要采用多源数据融合,把互联网数据做基石,保证多样;仿真数据做增广,引入3D;真机数据做精细,引入实操。在2025年我在行业首次提出“正反金字塔模型”,这里面最精髓就是指真正最有价值和最有壁垒的数据来自于真实的工作环境,可以说谁的机器人能够从真实环境、真实任务当中获得更多的数据,在未来的三年当中谁的机器人就会获得巨大的竞争壁垒和优势。好的机器人很难完全来自于自我采集、自我仿真,一定从劳动中来到劳动中去,我跟很多人分享劳动创造碳基人,真实世界真实劳动也会创造硅基机器人,基于这样一个思考积极跟行业当中的工业公共服务,里面包括汽车、生物制药、半导体等等这样一些企业去广泛的让我们的机器人在全行业去做服务。

这里重点跟大家分享在上周跟全球第三大半导体面板厂惠科签署了三年千台以上的订单。订单体量当时签署时候全行业最大,也进入到摩根士丹利对于整个行业的分析报告当中去,这个对于一个未上市的创业公司也是比较少见的这样一个新闻,我们有明确的交付计划,明确的交付场景,明确的客户这样一个数亿级的大订单。也希望通过这样的真实场景,不仅得到数据回流,也能够持续地打磨我们的硬件形态。

最后,再次感谢大家对于智平方的帮助和支持,由于我们行业当中几乎所有最头部VC的支持,智平方才能走到今天,也是得益于各地政府以及各个客户对我们的帮扶和支持,杭州也是我们的福地,在去年全国创业创新比赛当中,我们也是在杭州取得了机器人赛道唯一一个全国总决赛优胜奖,希望通过与行业当中的共同努力,与客户的共同努力,与供应商以及与投资人的共同努力,能够让通用智能机器人有一天像我今天开场跟大家分享的一样,像汽车、手机一样,成为人人可用、家家可用这样一个普及化的智能终端。谢谢大家!

来源:新浪财经

相关推荐