摘要:各位领导、各位嘉宾,下午好!我是吴易明,现在的身份是西安中科光电精密工程有限公司的董事长、总经理。我在创业之前,1998年到2013年,一直在中科院西安光学精密机械研究所工作,2013年开始创业,这个公司做了12年,具身智能机器人的研发做了9年。
本文为吴易明先生在2025西部产业科技大会发表的演讲。
吴易明(西安中科光电精密工程有限公司董事长、总经理):感谢观点、感谢高新配套提供这个机会,让我来分享“具身智能是智能科学的新范式”。
各位领导、各位嘉宾,下午好!我是吴易明,现在的身份是西安中科光电精密工程有限公司的董事长、总经理。我在创业之前,1998年到2013年,一直在中科院西安光学精密机械研究所工作,2013年开始创业,这个公司做了12年,具身智能机器人的研发做了9年。
我的报告分为5个方面,要在15分钟内表达清楚我的观点还是有点困难,我争取讲得更通俗、更简单些。
具身智能当前的发展态势。首先回顾一下,我们公司是2019年获得关键性的突破,到2021年我在人社部跟中国工程物理研究院举办的高级研修班上讲课的时候提到,具身智能是智能科学的新范式,2022年我们注册了“具身智能”的商标。2023年,英伟达的黄仁勋提出了AI的下一个浪潮是具身智能,引发了全球的关注,今年政府工作报告正式把具身智能作为一个新的发展方向。
(见PPT)这是当前典型的观点,大家通常会解读为“大模型+机器人”,或者大模型训练机器人,我在今天的报告厅外面看到一个机器人,它可能也是这种思路。另外一种观点就是解读为人形机器人装上智能的脑袋,大家默认一个关键的思路,就是当前的大模型可能已经解决了智能的根本问题,这个解读实际上是有点不对的。
我们对具身智能的观点相对来说跟现在主流的或者学术界的解读不太一样,后续的解读有些地方我会讲得细一点,有些地方会快速略过。
当前看到人形机器人的表演和各种运动的展示,有一个非常著名的公司就是波士顿动力,它从大概2012年到现在,每半年就出来表演一次,但是目前波士顿动力的发展路径,已经被一些国内的公司掩盖了。从运动的控制能力,以及已经获得的效果来看,波士顿动力在历史上取得的成绩还是值得称赞的。
当前投资界和学术界已经意识到具身智能的一些思路和方法可能有问题。(见PPT)这是比较著名的三位人士的观点,一位是现在非常火的宇树科技的创始人,他分享的关于具身智能当前发展态势的观点,他认为3到5年内是很难家用的,这跟我前几年判断具身智能的技术架构发展节奏是有点像的,但是我们已经突破了具身智能最本质的东西,只是太抽象了,传播力没那么好。
目前大家对世界模型的理解还是一个广义世界模型。我在这几年的研究当中,我对这个模型的理解,一个机器人能够自主作业,最基本的模型是我们可以感知小世界模型,我们当前感知到的空间,我们听到的声音,能够感受到大家的表情等等,这是世界模型的一个最基本的方式。但是现在大家讲世界模型的时候,对这个概念不是太准。
杨立昆讲世界模型,他也意识到当前的大模型、具身智能,实际上最重要的不是运动能力,是智能没有突破,没有突破的情况下就很难让机器人自主作业,就更谈不上让机器人进入家庭、进入工厂,来自主地完成非确定情况下的任务。
简单总结一下目前的训练模式,就是大模型训练机器人,一般有这么几种模式,但是它都是靠数据标注,大量的数据、大量的算力,以及人为的标注,它是一种穷举法,这个方法思路上是跟人类理解世界的方式不一样的,所以现在是非常耗能、非常耗数据的,数据枯竭之后就没法继续发展。
具身智能的任务和使命,就是如何解决让当前的人工智能,或者说当前的智能,由弱智能变成强的智能。它有4个关键的问题,首先是理解四维时空,第二是自主推理、规划及行动,第三是语言理解及工具运用,语言和我们日常使用的工具是等价的,这是我这么几年研究的主要成果,第四是交互促进涌现及智能的自增长。现在只要是能实现前三条,我们的机器人替代所有物理世界的劳动是一个必然的趋势。第四条实现之后会引发社会危机,我们认为这个事情要先搁置起来。
具身智能是科学智能的新范式,首先要回顾智能的概念,按照我们对智能的研究,我们说一个主体是智能的,可以简单地理解为它是懂科学的,就是它能够有效地发现规律、运用规律、提升和改进规律。
所有科学家做具身智能的研究,都躲不开具身认知,对具身智能概念的给出,首先就是要回顾具身认知,它是认知科学和心理学一个重要的领域,它是研究生理体验与心理状态之间的关系,我们在看到一个世界的时候,大脑到底是哪些神经原被激活了,它就是研究这个问题的,所以具身的概念不是胳膊和腿,这一块是要按照我们的观点做一个校正的,起源于哲学领域对身心二元论的批判反思,后续逐渐转向实证科学研究,并扩展到心理学、教育学、人工智能等领域。
在20世纪具身认知的理论发展是很快的,特别是在教育领域,对小孩的教育研究是比较多的,但是怎么应用到具身智能的研究领域,现在只是模仿了一个皮毛,我们基于对具身认知底层的研究,形成我们的一些基础的方法。所以我们给出具身智能的定义,智能是主语,具身是方法,就是以具身认知为指导的人工智能,体现哲学一元认知的思想。
这个概念比较拗口,可以按照孙子兵法上的观点理解,我们人在认知世界的时候,可以把感知的主体、对象,以及我们自身主体和环境都纳入思考范围,构建一个模型。我们睁开眼,是基于我们的眼睛和大脑,构建了一个具身世界模型,基于这个模型的推演和各种对象的交互作用,以及发展演化趋势,形成了一种解决问题的方法。
所以具身智能的一个基础性的方法是建构性的,实际上是我们构建了一个模型,类似于打仗的时候做了一个兵棋推演,直接推演出来应该怎么做,这个推演不好,我们再重构各个要素,再得到一个我们想要的结果。
(见PPT)这是具身智能的基本模型,是我去年提出的框架。具身智能基本模型要解决的核心问题就是左边的两个箭头,我们看到的世界,我们看到屏幕、桌子、杯子,给出这个对象一个命名,然后对象的命名跟对象之间的关系问题,就是指称问题,让一个人造的智能主体能够像人一样,解决名词的命名,以及基于名词寻找物理对象的过程,就是人工智能要解决的核心问题。当前大数据、大模型主要用的是训练的方式,我一直在批判这个方式。
具身智能的范式和原有人工智能方法的范式差异,这也是比较抽象的,我就给大家展示一下,最主要是强调我们的大脑,它是一个信息物理系统,对我们感知到的直观的物理世界,要有一种同构性,如果没有这个同构性,我们很难解决问题。就是说二维的方法很难解决三维的问题,但是三维的方法能解决二维的问题,这就是同构性,这是一个主要的思路。
我们公司在最近8年左右研发的过程中,突破的数学方法,其实是来源于我们在2016年的时候拿到了科技部重大专项的支持,这个专项支持我们当时求助于深度学习的方式,来解决在加工过程中任意立体对象精准识别的时候,我们发现深度学习的方式没法解决,所以我就想到数学,大概通过3年左右的数学方法推导,到2019年左右解决了问题,实际上解决的问题是一个比较学术化的表述,就是对任意立体对象的数学表征。
我们看到的物理世界,我们到底记住了什么,应该怎么样表征,这个过程我们借鉴了中国汉字诞生和演化的历史,汉字的底层是名词,名词的前身是岩画,岩画是人感知到世界之后,信息抽象和形成一种信息的卸载,就是从我们的大脑里面卸载到物理空间的一种人为的记录,后续产生了名词、动词等等,这个过程我们用数学的方法实现了,同时这个方法对数据的需求量非常小,基本上是数据压缩10的七次方的数量级。这就是这个方法的一个简要的过程。几个数学工具就是微分、几何、群论、拓扑等等,这都是20世纪发展出来的数学。
这里面强调认知上的突破,就是空间等价性,我看到的世界和我移动、感知到的世界是等价的。另外要解决一个问题,我们什么时候用逻辑判断,什么时候用概率判断,这是两个很抽象的问题。在这个认知的指导下,我们突破了一系列的技术,前两个是底层的技术突破,我们让机器人在空间里自主地寻位,其实是一个无人驾驶技术,只不过是我们现在没有往这边做产业的介入。
(见PPT)这是我们的产品,我们对外可以宣传的产品主要是智能焊接机器人。其实我们去年和今年主要的业务还是涉军和涉密的任务。
我们已经解决的问题,在当前人工智能研究领域的地位,简单来说,就是大模型解决了语言的对话问题,运动执行这一块有一些机器人公司已经解决了,我们就是解决让机器人怎么样自主理解,自主作业和自主决策的过程,所以识别和规划的问题是我们解决的核心问题。
这个问题在学术领域来说,采用的方法是符号接地。我们说的所有的话都可以理解为一种符号,这个符号如果不能够落在物理世界,它就是悬空的。现在我们说大模型会出现幻觉,实际上是因为它不能有效地接地。
我们一般说一个方法的时候,我们讲实践是检验真理的唯一标准。怎么样转回来?实践和理论循环这个路是怎么打通的?这个方法跟当前的方法的区别是,我们是数学的方法,我们把思路调整过来了,可能会用到一些数据训练,但是对数据训练的依赖度不高,我们也嫁接了一些训练的成果,这是我们在后面做产业的时候要做的事情。
应用方面,我们现在解决的问题,类比于人类的逻辑架构是对应的,就是眼睛指挥手来干活,或者是眼睛指挥自主的移动,这也是我们已经解决的问题。
工业领域,所有的当前不适合自动化线生产的,潜在都是可以解决的。我们的核心的应用是视觉智能。
(见PPT)这是一些其他领域的应用,工业智能是一个非常大的领域。
具身智能的发展,按照我们对这个事情的判断,10年之内机器人会普及到千家万户,这是我在2021年做的一个预测。现在我们做的是外观像机器一样的机器人,其实我们已经开始布局人形机器人,以前做的主要是智能的部分,现在要做产品落地的成分,就是把别人已经做好的人形机器人拿过来,我们赋能它的智能的能力。
(见PPT)这是对未来的预测。
我的汇报就到这里,谢谢大家。
免责声明:本文内容与数据由观点根据公开信息整理,不构成投资建议,使用前请核实。
来源:乡间王小二