孟庆虎:手术机器人的真正瓶颈,是高质量“专家数据”的缺失

B站影视 内地电影 2025-09-27 14:32 1

摘要:9月27日,2025网易未来大会在杭州举行,主题为“以智能·见未来”。本次大会由网易公司主办,杭州市经济和信息化局(杭州市数字经济局)、杭州市商务局、杭州高新技术产业开发区管委会指导。

9月27日,2025网易未来大会在杭州举行,主题为“以智能·见未来”。本次大会由网易公司主办,杭州市经济和信息化局(杭州市数字经济局)、杭州市商务局、杭州高新技术产业开发区管委会指导。

本届大会将作为“第四届全球数字贸易博览会”的组成部分之一,聚焦人工智能各领域的发展,探索未来趋势。大会将由中国工程院院士潘云鹤、蒋昌俊等四大院士领衔,汇聚具身智能领域泰斗、顶尖AI创业先锋、知名投资人及产业翘楚。与会嘉宾将共同探讨大模型、具身智能、AI Agent等前沿技术突破与商业落地,在思想碰撞中捕捉全新的时代机遇。

在大会中,加拿大工程院院士、南方科技大学电子与电气工程系系主任孟庆虎先生发表了题目为《人工智能时代的手术机器人,还是机器人手术?》主题演讲,他表示,手术机器人在国内外监管非常严格、需要拿三类医疗器械认证,发展速度相对缓慢。现在国际上最领先的就是达芬奇手术机器人,它虽商业成功,但20年来基本没什么变化,有很多家企业虽跟进模仿,但缺乏创新。

针对“未来仿人机器人会不会替代外科医生?”的疑问,他介绍了两种对立观点:

美国手术机器人之父Russel Taylor认为“不会”,因为他的团队从做Robot Dart开始,他的愿景是连医生都不用,何况还要用一个医生仿人机器人,所以他是不会用的,其团队已于2025年7月份实现全球第一例全自主机器人切除猪的胆囊实验。

Sugano教授则认为“一定会”,MoonShot 2050计划中,人形机器人被设计为在太空站等极端环境下执行多科室手术。

孟庆虎指出,现在所说的AI大模型,实际上还是一个AI大语言模型,大家一定知道这不是万能的,所以大家用大模型的时候,其文字处理能力做得不错,但在图像解析和对三维世界的理解还有很大的差别,从算力、算法和数据来看,最大的原因是数据获取方式有严重问题。他进一步对国内目前资本热捧的“具身智能”概念提出批评,认为这更应被称为“空间智能”,并强调比起追求遥远的通用人工智能(AGI),立足于具体应用的“场景智能”才是当下产业落地的关键。目前,马斯克和奥特曼都在做人为的数据扩维,若无法实现真正的维度扩展,就只能扩冗余度,这样训练出来的模型有严重问题。

最后,他认为,仿生机器人医生终将到来,但这一愿景的实现面临着一个极为严苛的前提条件:我们必须从现在起,开始着手收集那些术式最好、且能讲清楚的医生所提供的多维多模态临床数据。在手术数据的收集过程中,医生需确保手术步骤的详尽与清晰,因为那些含糊不清、无法准确描述的数据,对于机器人而言,仍将是一团难以解开的乱麻。(杨倩)

以下是孟庆虎先生演讲实录:

孟庆虎:尊敬的潘院士,王教授,还有付先生,各位领导、各位,非常荣幸今天有机会跟大家分享一下我们在医疗手术机器人方面的一些工作,尤其在人工智能和仿真机器人这么热闹的浪潮下,我们应该从哪个角度看这个问题,这一波人工智能热潮实际上始于十年前,2015年的时候Google的CEO发布一个讲座,其中他说Google在做一个app,叫作Google duplex,演示了Google Duplex打电话去约一个剪发,整个过程中对方并不知道是人工智能的算法在跟他打电话,成功预约了这个剪发,他讲了这么一个过程,当然是他成千上万失败里面一个成功的案例,Google Duplex到今天为止也没有发布,因为成功率太低,但是这件事本身就触动了Elon Musk和Sam Altman,他们说Google想用人工智能赚钱,这件事不能这么干,一定要开源,要为大众服务,所以2015年,他们俩联手创立了Open AI,他们讲这个东西不能用来盈利,要开源,大家都知道十年以后结果是什么,刚才潘院士讲的时候讲了很多人工智能大模型里很多的问题,我们要想知道这个问题为什么会发生,就可以从人脑和计算机,从算力、算法和数据稍微做一个对比,这个问题至少给我们一个思路,我们应该从哪些方面克服目前大模型所具备的问题,人工智能不管怎么样,想用计算机和算法来模仿人的大脑,所以我们要了解,我们人的大脑,成年人的大脑算力到底有多大,我们不知道,有各种各样的估算,但是没有一个人有真正的数据,但是我们知道用了多大的算力来算人工智能的大模型,目前最大的马斯克的20万张H100的算力集群是目前世界上最大的,他的Grok4待会儿会讲。

我们大脑用的是什么算法?我们都是估算,说是神经元网络,到底是什么样我们也不清楚,但是我们知道用什么样的算法在建大模型,每次对人脑的研究,神经外科神经内科有一点点微小的变化和进步的时候,会发现算法会突飞猛进,这里面对我们大脑的认知还在不断的进化,我们的算法也在进化,这是一个螺旋上升的过程,一个成年人的大脑到底需要多大的数据量来训练,也没人知道,但是我们知道,现在各家的大模型都号称已经耗尽人类数字化的信息,但是想一下,这个地方出现一个很大的区别,我们人在成长的过程中,自从在母亲的身体里形成生命一瞬间开始,我们的数据学习就没有间断过,而且我们的数据不是被投喂的,我们是遇上什么学什么,所以成为每个人成长过程中就成长为不同的人,每个人的大脑水平、发育程度,所经历的东西,学习的数据都是不一样,但是从来没有被控制住,没有被投喂过,都是自己去探索的。但是现在用的这个所谓训练大模型数字化的信息只占人类生活的极小一部分,而且不能完全代表人类,这样一个数据如何能得到AGI,这个地方是我的第一个发问。

再看人的大脑,人的大脑非常厉害,除了这些客观的数据以外,它有一个非常大的能力,我们的功耗二三十瓦,但是我们处理的能力现在比一个核电站供电的人工智能波浪线还要厉害,这个里头到底是为什么?我们被动接收信息的能力很强,但是主动接受就非常小,最后往往只能有非常少的记忆和做出反应,这个过程我们的大脑一直在做交集,再大的集合做交集就会变得非常小,所以我们人这么高效在做,人工智能现在做不到,所以我们人的大脑普遍智能空间如果用维度和球体来表示,是一个接近无穷维这样一个球体,维度很多,每个维度上有一件事,比如说这是做加法,那个是下围棋,这样人的维度,每个人的大脑普遍智能空间的维度是不一样的,但是差不多趋于无穷,每个维度上面的强度又是不一样的,有的人这个方面强,有的人那个方面强。但整体是一个球形的。

人工智能现在训练出模型基本上是一个低维的,维度不够,跟人比差得很远,但是在某些维度上的强度超越人类,比如下围棋这件事就很厉害。明白这件事就知道,现在的数据永远不可能投放出所说的通用人工智能接近人脑的东西,机关用算力和算法去不断的弥补但还是不行,我们举个例子,(图示)左下角这个图,我们见过四腿动物和树荫这样一个小孩,基本上都能看出这张图一个狗或者一个四腿动物,闻着地皮往一个树荫下走去。基本上这张图人类很容易就能看出,但是计算机从最早期到现在它要识别这张图的方法完全跟人类不一样的,最早期的时候是找轮廓,他找到轮廓以后比对模型,这只狗,先把它看成一个斑点狗,这个狗的后背和左后腿完全和背景融在一块,找它的轮廓绝对出来不了一个狗的形状,这就很难做到模型匹配,近期人工智能流行以后,现在用的是点云的方法,重点的地方多一点点,不重点的地方少一点点,这也是做不出来的。这就说明人工智能现在的算法和人的大脑算法完全不一样,我们人到底是怎么识别这张图,现在没有人能说清楚,这就是我们在人工智能读图的时候还是跟人有很大的区别。我们看看人工智能大模型的表现。

自从2022年11月30日发布了ChatGPT以后,2023年ChatGPT就很火,2023年5月份,它是一个大语言模型,但是当时在5月份的时候他们正在研制下一代,不光能处理文字而且能处理图像,我当时特好奇,现在这个到底能不能图像,就把这张图送上去让它分析,它的回答是:很抱歉,作为一个基于文本的AI,我无法直接查看和分析图片,如果想了解这张图,你先给我描述它的内容,我描述了我还让你读什么图,所以它没法帮助。同一个时期,2022年5月份,当时有一个内测版,我找我的学生在他们内测团队做了一下,内测版当时说一个年轻女子坐在沙发上,拿着书,一头棕色的长发,蓝色的毛衣和牛仔裤等等,它从这幅图读出来这些东西,我们是读不出来,这个幻觉幻得到很厉害,这就是2022年的情况。但是2022年同一个时期,Google有一个 bard,但是Google Bard也没有那么高调的宣传,但是它的确,把这张图给它,它读出来了,它说阴影中的豹子,至少它看到了阴影,也看到了四腿队伍,它认为是个斑点豹,但是没有看出那棵树来,这是2022年的时期。

回到2025年,ChatGPT5,这是我上个礼拜五给他,他看到一个黑白斑点狗站在外头,好像靠近一个人,它看出斑点狗,没有看出树,它把树看成一个人,这是ChatGPT5,这是Gmini2.5 Pro,也是最新的,就说看起来像一个黑白斑点狗,闻着地向一个阴影处好像向一棵树的地方走去,Google实际上一直默默的做事,因为Google自己有钱,不需要去忽悠资本,但是open AI和马斯克他们都是用技术垄断来达到资本垄断,来统治人类,这是他们的目的。他们要不断的来忽悠资本,但是Google做的东西还是比较踏实的,但是也不能忽略算力的厉害。刚才我们说算力最厉害的是马斯克20万张的H100,它算出来的Grok4写的是它看起来像一个豹子,它看出来是一个斑点豹,正在通过一个稀疏草地上面的树边上,能看出是草地,里头稀稀拉拉有树,这个豹子正在向树下走去。这个结果相当不错的。

ClaudeOpus4.1也是看到一个四腿动物,它把树荫看成一个水池子,也看成了水的发光。这个地方还是有一点距离。

国内的几个表现怎么样。

豆包说这是一个斑点狗的错觉图,就说这是一个斑点狗,看出斑点狗,没有看出树荫。

讯飞星火和DeepSeek试图在这张图里做文字提取,它们不会读图,这两个告诉你我读不了图,但是这里面没有什么文字可以提取。通义就说这是一个山水画,里头有渔夫,有钓鱼的乐趣,整个一个幻觉。元宝说的稍微好一点,这里面像展示一个猎豹在户外环境中活动的场景,当他说背景的时候,他提到了树,现在花了这么多精力,而且投入这么多人工智能的大模型,再看人类非常容易看清一张图的时候,他们会出现各种各样的问题,这个问题在于至少我们理解我们人肯定不是用他们这个人工智能的算法来理解这张图,所以这个算法是一个最大的瓶颈。

再说仿生机器人,1973年在早稻田教授加藤一郎教授第一个做出来的仿人机器人,他做的仿人机器人当然用语音控制,这个机器人可以语音回答,但是看到这两只手当时是有触觉的,所以加藤一郎教授当时提出来说仿人机器人一定要语音交互。但是从波士顿动力学到现在,基本上所有的仿生机器人出来都是哑巴,这个里头后面会分析,就是有问题。但是加藤一郎当年的初心一定要像人一样,他已经去世了,他现在的实验室负责人叫Sugano教授。

波士顿动力学辉煌了20年,这张图是早年波士顿动力学第一代大狗演示的视频,我跟这个大狗还是有一点的缘分,这个大狗总工程师叫马丁布郎(音),当年我们两个人都在加拿大做教授,我们两个人联合申请一个项目,这是我当年邀请他到中国来,他在山东大学看到我们做的小的电动狗,他骑着转了一圈以后,他说:了不得,你们这点时间这点钱就能做出这么好的东西,当年在加拿大做了加拿大国防部的项目,叫作野外运输作战平台,我做了四个轮,他做了四个腿,最后加拿大军方采用了四个轮的方案,四个腿就没有被用,他的博士后导师就是波士顿动力学的老板Raibert,当时说四个腿加拿大没用,你把它拿过来,我们去忽悠一下美国军方,结果他们就把那个拿到美国DAPEI(音),DAPEI(音)居然给他们钱支持他,让他们做。这样他就辞职,回到波士顿动力学做大狗的第一任总工程师,这个项目实际上是从加拿大开始的。

做完第一任总工程师以后就不干了,就从波士顿动力学离职了,后来去了迪士尼机器人,现在他自己在加州创业,做烹饪机器人。他觉得那个更靠谱,他当时就说那张图,刚开始看的那个冰上面居然没有倒,实际上那天在测重力在雪地里的反应,在雪地里到底能驮多少东西,能走多快,结果走着走着,那个大狗自己就走到停车场了,那个角上正好有一摊冰,他们的摄像机就一镜到底,没有停,结果居然那天就稳住了,没有栽倒,所以看视频的时候也不要光看这个,这是一万个不幸当中的幸运,他留住了,他跟我讲了内幕,这些东西我们看视频的时候往往展示的是他想给你看的东西。

我们说的仿生机器人,到了现在马斯克说擎天柱将来要进汽车厂装配汽车,走路颤颤巍巍,装配的效率,他为什么要这么说?他不这么说怎么可以打造一个他自己的目标是35万亿美元的帝国,天上有space,地上有特斯拉,舆论有X,还有擎天柱机器人,他就是用这种东西来忽悠资本,最后就能够实现商业目的,马斯克上个礼拜又发布一个最新的访谈,他那个访谈里面就说擎天柱可能不会像我原来说的那么快来到工厂打工,现在解决不了一个重大的问题就是手的问题,原来我们以为这个东西没有那么难,现在比我们想象的要难,尤其里面没有像人的皮肤,操作能力等等,现在做手的人都有一个错误,他说现在只做手这部分,实际上手应该跟臂一块儿做,手的灵巧实际上都是在臂上控制,如果用一个手,你想要把它做的这么灵巧,非常难。另外一个是感知,他自己现在又开始放软话,要往后走,不管怎么样,美国负责画饼,我们国家总是给他非常认真的烙熟。这是深圳众擎机器人的跑步机器人,跑步的姿态、走路,我放这段的原因这是我的博士生毕业以后去做,他当年在香港中文大学跟我读博士的时候,论文题目是仿生机器人的运动机制及控制,他就做了这个,做完这个以后跟他祝贺,言你们这个东西做的不错,他问了一句话,他说老师下面做什么,你们是做这个行业的,你问我下面做什么,我说:你们要干什么?他说:我们希望这个能去养老,能在家里帮老人养老。第一这个机器人现在能干什么,能不能给老人擦个屁股,他说:擦不了,我说:擦不了就去看一下一个保姆在家里面从早到晚做的这些事,用机器人实现把它从易到难排个队,一个一个做,大概要5年的时间,你能把所有的技术落地攻克,前提条件不能改造家庭的环境,不能说上来买一个机器人得把家里整个改造一遍,那个不行的,再用五年的时间把成本打到老人可以买得起,养老机器人5到10年之内大量的产业化可能性不大,讲故事容易,演PPT也容易,但是把其中家务活中每一件事要做好,成功率非常高,非常难。我目前的理解这就是仿生机器人。

今天的内容主要讲手术机器人,手术机器人相对仿生机器人进步比较慢,原因就是它的目的性很强,它上来就是要做手术,而且国家和国际上监管非常厉害,必须要做大量的临床试验验证,还要拿三类证,国家是控制的,然后才可以卖,不是今天在家里存一个机器,明天只要有人出钱就可以卖,这是不行的,所以手术机器人还是比较慢的,我们的旗舰,现在国际上最领先的就是达芬奇,达芬奇刚刚在前几个月发布达芬奇5,达芬奇是一家非常成功的商业团队,技术来源于2001年收购的宙斯团队,机器人20年基本上没有什么变化,但是全球装机量接近6千台,这是非常厉害的商业成功。第五代加了一个力传感,力传感加了以后整个效率提升都不足40%。20年基本上没有什么太大的变化,主要是商业装机,现在全球已经有各种各样模仿达芬奇和超越达芬奇的产品,都在层出不穷的(出现),我们国内也有很多模仿达芬奇的,但是悲剧一点是模仿但是没有创新,达芬奇没有力反馈的时候,他也没有力反馈,等到达芬奇加上力反馈,大家一窝蜂上去加了力反馈,但还是有一些公司在做超越达芬奇,我们就在做后达芬奇58根手术机器人(音)GoogleMAKO也是最早进入市场的,今年也推出了MAKO4,MAKO4换汤不换药,用的机械臂还是20年前的WAM机械臂,控制台和导航仪搞到一起去了,工业设计稍微好了一点,跟我们现在国内的比,不管怎么样说,从技术上跟国产现在已经没有任何优势了。

今天我提的一个问题是因为是未来大会,未来仿人机器人会不会替代外科医生?

今年年初的时候在香港有一个会议,约翰霍普金斯Russel Taylor号称是手术机器人之父,第一个创造Robot Dart,做骨科机器人的,所以说他是手术机器人之父,也是美国国家手术机器人中心的主任,全美就那么一个中心。

另外一个人是人形机器人最原始的主任Sugano,这两个都是多年的老朋友,见到他们以后跟他们俩探讨这个问题,我问他们:手术机器人你觉得将来会不会被仿人机器人来做手术替代,Russel Taylor想了想说不会,他说不会我也非常理解,因为他的团队从他做Robot Dart开始,他的愿景是连医生都不用,何况还要用一个医生的仿人机器人,所以他是不会用的,因为他们的公司7月份在science robotics发布全球第一例全自主机器人切除猪的胆囊,连切了5个,全部是自主,没有人工参与,而且5个全部成功,所以在他认为,既然我做手术机器人,连医生都不要,还要一个医生的仿生机器人干嘛。我问Sugano,他说yes,这个观点不光我说yes,他说日本有一个计划MoonShot2050,这里面我们的人形机器人就是要做手术的,先看Russel Taylor他们刚发布的东西,7月份的时候他们在science robotics发了一篇文章,他们做了5台猪胆囊全自主机器人,中间没有一个医生护士介入,就是机器人完成所有的手术,5台全部成功,这是一个里程碑式的东西,非常厉害,在他来说手术机器人都取代了医生,所以仿人机器人医生更不是不需要。

这是日本的MoonShot2050计划,它有好多的因素,其中一个部分,比如在太空站,不可能上一个医疗团队,更不可能把每一个科室的医生都放上去,平时端水倒茶的服务人人形机器在关键的时候下载一套软件,把手臂换成手术工具,它就来完成手术。在日本科研计划里面,没有一项专门做仿生机器人的,尽管日本首先开创仿生机器人这个行业,但是他们没有一个国家级项目做什么,他们的国家级现在最大的项目就是MoonShot 2050,把人形机器人作为其中主要一个单元来完成的,目的是要完成各种各样的任务。如果仿人机器人来做手术有什么好处?机器人是一个硬体再加上智能体,这就是医生的智慧和医生的经验,将来有可能出现什么情况?医生在忙的情况下智能体何以其他的专科医生就一块儿可以进行虚拟会诊。在医生不知情的情况下做了决定和手术,如果这个环节当中,医生还是要批一下的话,这是有可能的,但在将来,我们现在人工智能的算法、人工智能的诊断已经可以拿到三类证,已经得到许可,如果这些都能许可的话,将来一个著名医生的虚拟智能体与人形机器人就可以完成手术,现在飞刀要到一个地方做,将来用100个智能体在100个地方同时做手术。

众体合一,在空间站不可能上所有的专家,所以一个智能体融合了神经外科、胸外科、肝胆外科、泌尿科、骨科所有人,每次你需要不同的手术就需要下载这个软件,然后换上它的末端工具,你就变成了这方面的专家。所以,这个东西我觉得一定会到来的。

总结一下,现在所说的AI大模型,实际上还是一个AI大语言模型,大家一定知道这不是万能的,所以大家用大模型的时候,目前文字做得不错,但从图像和对三维世界的理解还有很大的差别,从算力、算法和数据,最大的原因是数据获取方式有严重问题,目前马斯克和奥特曼都在做人为的数据扩维,扩不了维,就只能扩冗余度,这样训练出来的模型有严重问题。

另外,国内对具身智能炒得有点过了,这是50年代一个老概念,有极大的局限性,像李飞飞从来不提具身智能,而是提spatial intelligence(空间智能)。不管一个什么样的东西,如果要跟人工智能,与现实社会结合,人在三维世界,所以空间智能更重要。

黄仁勋提出的人工智能机器人三层的运算模式当中,具身智能只是占最底层中的一小部分,所以我们一定不能将自己的思维限制在具身智能这个坑内,然后就很难做,像刚才说的人形机器人,实际具身智能好像就是智能的事,容易让大家认为,现在一听好多演讲,尤其是做人形机器人的,就强调现在不好的地方是因为智能不够,实际马斯克说的不是智能不够,而是硬件不行,是那个手和臂的问题,我们过去几年提的概念是“场景智能”,刚才院士提的“垂直领域”,场景智能实际就是瞄准一个场景应用,我要解决这个问题。

举一个例子,胶囊内窥镜,它有图像,但让它识别文字和人脸都不会,但你一旦将它吃下去,从口腔到肛门,整个消化道中的异常它都可以非常精准地给你找出来,这样一个系统,我用一个台式计算机就可以解决所有的问题,这是一个场景智能的例子。

通用人工智能,实际我认为它是一个极限值,我们永远奔着这个目标去,但永远达不到AGI,原因是我们刚才分析的数据算法和算力,这些我们现在能控制的就是算力和算法,但算法跟人脑还是有巨大差别的,而且最难办的是我们不知道这个差别在什么地方,我们只能不断地尝试,用输入输入法无穷逼近,这个效率非常低,导致我们需要巨大的算力,人是二三十瓦的装置,所以这里边还有巨大的空间可以做。

如果我们场景智能将人类生活的所有场景都覆盖了,然后这个时间趋于无穷,最后一定会达到AGI,好多人说明年、后年达到AGI,我觉得这件事不太靠谱。

回到数据,图灵1947年就讲得非常清楚,我们想要的是一台能从经验中学习的机器,不是将你数字化的用完就完了,然后再造一些冗余数据,要从经验中学习,图灵实际上1947年就告诉你发财之路在哪里,现在做人工智能的,标注数据的是比较赚钱的,做大模型的都是烧钱的。未来,Rich Sutton2025年图灵奖获得者,也是我原来在阿尔伯塔大学的一个同事,他在最近的一个演讲中,说:大模型已经逼近人类的数据边界,真正的智能应该像婴儿在感知行动中自我学习。人类形成普通智能的过程,是我们的数据从来不被投喂,我们也从来不被关机,我们是逮着什么学什么,于是就形成了各种人类,但目前人工智能根本就没有机会,我们的数据都是投喂的、筛选、人造的,期待这样的数据可以投喂出像人一样的智能,我觉得这是不可能的。

在这个时刻,我们要学习掌握AI作为一个工具,用场景智能替代通用模型落地为王,你赚不到钱,你什么都是瞎说、胡闹。

一个人形机器人,现在有那么多人帮你开发,你选一个最好用的,30万、50万,100万到顶了,你可以选一个顶级顶定的人形机器人,再给它装上末端工具和算法来做手术,和一个专用的手术机器人,一家研究一台,根据这个技术储备和能力算,而且费用那么高,你觉得从商业上哪个存活率会更高?我觉得仿生机器人医生终将到来,但有一个非常严苛的前提条件是,我们必须要从现在开始收集这些术式最好的,而且能讲清楚的这些医生的多维多模态的临床数据,在这个手术数据的收集过程当中,医生要将过程讲清楚,讲不清楚那些数据,对于机器人来说还是一团麻。

来源:新浪财经

相关推荐