IROS 关键圆桌:到底应该模型驱动,还是数据驱动?

B站影视 电影资讯 2025-10-21 21:35 3

摘要:10月20日,在全球智能机器人与系统大会(IROS)时隔19年重返中国内地之际,美团于大会期间举办了“机致生活Robotics for Better Life——2025美团机器人研究院学术年会”。现场,美团副总裁、美团机器人研究院理事长毛一年、香港大学教授席

作者 / Robo小曹

10月20日,在全球智能机器人与系统大会(IROS)时隔19年重返中国内地之际,美团于大会期间举办了“机致生活Robotics for Better Life——2025美团机器人研究院学术年会”。现场,美团副总裁、美团机器人研究院理事长毛一年、香港大学教授席宁、禾赛科技创始人李一帆、自变量机器人CEO王潜等发表主题演讲,围绕“具身智能商业化”“机器人感知、规划和控制”等议题展开探讨;来自宇树科技、星海图等企业的负责人共同参与圆桌论坛,探究具身智能发展的“第一性原理”。RoboX将全场内容进行了梳理。

本场圆桌嘉宾包括:

王兴兴| 宇树科技创始人、CEO

、CTO

许超 | 浙江大学控制科学与工程学院教授、浙江大学湖州研究院院长

许华哲| 清华大学助理教授、星海图智能联合创始人

赵明国| 清华大学教授机器人控制实验室主任

主持人:清华大学深圳国际研究生院副教授-丁文伯

第一性原理仍然模糊

王兴兴:在硬件方面,基本上所有商品都是与成本和重量相关的;但在软件上,AI领域的第一性原理确实还有点模糊。

如今,大家对于「什么是智能」这一概念想得都不够透彻,很多人觉得是「数据的压缩」,将智能给提炼出来。

如今这一观点已得到了验证,但我觉得这不是个终极的构想。智能的概念,未来应当像牛顿力学定律那样,做更多总结,得出一些基本概念和规则。

至于技术实现路径的规则,就是核心原理归核心原理,工程技术归工程技术,这两块还需要再分别深入探索。

许超:我在浙大控制学院给学生上课的时候,发现越来越多的学生更喜欢研究AI和机器人,对传统控制学的兴趣渐渐下降。所以有人说:“以后信息学科只有两个专业,叫计算机一院和计算机二院。”

现在的具身智能,要将躯体和灵魂的合二为一。原来的机器人是力量和精度的象征,但是大脑还不行。要补脑,就要靠人工智能。

AlphaGo是让人听机器的指令去下棋,那么估计再过两年,就会让机器人直接上场对弈。

大家经常在辩论,到底是模型驱动厉害还是数据驱动厉害。我认为,人类社会发展到现在,积累了很多的第一性原理,这都是人类的智慧,你不能说它不智能,但关键还得看效果——不管是黑猫白猫,抓到老鼠就是好猫。

我觉得未来的模式应该是牛顿+辛顿(Geoffrey Hinton),一位是最牛的物理学家,一位是计算机领域的诺奖第一人。如果可以让他们二人「握手」,协同解决问题,那这就会是一个让大家都舒服的架构。

过去的很长时间中,控制学更多是在研究小脑。随着传感器价格下降,算力提升,机器人除了翻跟斗之外,也可以去识别目标避障,包括轨迹规划还有协同,这也需要大脑的能力。

这上面还有一层,应该是云脑——它就像继续教育学院,当大学里的课程不够教了或者过时了,云脑可以进行补充更新。所以我觉得未来的云脑,是需要付费的,到时候运营商可能会在该领域做商业化布局。

许华哲:在智能的第一性原理上,我总结为欲望、先验和经验这三个词。

包括人在内的很多生物,本质上就是由欲望驱动的,高阶的欲望是探索未知,扩大地盘,这种欲望让生物变得很聪明。

1、欲望。所以我在做智能体的时候,无论是物理的还是虚拟的,我总觉得现在机器学习没有自己的学习欲望。我们可以设想一下,能不能给机器人一种自己的欲望?

2、先验。预训练的模型让它有了很好的先验。为什么马生下来5分钟就能走路了?也是因为它的DNA里面有一些先验在的。但神经网络没有这样的先验,如何将这种先验移植到神经网络中?这是我经常思考的。

3、经验。经验是完成世界最终闭环的一种手段。有一天,我在家里面看到一位维修师傅就是帮我们修煤气灶,他踩在一个梯子上拧一个东西,整个身体造型极为扭曲,但他仍可以完美控制重心保持平衡,并且手上还可以做非常精细的操作。

这一刻我就觉得,即使我买了宇树机器人,也很难做这样的project。因为人类有这样的经验,只有用自己的身体、自己的行为产生的这样的数据,才有可能让机器人做出一些现实世界上非常小众,但又必须要成功的事情。

软硬件体系的终极形态

王兴兴:大家都希望我的硬件能够足够好——只需要跑一遍软件就能跑通,不需要反复调试硬件。但实际上,效果往往很糟糕。

随着AI能力和软件能力越强,它对硬件的要求反而会越低。例如现在灵巧手很难做,但如果夹爪足够用,其实也不需要灵巧手了。

大家可以观察到一些残疾人,他甚至没有手,却也能干活儿,甚至可以干针线活儿,但实际上就是AI的能力达到一定程度以后,它对硬件要求是比较低的。

目前,全世界机器人的AI软件能力都是不够的,那肯定对硬件的一致性、可靠性和灵活度要求都很高。虽然我们是做硬件的公司,可我也巴不得大家对硬件要求高一点。

早些年的传统算法,对硬件要求要高很多,但凡存在间隙,或有一点一致性问题,算法就容易跑飞。如今AI训练出来的算法,已经比传统算法对硬件要求低很多了:哪怕传感器噪声很大,间隙很大,关键的一致性也不太好,也都能够尽可能适应了。当然,目前还是不够的,大家也都在努力解决问题,做得更好。

赵明国:我和一点稀泥:在某些阶段,可能确实需要软件发展,硬件得到的关注度就少;但一旦达到一定程度后,大家肯定又希望硬件升级,矛盾又会转化到硬件。

硬件的升级,往往映射出软件的巨大需求;而软件升级,也可能依赖于硬件,这是「你中有我」的关系。

所以,宇树的经验不仅是硬件,因为硬件肯定也要用各种算法来验证,他们有很多算法团队在后面做各种各样的案例,这个是互相迭代的过程。

我最大的好奇心,在于未来谁来决定这件事情——汽车行业有一个概念,要靠供应链来解决问题,现在好像也不完全是。

机器人的关节,除了配置电机以外,还要有各种驱动器传感器。我们干脆以后做一个芯片进行集成,如果能达到规模的话,岂不是经济效益能达到最优?那个时候,就要求软硬一体了。所以可能未来,你很难再分清楚软件和硬件。

模型驱动 or 数据驱动?

赵明国:我最近做的大部分工作与数据有关,希望靠采更多的数据、乃至多模态数据来推动研发。

如果是Model-based的话,我们人要先把事情理解清楚了,在脑子里形成一个Model,总结出理论,然后用理论指导实践,但目前人的理解能力都还不够,理论的覆盖面也有限。

数据的覆盖面是更大的,我们正在数据科学中总结新的理论,但这个理论现在还不够成熟。

比如,我们希望物体从A 移动到B,有多种操作方法,像用Dffusion、轨迹规划或其他方式,甚至用图像也能操作。但在物理世界中,物体从A 到B 这一过程,其规律解释得很清楚,无论怎么做都不可能违反相关定律。

在定律允许的范围内,可采用不同的计算方式,算法演化也各不相同。搞人工智能的往往局限于传统数据科学的方式,这些都属于模拟量。

而我涉及的脑科学领域,模仿生物更基本的性质进行,其编码方式、芯片处理和制造方式都截然不同,有人称其为「第三代计算机」。所以,我认为新理论有的可解释,有的可操作。

若是基于模型的方法,更注重可解释性可能更安全;而若想追求更好结果时,即便不一定有理论,也可先采用数据驱动等方式获取结果。不过,最终不能仅依靠数据而无视理论,这样会比较片面。

许华哲:我分享三点想法:

1、「用脚投票」:那些想搞机器人研究的同学,最初大多选择做Model-based的方法。有人说想做强化学习,有人想研究敏捷控制等。但到了今年,全都变成「我想来做VLA项目」。用脚投票虽非本质,但能在一定程度上反映人才聚集情况。

本来某研究方向可能只是看似可行、有前景,但因为这群人的加入,它真正走向了成功。这些人来了,反而从某种意义上「迫使」这个方向得到了验证。

2、Bitter lesson:李开复曾讲过,他在谷歌时,每辞退一位语言学家,语言模型和语音模型的性能就能提升3%。直到把全公司的语言学家都辞退后,谷歌的相关技术才真正奏效。

现在大模型的发展也有类似情况。这种Bitter lesson让我们意识到,当一个事物的复杂度达到一定量级时,我们无法再依靠一群专家将其研究透彻,必须依靠数据,让神经网络去拟合丰富的数据分布。

3、数据获取应该是自动的过程——能否让机器人去挖数据「矿石」?数据在机器人领域之所以还值得讨论,是因为自动生成数据这件事尚未形成闭环。而其他领域的数据就像矿石,挖掘数据的「机器」早已存在。不过,哪怕在机器人领域,只要你相信它能造出来,那它就一定能实现。

许超:AI 火了之后,不少学校都成立了人工智能学院,有的依托计算机专业,有的依托自动化专业。学生在选定专业时,就会问「哪个专业更重要」。

有一位前辈给出了个很巧妙的回答:人工智能好比一个孩子,自动化是「父亲」,计算机是「母亲」,数据则是「叔叔」。

所以,就像主持人刚才提到的硬件、软件、模型和数据,我认为它们应该融为一体。现在具身智能描绘的蓝图很大,若把范围聚焦到具体任务上,那就必须软件、硬件、数据和模型相关人员通力协作,逐个攻克难题,大家才能共同进步。

举个技术方面的例子,若要为机器人系统建模,抛开流体力学和多体动力学,单纯用一堆神经网络去拟合动力学,可能效果不佳;若从分析力学角度出发,对拉格朗日方程进一步分解,就会发现其动能是二次型,惯量矩阵只有一半未知,这样学起来就容易多了。势能虽是未知的非线性函数,但学完之后,或许能让问题简化一些,给软件减轻负担。

所以还是那句话,不管白猫黑猫,都得捉到耗子。不管用什么方法,先找到关键方向最重要。

你心目中的机器人最终形态

赵明国:我一直在做机器人踢足球的项目。就运动而言,踢足球是一项较为全面的运动,有很大一部分能力能反映机器人的智能水平。后续还会涉及多个机器人的协作,以及组团对抗,涵盖的问题十分广泛。

这个项目的目标是,到2050 年组建一支机器人足球队,与人类世界冠军足球队一决高下。不过,就目前智能领域的发展情况而言,我觉得有些遗憾。从逻辑上讲,机器人应该有一个代表性的标准任务。而现在大家手头的任务太多,有的机器人在叠衣服,有的在抓取物品,有的在操纵其他物体,任务种类繁杂,缺乏统一标准。虽然涉及面广,但难以聚焦。

所以,我还是会坚定地聚焦在机器人腿部动作的研究上,不管我能干多久,都会一直坚持下去。毕竟就目前情况来看,短期内,即便到我退休,这个目标可能也难以实现,但我会继续努力。

许华哲:我是个科幻迷,有一部我很喜欢的动漫叫《玲珑》。动漫里有这样一个观点:人的一生非常短暂,大概只能活到80 岁、100 岁,最多120 岁这个量级,但宇宙中的知识却是无穷无尽的。

这也呼应了我第一个回答里提到的想法:能不能有一个机器人,它有自己的欲望和好奇心?这样的机器人可以代替人类前往半人马星系,去探索那些普通人永远无法触及的地方。

毕竟,人类知识的传播效率实在太低了,主要依赖老师传授。而机器人不一样,首先,只要它自身不损坏,就能一直运作;就算损坏了,只要把它的神经网络移植到新的机体上,它就能继续「生存」。

这就是我理想中未来机器人的样子——有一个机器人能替我去探索浩瀚无边的宇宙,因为我自己没办法做到。

当然,未来的机器人也得和人类很好地融合,一起解决我们生活中的问题。所以,我们正在构想搭建一座「未来之城」,来验证不久的将来人机融合的可能性。

除此之外,我希望机器人的智能发展能更加「绿色」,也就是在算力方面,新一代的AI架构下,其算力应该会有革命性的变化。

王兴兴:我一直觉得,具身智能如果真的实现了,其实离AGI已经非常接近了,我觉得在至少我们这一代,肯定是都可以看到这件事情。

AGI应该是人类最终极的发明,包括后续的生产、消费娱乐,经济探索都可以用它来实现。这是当下我们这代年轻人最激动人心的时刻。

所以我觉得我们这一代人中,如果谁真的能写一个智能方面的「牛顿定律」出来,Ta就会是过去几千年人类历史上或者未来几千年人类历史上最NB的人。

给年轻人的一句话勉励

王兴兴:距离我读书的时候,已经过去十几年了。我当时很多的想法现在都基本上实现了。我觉得对每一个年轻人来说,如果你大脑里有什么想做的事情,或者你有自己的梦想,你真的要相信自己可以实现它。

许超:要追寻好奇心,不要去死卷分数,每个人心中都有一个机器人。

许华哲:寻此苦旅,一地繁星。

赵明国:我觉得机器人和机器人智能给大家提供一个全新的时代,所以年轻人应该就要把油门踩到底,全力加入到这个行业里来。

来源:AI科技评论一点号

相关推荐