Transformer 在具身智能“水土不服”，大模型强≠机器人强

摘要：自年初以来，一系列现象级事件不断将具身智能推向公众视野：从春晚开始，宇树机器人频频登上热搜，逐渐风靡全国并走向世界；一众技术“大佬”纷纷投身机器人创业，大批创业项目集中涌现，几乎所有人都在下注——通用机器人的时代，仿佛触手可及。

嘉宾 | 胡亮、王鹏伟

对话 | 唐小引

责编 | 郑丽媛

出品 | CSDN（ID：CSDNnews）

2025 年被业界称为“具身智能元年”并非偶然。

自年初以来，一系列现象级事件不断将具身智能推向公众视野：从春晚开始，宇树机器人频频登上热搜，逐渐风靡全国并走向世界；一众技术“大佬”纷纷投身机器人创业，大批创业项目集中涌现，几乎所有人都在下注——通用机器人的时代，仿佛触手可及。

但在热潮背后，泡沫的质疑也不绝于耳。英伟达 CEO 黄仁勋的一句“通用机器人时代已经到来”，在全球技术圈引发舆论轰动。然而，另一边知名投资人朱啸虎却宣布“正批量退出人形机器人公司”，引发外界对这个赛道可持续性的担忧。

那么，具身智能到底进展如何？在技术理想和工程现实之间，它面临着哪些关键挑战？是模型不够强、数据不够多，还是架构不够灵活？从“整花活”到“干真活”，中间到底还隔着多远的距离？

带着这些问题，由 CSDN 主办的《万有引力》栏目特别邀请到了两位深耕 AI 与机器人领域的一线专家：同济大学计算机科学与技术学院教授、博导胡亮，智源具身智能大模型负责人、RoboBrain 与 RoboOS 负责人王鹏伟做客直播间，在 CSDN &《新程序员》执行总编、《万有引力》主理人唐小引的主持下，一起深入探讨了当下这场风口之上的技术革命：具身智能——它真的是下一个技术奇点，还是又一场资本追逐下的幻影？

AI 产品爆发，但你的痛点解决了吗？8.15-16 北京威斯汀·全球产品经理大会 PM-Summit，3000+ AI 产品人社群已就位。直面 AI 落地难题、拆解头部案例、对接精准资源！

进群后，您将有机会得到：

· 最新、最值得关注的 AI 产品资讯及大咖洞见

· 独家视频及文章解读 AGI 时代的产品方法论及实战经验

· 不定期赠送 AI 产品干货资料和秘籍

以下为对话内容（为方便阅读，进行了适当的文本优化）：

怎么“转型”到具身智能这条路上的？

唐小引：请两位老师先给大家打个招呼，并做一下自我介绍，尤其可以谈谈自己是怎么走上具身智能这条道路的。我记得，王老师和胡老师的研究方向其实有一些转型的过程？

王鹏伟：大家好，我是王鹏伟，来自智源研究院具身智能大模型研究中心。我们的团队目前设在北京。借着唐老师的提问，我来简单讲讲自己从业十余年来的研究经历和方向转变。

我读博时的研究方向主要是知识图谱（Knowledge Graph）和信息检索（Information Retrieval）。博士毕业后，我的兴趣逐步转向自然语言处理（NLP）方向。

2018 年左右，AI 领域迎来了预训练模型的第一波浪潮，BERT 横空出世，基于 Transformer 架构的预训练方法成为热点。刚看到 BERT 时，我还在想：“哇，这个模型参数这么大，肯定很难用起来吧？”——但现在回过头来看，BERT 这样的 12 层模型，已经非常“小巧”了。

在那之后，我一直在做预训练模型相关研究，研究重心也逐步延伸到多模态预训练大模型。到了去年，产业界开始密集关注具身智能的发展。

我个人认为，从多模态大模型走向具身智能，其实是一个非常丝滑的过程。如果没有多模态大模型的基础、没有海量数据积累和底层基础设施的提升，是难以实现具身智能的。从这个角度来看，具身智能是从“虚拟”世界向“现实”延展的一次跃迁，也是一个渐进而自然的技术演化。

唐小引：这其实也涉及到个人赛道选择的问题。现在有很多研究者依然选择去做基础大模型的训练，也有人将重心转向应用层，比如做 Agent 或具体应用。而你选择了从多模态进一步走向具身智能，把大模型“接入现实世界”，这是出于怎样的考虑？

王鹏伟：我原来本科学的就是电子系，所以从很早开始我就对硬件系统感兴趣。在看到具身智能这个方向逐渐发展起来时，我就很好奇：现在我们习惯于和大模型在“虚拟世界”里对话交互，那么把它部署到真实的物理环境中会发生什么？

因为说白了，物理世界的交互环境所面临的挑战要复杂得多。比如环境的不确定性、三维空间的感知与推理等，在我看来这些任务都更困难，而我本身也比较喜欢去做一些有挑战性的事情。

胡亮：大家好，我是来自同济大学计算机科学与技术学院的胡亮。今天的主题是具身智能，我们目前的研究，也主要聚焦于具身智能背后所需的大语言模型技术。当然，未来我们也计划将目前研发的大模型应用于具身智能系统，实现更深层次的融合。

其实，我们对 AI 和机器学习的研究开始得比较早。在大模型还没兴起之前，我们主要聚焦在数据驱动的研究方向上，比如数据挖掘、推荐系统等。后来随着深度学习的发展，尤其是 NLP 技术的突破，我们逐步转向了对大模型的研究。

不过，我们毕竟是高校，大模型研究无法像工业界那样快速落地应用，所以我们更专注于大模型与前沿科研领域的一些结合。

比如，当前大模型面临的首要问题之一是训练成本极高，同时其耗电量也非常大。如果把这样一个高能耗的大模型作为机器人的“智能大脑”，显然不现实：可能机器人开机一分钟电就用完了。因此，具身智能的发展必须朝着低能耗的方向不断演进。

另一方面，尽管当前 AI 算法已经取得了很大进步，可大模型在应对任务差异性较大的情境时，还存在较大局限。这也就是为什么现在还没有一个通用的“家务机器人”。比如扫地要买扫地机器人，洗碗需要洗碗机器人，叠被子还要一个专门的叠被子机器人。每一个家务场景都要买一台特定的机器人——不像人类，只要吃一碗饭，就能把所有的这些活都干了。

这反映出两个问题。第一，当前模型在多任务场景下的泛化能力比较弱；第二，当遇到新的任务时，模型的快速适应和学习能力仍较差。因此，我们需要探索一些新的机制，推动大模型从功耗优化、到任务适应能力的各个层面，全面朝着可用于具身智能的目标演进。

举个例子，我们可以思考：为什么人脑的功耗远低于数万块 GPU 构建的系统，却能处理更多更复杂的任务？这是否说明，当下的大模型架构其实还有改进空间？是否可以构建一种更加高效、低功耗，同时具备强任务泛化能力的新架构？

事实上，目前的大模型架构已经有近十年没有出现革命性变化了。大多数仍基于 Transformer 架构，依赖庞大的参数数量。这就意味着需要更多 GPU 资源，带来巨大的训练成本和能耗。而高昂的训练成本，也让我们难以频繁训练大模型去适应新任务，这进一步限制了其在具身智能领域中的应用能力。

此外，从感知层面来看，大模型与机器人之间也存在不小的“Gap”。机器人通常配备了多种传感器，如触觉、语音、视觉等，而当前大模型主要还是使用自然语言训练，少部分扩展到图像——与机器人在物理世界中的多模态传感器体系并不匹配。这就导致了目前大模型与具身智能之间结合的深度依然很浅，实际落地还面临很多技术难题。

因此，我们团队正在探索一种全新的方向：能否研发出一种真正低功耗、任务泛化能力更强的大模型架构，同时能将机器人所具备的多模态感知能力整合进来，从而支持持续学习和新任务适应能力，使模型逐步具备类似人类的智能进化能力。

具身智能，将从 Pipeline 向“端到端”演进

唐小引：王老师这次参加全球机器学习技术大会带来了团队围绕具身智能的最新研究进展，可以和大家分享一下核心内容吗？

王鹏伟：好的。在这次的分享中，我主要探讨了从人工智能到具身智能的整体发展趋势，并介绍了当前在做具身智能时，我们主要采用的技术路径。目前来看，具身智能的实现路线非常多样，并没有出现某一条被普遍认可的“标准路线”，大家都还在不断探索和试错。

刚刚提到，我此前是做多模态大语言模型出身的，转向具身智能领域之后，经历了一段明显的“阵痛期”。尽管在大语言模型层面，例如语言生成、推理能力都表现良好，但到了机器人这边就频繁遇到问题，比如数据难以获取、硬件不完善等。

这实际上就形成了一个“死”循环：硬件本身不够成熟，很多机器人两周就坏一次，然后修理又花两周，所以一个月中机器人就一半在坏、一半在修。除了稳定性问题，机器人在操作过程中还经常出现轨迹预测异常。这些硬件上的不稳定，直接造成了系统难以落地的困难；而落地困难，又让数据采集变得更复杂。

目前行业的主流做法是依赖“数据采集场”的方式，进行主动的数据收集。但从 AI 技术发展的历史来看，仅靠主动采集是远远不够的。如果希望 AI 技术快速提升，它必须具备被动式地生产数据的机制，也就是说系统在执行任务过程中能自然地产生、标注并筛选大量数据。但现在这种方式还未普及，主要还是依赖大量人力去主动建设数据采集场地。这种模式下数据量严重不足，也就限制了模型的训练能力，进而又影响了系统本身的优化能力，形成一种恶性循环。

所以目前在具身智能领域，主要存在两种技术路线，一种是模块化的分层思维，另一种是端到端架构。而这两种范式，广泛存在于过去十几年的 AI 应用中。我举个例子，比如搜索。在 ChatGPT 出现之前，无论是搜索还是聊天系统基本都采用模块化架构：一个指令输入后，系统会先进行 NER（Named Entity Recognition，命名实体识别）工作、语法解析，再根据实体判断用户意图——是搜索、聊天还是搜歌。整个过程采用的是流水线式架构（Pipeline）。

而现在，像 ChatGPT 这样的系统可以通过一个端到端的大模型统一处理全部任务。这种架构有更高的性能上限，也能自动处理许多长尾问题。以前遇到系统无法识别的输入，往往要靠人工补充规则或数据；而现在这些边缘用例可以被模型自然地学习和覆盖。

以前，我们在达摩院做了一个诗歌对话系统，本来很自信它能跟用户畅聊所有诗歌类内容。后来某天晚上，一个阿里的高级领导试用时，突然输入了一句“白日依什么？”这种不完整、模糊的提问——很出乎意料，因为大部分都会问“白日依山尽的下一句是什么”这种问题。然后我们的这个系统当场“挂掉”了，因为它依赖的是模块化 Pipeline 的方式，可 ChatGPT 就能把这个问题解决得很好。

自动驾驶也面临类似情况，在具身智能领域同样如此。Pipeline 这种方式的优势是鲁棒性强，可以快速适应 ToB 工业场景甚至 ToC 消费场景。一旦实现大规模落地，就能自然收集被动数据，这些数据又可用于微调模型，推动系统向更强大的端到端架构发展。

所以说，我在全球机器学习技术大会上分享的报告就是围绕这样的演化路径展开的，同时也介绍了我们北京智源研究所在分层架构方面的研发成果：发布了“具身大脑”和“具身大小脑”的操作框架。

目前，国内外并没有一套可即插即用的具身智能系统框架。比如，很多用户买了机器人却发现动不了，因为还需自己编写大量底层代码，处理系统调度逻辑等。为了解决这个问题，我们发布了 RoboOS 和 RoboBrain 框架，采用统一的 OpenAI 接口范式，兼容市面上主流机器人设备——包括宇树机器人、松灵机器人、UR5、Franka 等。用户按照我们的方式设置之后，即可快速启动机器人，完成包括地形理解、物品抓取等复杂任务，真正实现一站式服务。

唐小引：听完王老师的分享，感觉好像解开了我之前对具身智能的一些误解。

此前，我在很多关于具身智能或大模型的讨论中，经常听到 System 1 和 System 2，也就是“快思考”和“慢思考”。而在具身智能领域，很多人提到的是“大小脑”。王老师，是否可以请你分析一下具身智能中的“大小脑”概念，帮助我们厘清这些术语之间的关系？

王鹏伟：好的。“快系统”和“慢系统”，也就是所谓的 System 1 和 System 2，其实本质上和具身智能中的“大小脑”思路非常相似。所谓快系统，是指无需过多思考就能迅速作出反应的模块；慢系统则需要进行较深层次的推理，比如借助 CoT（Chain of Thought，思维链）方式逐步处理复杂任务，这是大模型中常用的一种范式。

至于具身智能中“大小脑”这个概念，它其实是中国技术圈的一种本土化表述，在国外没有这种叫法，而是用“hierarchical”（分层）来描述。那为什么国内叫“大小脑”，我觉得可能是把它类比成了人脑的一些功能：比如大脑主要负责控制中枢、感知、理解和决策；而小脑则偏向于控制动作执行，如抓取、放置等操作行为，从而就有了“大小脑”这个叫法。

那它与“快系统”和“慢系统”的差异在哪里呢？实际上，在最新的系统设计中，这两者已经趋于融合了。比如 OpenAI 投资的公司 Figure 推出了一个具身智能系统 Helix，它就采用了双系统架构：快系统类比于小脑，用于高频率的实时控制；慢系统类比于大脑，负责逻辑推理和复杂感知。

因为慢系统涉及逻辑和理解能力，所以模型参数量较大，响应频率（赫兹率）较低。例如一个 7B 参数的大模型，处理速度一般只能达到 10Hz，这已经是上限了。而快系统需要更高的反应速度，必须要达到 30 赫兹以上，这样人眼去看这个机械臂的操作就会相对丝滑流畅一些。

所以我认为，“快系统、慢系统”和“大小脑”在设计逻辑上并没有太本质的区别，只是术语表达有所不同。

唐小引：你刚才也提到了“端到端”的技术路线。过去，我在自动驾驶领域也经常接触到“端到端”和“泛化能力”这些概念，而这些词在大模型领域也很常见。那么这些技术关键词，在不同场景下的含义是否一致，还是有区别的？

王鹏伟：归根到底，具身智能还是属于 AI 范畴的。从发展路径看，AI 的各个领域普遍经历了从分层 Pipeline 向端到端的演进过程，包括信息检索、聊天系统、自动驾驶等。所以对于具身而言，也是这样的。而这种演进背后的本质原因，就是数据的匮乏。

在 Transformer 架构出现之前，大家普遍采用 Pipeline 是因为：一方面数据不够多，另一方面硬件基础设施无法支撑大规模数据的训练与消费。而 Transformer 的出现推动了底层算力结构升级，进一步使得基础模型的训练成为可能——以此为转折点，AI 系统便逐步从 Pipeline 向端到端过渡。

那智驾也是一样的问题。现在国内市场，“端到端”已成为一种宣传标签，很多客户可能并不理解这个词到底是什么意思，但他们知道这代表着更先进的智能水平。如果车企如果没有“端到端”这个标签，用户甚至可能都不会考虑购买。就像国外的特斯拉，它的数据储备达到一定量之后，就足以支撑它去优化整个端到端的系统。

所以说，不论是大模型、自动驾驶还是具身智能，它们的技术发展路径基本高度一致，都是从 Pipeline 向端到端的演进。

唐小引：也就是说，其实端到端这个概念在智驾和具身智能中并无本质区别？有很多人都说，现在的智能汽车可能也是另一种形式的机器人。

王鹏伟：没错。在具身智能领域中，有一部分从业者就是从智驾行业转过来的，有很多客户也都来自汽车行业，因为他们的车厂本身就是一个天然的具身智能训练场和应用场景。

“具身”与“智能”之间，目前还没有真正协作起来

唐小引：接下来，请胡老师和大家讲讲团队最新的研究进展，为什么从类脑认知多模态大模型着手，希望无缝连接人类大脑、AI 大脑和机器人大脑？

胡亮：刚才我简单提到了一些当前大模型在与具身智能结合时存在的问题。其实现在主流的大模型架构，与人类大脑的结构差异还是非常大的。它本质上还是一种数学模型，是通过大规模的数据训练和参数调优形成的，并不具备生物神经系统那样的结构与学习机制。

所以我们目前的研究重点之一，就是在探索“人类、AI 大模型与具身智能机器人”这三者之间的协同机制。但从现状来看，这三者之间还存在显著的 Gap，还没有一种有效方式能真正把它们连接起来。

以具身智能为例，机器人在很大程度上还被定位为一种服务于人类的工具。当然，未来到底是 AI 统治人类还是人类统治 AI ，这就是后续的问题了。但在当前阶段，我们的目标还是想让机器人更好地理解并满足人类的需求。

而这就有一个问题：我们要怎么把意图和需求准确地传达给机器人？目前在这方面，确实还缺乏一个清晰、有效的“桥梁”，大多数机器人还是在执行预设任务，比如在春晚上跳舞或在街道上奔跑等。

唐小引：对，关于这一点我也有体会。前几天我参观宇树机器人的演示，原本我以为可以直接和机器人进行语音交互，比如我说“挥挥手”，它就会响应动作。但我发现，原来所有交互都是工程师在后台操控的。还有前阵子的机器人跑半马比赛，很多人都说“参赛跑步的是机器人，结果累断腿的是工程师”。所以我感觉，这些都反映出了胡老师刚才所说的具身智能的真实现状。

胡亮：现在具身智能的水平，如果能把一些预设任务完成好，就已经是不错的成果了。它目前根本无法真正理解人的需求和意图，并以此来自主地执行任务。要实现这一目标，至少在短期内需要有巨大的技术突破。

而我们目前在做的工作，就是在探索“人脑、AI 大脑与机器人”三者之间的 Gap 到底在哪里？我们能不能通过某些技术手段，弥补这其中的一部分 Gap？当然，我们也不指望在短期内就完全解决这个问题，但我们希望通过提出新的范式和路径，哪怕是微小的推动，也能让这一进程往前走一些。

所以，我们的研究会围绕这三者之间的关系展开：首先会深入分析当前大模型的局限，然后讨论现阶段机器人存在的核心问题。就像我刚才说的，虽然我们管它叫“具身智能”，但目前的情况是，它的“具身”与“智能”之间，其实还没有形成真正的联系。

唐小引：之前我们都说从“离身智能”到“具身智能”，但胡老师认为“具身”与“智能”之间还没有联系？

胡亮：有些联系，但是还没有真正协作起来，技术上还存在很多难题。我们也在思考，有没有新方法能推动这方面的改进。

目前，人和机器的交互主要依赖语音，但语音本身就存在很大限制。现实中常见的做法是，用户将需求告诉工程师，由工程师再去操作机器人。然而，这种模式在一些关键场景中并不适用。例如在自动驾驶中，如果前方突发危险情况，人类驾驶员需要通过语音下达指令，AI 分析并做出反应，这一来一回可能已经耽误十几秒，车早就撞了。

因此我们在思考，是否可以探索一种更快、更直接的交互方式。我们都知道，大脑中意图的生成速度其实远快于语言表达，感知系统的反应也快于身体动作。所以如果我们能够提取出大脑中潜在的意图信号，将其直接解码为 AI 可以理解的信息，实现“人脑—AI 大脑”的直连，就有可能绕过语音这些中间步骤，大幅提升人机交互和协作的效率。

唐小引：也就是说，我脑子里想到什么、不需要开口说，系统也能理解？这个要怎么实现呢？

胡亮：这其实不难实现。举个例子，当你走在房间里，远处出现一个坑的时候，其实你的大脑早已做出了反应。这个时候，如果 AI 能够接收到你大脑的这个信号，它就不需要你再描述“前面有个坑，我们要向右转”这类信息。因为当你说完这些话的时候，可能已经撞上去了。事实上在你的感知中，你的大脑很快就完成了一个决策。我们现在的目标就是把人类的这种快速决策能力与机器决策结合起来，形成一个更鲁棒的决策系统。

唐小引：我们在研究大模型的时候，一直说它的边界还是语言。那现在从技术实现上看，是不是已经能突破这个“语言的边界”了？

胡亮：现在的话，其中大模型中训练得最好的还是语言相关的模型。但在视觉领域，尤其是对图像的理解上，大模型还没有取得突破性进展。现阶段的模型更多是在处理图像中的对象识别，而非真正理解图像的内涵。

比如，我们给 AI 生成模型输入“人和马的关系”这样的描述，它可能会生成“人骑马”的图片，也可能会生成“马骑人”的图片。这就说明模型还不能真正理解现实世界中的常识逻辑，而是更侧重于处理一些文本内容的语义理解。

我们之所以能理解空间中的“上下左右”，是因为人类大脑本身具备空间感知能力。但对机器来说，“上”和“下”到底代表什么，它其实并不理解。虽然我们可以将“上”这个概念表示成语义向量，但它在物理空间中具体代表什么，模型是无法理解的。也就是说，想要实现具备真实环境感知能力的大模型，还有很长的路要走。目前的大模型主要还是运作在语义理解层面。

在现有的具身智能技术中，常见的方式是将视觉场景转化为文字描述，再交由大语言模型学习——但这种方式本身就存在问题。因为文字表达的是语义，而空间关系则属于物理层面。当你把物理场景翻译成文字后，空间中的物理关系就会被简化为抽象语义，这会导致模型失去了对真实空间结构的理解能力：虽然文字可以描述为“上下左右”，但在模型眼里，它们只是向量，并不具备明确的物理指向性。

所以我们也正在探索一种新的方式：能否将真实世界中的空间关系直接引入到模型训练中？这可能需要引入多模态的数据输入，比如加入人类大脑中的空间感知信号。虽然目前大模型还是侧重于语言，但若要实现真正的具身智能，这应该是一个值得深入探索的重要方向。

唐小引：我之前对具身智能的理解是，大家在实践中首先面临的挑战主要是数据缺乏，其次是计算能力和系统架构等技术问题。但听胡老师你这么解释，具身智能真正要解决的第一步，应该是建立起对现实世界的感知与交互能力？

胡亮：可以这样理解。我们与现实世界进行交互，和在仿真环境中进行交互是存在本质区别的。因为仿真环境不可能把现实世界中所有的物理属性都完整地建模出来。哪怕仅有一两处关键细节被忽略，模型在训练过程中未能考虑这些要素，就有可能在实际部署中因这些细节而出现严重偏差，从而导致整个模型在真实世界的运行失败。

我们距离真正的“具身智能”还有多远？

唐小引：今年 3 月黄教主曾说“通用机器人时代已经来了”，可实际上从具身智能研究者的角度来看，普遍还是认为我们离这个目标还有很长一段路要走。

那如果站在现在这个时间点，去展望未来具身智能的发展路径，我想最后提出两个问题：第一，我们距离真正的具身智能还有多远？第二，通往这个目标的过程中，我们大概会经历哪些阶段，以及每个阶段的核心目标是什么？

胡亮：我们现在确实面临不少挑战，前面也提到过一些。但如果看得更深一点，问题主要集中在两个方面。

首先，我们当前最主流的 AI 范式还是基于 Transformer 架构的大模型。但过去几年，针对 Transformer 本身的改进已经越来越少，它的潜力可能已接近上限。现在更多的创新都是在它的外围，比如构建 Agent 系统等。而这也带来了一个问题：Transformer 作为现在 AI 的“大脑”，它和具身智能还没有实现很好的适配。

Transformer 有一个关键特点是“存算一体”，也就是知识和任务执行逻辑都存储在模型的参数之中。参数越多、知识越多，模型能力就越强，但同时也越脆弱——因为我们无法明确区分哪些参数负责知识，哪些负责任务逻辑。当我们更新模型去学习新知识时，可能会意外破坏已有的任务执行能力。这就会导致模型在真实世界中与机器人的协作不够稳定，鲁棒性较差。

人类则不同。我们即使没有外部知识输入，也能依靠本能执行一些任务，后天的知识和记忆更多是叠加在这个基础之上。即使大脑某个区域受损，人可能会失去记忆，但仍维持正常的生活。可大模型不是这样，如果我们删除了它部分记忆或知识，往往就会导致它无法完成任务。

基于这些考虑，我们认为，当前以 Transformer 为基础的大模型架构，可能并不适用于具身智能的长期发展目标。因此，我们或许可以从架构层面对 Transformer 进行适当的优化，使其更好地支持机器人在现实世界中的稳定协作能力。

唐小引：那要如何去对模型的架构进行调整？

胡亮：这个问题我们还在研究过程中。实际上在大模型出现之前，也就是大约 10 年前，国外就已经有关于这方面的探索了。例如，有一种叫做记忆网络（Memory Networks），还有一种叫做神经图灵机（Neural Turing Machine），它们的特点就是把记忆与逻辑执行分开管理。

也就是说，通过分离记忆和任务执行能力，我们可以对大模型进行改进，把与任务执行无关的知识和逻辑，划分到不同模块中。这就类似于人脑，不同类型的记忆会被存储在不同的脑部区域，我们对世界的感知、知识和记忆也都是存储在不同区域的。

而这种设计的优势在于，现在的大模型参数可能多达上千亿，即便是执行非常简单的任务，模型也会把几乎所有参数都激活计算一遍——但实际上，简单任务只需调用部分特定的知识和记忆就好了。如果我们将模型划分为若干个模块，每个模块负责特定类型的知识和记忆，当执行特定任务时，比如扫地，仅需调用扫地相关的记忆模块。这样不仅减少了计算资源的消耗，也让模型更加高效。

另外，当我们需要更新模型的知识时，也只需要扩展记忆模块，而不会破坏执行任务的基础模块。比如在其他机器上学习到的新知识，可以通过共享记忆扩展的方式，更新整体模型，而不影响任务执行能力。这种架构设计也有助于实现多智能体协作，形成一种群体智能，更好地推动 AGI 的发展。

唐小引：好，那请王老师来分享一下你的观点和答案？

王鹏伟：胡老师刚才的分享是从底层的模型架构和原理出发，对最基本的架构进行了迭代更新。实际上，任何一项工业技术的发展都离不开底层架构的演进。从专家系统模型到 CNN 再到 Transformer，每一次架构的更新，都是一次重要飞跃，推动了技术整体向前发展。

唐小引：我发现在具身智能这一块，其实跟大模型也有些类似。一谈到“痛点”，很多问题都是共通的？

王鹏伟：确实如此，但具身智能的“痛点”往往更多。一些在大模型中不是问题的问题，在具身智能中会变得非常棘手。而且，根据机器人的不同构型，这些问题的表现也不一样。就像目前普及度最广的四足形式“机械狗”，它已经发展了相当长时间，具备较强的耐用性，即使被拉到雪地中、摔倒，也几乎不会损坏。

相比之下，像轮式底盘的双臂机器人，它的控制难度就要比机械狗大很多。在导航等基础任务上，原本在机械狗上效果良好的算法，迁移到这类机器人上后，效果可能就会打折扣。再进一步是最近非常受关注的人形机器人，它的挑战更大，其难点也恰恰在于它的“人形”结构。

还是以导航为例，相比轮式机器人和机械狗这种低重心的稳定结构，人形机器人因为是双足结构，行走时高低起伏、震动较大，对传感器系统造成的挑战更大。比如你让它前进 3 米，实际可能只走了 2.5 米，那这算多走了一步，还是少走了一步？目前都还没有非常精准的机制。同样，如果你让它左转 30 度，它是通过双脚慢慢转动实现的，大致达到目标角度，但精度远不如其他构型。

所以我认为，现在无论是机器人本体，还是其上的大语言模型，都有巨大的优化空间。比如胡老师刚才提到的“空间感知”就是一个非常典型的例子，可目前所有的大语言模型，包括 GPT 系列在内，几乎都无法胜任——但这恰恰是具身智能中特别需要的能力。在真实空间里，如果让机器人执行任务，首先必须理解指令，然后做出物理动作。这两个阶段目前都还有很大的提升空间。

过去，我们常常依赖模拟器来生成训练数据，然后在真实机器人上部署。但从模拟器到真实环境的 Gap 非常大，原因在于模拟环境中很难穷举现实中的各种变量，比如摩擦力、材质硬度等等。即使模拟做得再好，也会受到物理机械性能的限制。比如，让一个机器人擦桌子，如果没有触觉反馈，它可能会认为桌面是一个障碍物，从而触发保护机制，自动停止动作。

所以我认为，未来五到十年，会是软硬件交替迭代的关键期。算法层面的升级，会推动硬件架构的进步，而硬件的进步又会反过来加速算法研究的演进。我印象很深的是 Elon Musk 在书中提到的一个观点：未来家用机器人数量可能会与汽车数量持平。也就是说，几乎每个家庭都有可能拥有一台机器人，来协助人们完成各种任务。

唐小引：我觉得，现在机器人好像比汽车还多了？像现在的扫地机器人，就运用了部分自动驾驶技术，甚至有些厂商还在扫地机器人中接入了大语言模型。除此之外，各种各样的功能也都逐渐“机器人化”了。那么，我们是不是可以设想一下：未来是否会有一种机器人，它可以像人一样，在家中完成各种任务，比如既能扫地、也能洗碗，各种事情都能干？

王鹏伟：对，理想状态当然是一个机器人能完成所有的事情，但目前确实受到理论研究方面的限制，还存在很多壁垒。因此，现在的机器人还是更偏向于“专用型”。比如某个机器人会做某项任务，那它就只能做这项任务。

不过，从去年下半年到今年上半年的发展来看，形势正在发生变化：当前已经开始出现多任务混合训练的趋势。只要机器人具备一个强大的基础模型，它就有可能同时执行多个任务。这种机器人不再是“我只会这一个任务，其他不会”，而是可以根据不同的指令，激活模型中的不同区域，从而执行多种不同的任务。

唐小引：那最后总结一句：具身智能是一条正确但非常艰难的道路，对吗？

王鹏伟：没错。

唐小引：好的，非常感谢王老师和胡老师的精彩分享。

📢 2025 全球产品经理大会

8 月 15–16 日

北京·威斯汀酒店

2025 全球产品经理大会将汇聚互联网大厂、AI 创业公司、ToB/ToC 实战一线的产品人，围绕产品设计、用户体验、增长运营、智能落地等核心议题，展开 12 大专题分享，洞察趋势、拆解路径、对话未来。