亲自答丨如何理解强化学习之父萨顿的「LLM 是死路」观点?

B站影视 内地电影 2025-10-11 19:01 1

摘要:RL是「基础AI」,核心在于理解世界并决定「做什么」(通过经验学习),而 LLM 则旨在模仿人类和文本。

Rich Sutton (理查德·萨顿,强化学习之父)近期的采访中谈到「LLM 是死路」的观点:

1. RL是「基础AI」,核心在于理解世界并决定「做什么」(通过经验学习),而 LLM 则旨在模仿人类和文本。

2. 尽管 LLM 的拥趸认为 LLM 是「苦涩教训」哲学的成功,但 Sutton 并不认为 LLM 真正遵循了这个原则。最终真正可扩展的、仅依赖经验和计算的方法将取代 LLM。

3. 萨顿强调了持续学习(continual learning)的重要性,这是所有哺乳动物都具备的能力,但目前 AI 系统缺乏。

4. RL 的「经验流」范式:智能的基础是持续地调整行动以最大化奖励,知识内容必须能通过与经验流的比较来测试和学习。

5. 人类在工作中获取的巨量背景(Context)和信息,并不仅仅来自奖励。他认为目前的深度学习方法在跨状态或任务的良好泛化方面非常欠缺,当前的成功泛化往往是研究人员精心设计的结果,而非算法本身驱动。

6. 他认为 AI 历史上最大的胜利是「弱方法」(如搜索和学习)彻底战胜了「强方法」(注入人类知识的系统)。尽管 AlphaGo/AlphaZero 的成功引人注目,但从他的角度看,这更多是现有 RL 技术的规模化和应用,而非全新的突破。

@gwave

复旦大学 · 电子与信息

我大体上 (>90%)同意 Rich Sutton 的观点 —— 单靠 LLM 是条「死胡同」。

原因并不是它没用,而是 它太强了,以至于遮蔽了我们对智能本质的继续探索。

LLM 是「系统1」

不是「系统2」

LLM 的强大在于:它几乎整合了人类全部显性知识,是一个巨大的「经验压缩体」。

但它的缺陷也同样明显:推理不可靠、无法形成稳定的世界模型。

用丹尼尔·卡尼曼的框架来说,LLM 更像是人类的「系统 1」——快速、直觉、模式识别驱动;

而不是「系统2」——缓慢、可验证、能进行抽象与逻辑推演。

这就是为什么它写诗、写代码、聊天都能天衣无缝,但在数理逻辑、长期规划、反事实推理上经常崩溃。

(自 o1 以来,LLM 在系统 2 方面做了很多努力,可参考回答,实现 LLM 复杂推理(Reasoning)目前有哪些主要方法?, 但离做题家 alphaEvolve 的水平差距大概是小学生和博士之间的差距)

智能不是堆参数

而是结构的出现

AI 不一定要模仿人脑,就像 固定翼飞机不学鸟的翅膀,汽车不学动物的多足行走。

但所有高效系统都必须遵守某些结构性原理——信息的分层、反馈、记忆、预测、以及能动性(agency)。

目前的 LLM 只覆盖了其中的「记忆」与「模式匹配」部分,严格来说,LLM 并不具备长期记忆,它更多体现的是「参数化记忆」(parametric memory)—— 即把大量知识编码在权重中(压缩即智能)。它在「模式匹配」上极强,但在 反馈、因果、主动探索、目标形成等动态过程上都非常薄弱。

这意味着它缺少「心智动力系统」,只能被动地产生答案。

AI 的未来:

从堆料到架构共生

在通往更高级智能的道路上,LLM 是必要条件,但不是充分条件。

个人认为至少还需要几个方向的融合:

神经符号混合(Neuro-Symbolic) —— 让语言模型能进行形式化推理与可验证思考。因果模型与世界模型 —— 让 AI 理解「为什么」而不是仅仅「是什么」。(听说 G 家已经融合 world model,我用的少,感受不明显)强化学习与主动性(RL + Planning) —— 从被动回答到主动探索, Learning from experience。贝叶斯与不确定性建模 —— 让 AI 知道「自己不知道」。进化与自组织/复杂科学 算法 —— 让 AI 结构可以「生长」而不是「训练出来」。信息论的统摄视角—— 从信息论的角度看,LLM 的训练本质上是一个熵减、知识凝聚的过程,通过压缩无序文本而形成结构化知识。而推理过程则是一种受控的熵增,在有限的知识能量中释放创造力——就像一场“可控核聚变”。

这些东西的融合,可能可以对应人脑的前额叶功能—— 目标生成、冲突控制、长期规划、与抽象能力。

结语:Sutton 是在提醒我们

Sutton 不是否定 LLM,而是提醒我们不要被「预测文本」的幻象困住。

真正的智能,不是预测下一个词(其实这也很牛,要用到全人类的智慧),而是 在未知世界中生成新的结构与意义。

AI 的未来,不是「更大的模型」,而是「更深的结构耦合」:符号与神经、因果与概率、推理与感知、知识与行动的统一。

假设 AGI 按着动物大脑的发展顺序来吧:

把 RL 比作爬行脑(多巴胺), LLM 比作哺乳脑(系统 1,直觉&快速),那么未来的 AGI(系统 2 是重要组成), 需要在它之上长出一个「前额叶」(逻辑、推理等)。

那一刻,AI 才会真正开始「思考」。

P.S. 如果问我对 Sutton 的观点还有 10% 的不同意是什么?

我认为问题不在于 Sutton 对 LLM 的评价(LeCun有类似说法很久了),而是他也高估了 RL 作为终极通用智能框架的完备性(当然,这并不影响我对 Sutton 的敬意——他依然是 AI 领域最具思辨深度的学者之一)。

RL 的确是一个能自我改进的通用学习框架,但它的核心信号——reward(奖励)只是一个标量。从信息论的角度来看,这意味着它所承载的信息量极其有限,往往还非常稀疏。一个单一的标量,很难有效地指导复杂系统在高维空间中学习丰富的结构和层次。

小马拉大车,信息带宽太窄,很费劲。

各种 reward reshaping, LLM 都来 reshaping 了。

从生物学角度看,RL 更像是多巴胺系统的本能反应:你做对了,大脑给你一点「糖」;但它远不是前额叶那种能抽象、规划、反思、自我约束的深层思考机制。

换句话说,RL 很有用——它是智能的「动力系统」,但它并不是智能的「认知系统」。

如果说 LLM 代表了感知与语言的下意识层,RL 代表了行为与奖惩的反射层,那么未来的 AGI 还需要在这两者之上——长出前额叶式的思考层,才能真正拥有持续学习、自我建模与反思能力

从爬行动物,到哺乳动物,最后到人,智能的演化历程,本质上就是这一层前额叶的生长过程。

当然,AI 不一定要完全模仿大脑(前面说了)但大脑依然有它可取的结构原理——启发一下,还是够格的。毕竟,飞机也是有翅膀的,虽然不会扇动;汽车也有四个落地支撑的结构,虽然不是脚。

来源:小镇评论家

相关推荐