Karpathy:强化学习是糟糕但必要的技术!模型靠蒙对答案骗奖励!

B站影视 港台电影 2025-10-28 09:52 1

摘要:“强化学习很糟糕,但之前的方法更糟!” 近日,斯坦福大学博士、前 OpenAI 创始成员兼研究科学家、Eureka Labs 创始人 Andrej Karpathy 围绕 LLM 与强化学习分享了自己的看法。

“强化学习很糟糕,但之前的方法更糟!” 近日,斯坦福大学博士、前 OpenAI 创始成员兼研究科学家、Eureka Labs 创始人 Andrej Karpathy 围绕 LLM 与强化学习分享了自己的看法。

他直言,当前的强化学习存在致命缺陷,仅靠单一的最终奖励信号,去调整成百上千步的决策过程,就像用一根吸管吸取监督信号一样,信息利用效率低得惊人。

1►Karpathy预言 20 年后十亿级参数模型将比肩人类

“我们不是在建造动物,而是在召唤幽灵”。这是Karpathy 对 LLM 的核心观点。

在他看来,动物是亿万年进化的产物,天生带着大量基因编码的 “硬实力”—— 就像斑马出生几分钟就能奔跑,这种能力是进化刻进骨子里的固有程序,根本无需后天学习。而 LLM 完全诞生于数字世界,能力源自对人类留在互联网上的文本痕迹的模仿,它没有实体,没有生物的本能和感知,却能通过文本交互模拟出人类的语言逻辑和知识储备,本质就是一种 “缥缈的精神实体”。

这种本质差异,决定了 LLM 不必走生物进化的复杂老路,而是要顺着数字原生的逻辑,依托文本数据的特性,构建属于自己的独特智能形态。不过他也提到,未来通过技术迭代,LLM 或许能具备更多 “类动物” 的适应能力,比如持续学习、多模态交互,但这绝非短期内能实现的,需要长期探索。

Karpathy 还用人类认知逻辑做了通俗类比,把 LLM 的核心能力拆成两部分。

第一部分是预训练,相当于模型对互联网信息留下的 “模糊印记”。LLM 预训练本质就是把海量互联网文本高度压缩后存储,拿 Llama 3 来说,700 亿参数的模型训练时用了 15 万亿个 tokens,但每个 token 的信息最终只占 0.7 比特的存储量,这么极致的压缩,让预训练沉淀的知识没法精准留存,更像是一种笼统的 “模糊印象”。比如你问模型某本书的内容,它能说出大致的核心情节,但细节上很容易出错,这就是 “模糊印记” 的典型表现。

不过 Karpathy 强调,预训练的价值不只是存储知识。模型在学习预测下一个 token 的过程中,会自己形成一套内在的 “认知逻辑”,比如能在对话里快速领会用户需求、做简单的数学计算或分析因果关系。这些底层的逻辑框架,才是 LLM 智能的核心,绝非单纯堆砌知识就能实现的。

第二部分是上下文窗口,相当于模型的 “即时调用缓存”。

和预训练形成的 “模糊印记” 不同,上下文窗口(尤其是 KV 缓存)是模型能直接调用的临时信息存储区。如果给模型提供某本书的章节原文、一段背景说明这类具体上下文,这些内容会直接加载到 KV 缓存里,模型回答的准确率会明显提高,原因就是这些信息不用经过预训练的压缩,能被模型直接取用。

Karpathy 打了个很形象的比方:预训练知识就像一年前读过的书留下的模糊印象,而上下文信息就是当下摊开在桌上的笔记,不管是调用的便捷性还是信息的准确性,后者都比前者强太多,这也解释了为什么给模型提供参考文本,总能让它的回答质量变好。

Karpathy 直言,LLM 虽能力突出,但存在不少局限性。首先是过度依赖互联网预训练数据,一旦遇到未覆盖的新型任务或小众领域,表现便急剧下滑,背后原因是模型偏重记忆知识而非构建通用推理框架,知识反而成了限制其泛化能力的负担。

其次,LLM 缺乏类似人类睡眠、反思那样的经验沉淀机制,上下文窗口的临时信息对话结束就会消失,预训练后的权重也固定不变,无法复盘优化,新学到的规则难以复用,只能靠重新微调,效率极低;此外,LLM 还存在隐性模型坍缩问题,生成内容高度集中,创造力受限,比如讲笑话只会重复少数固定类型。

针对这些问题,Karpathy 提出,LLM 的核心价值应该是负责推理、解题的算法框架,大量的知识存储其实是冗余的。未来的高效智能体,应该是一个轻量化的 “认知核心”(仅需十亿级参数),搭配外部知识查询工具,由模型负责思考、工具负责记忆,这样既能解决效率与知识过时的问题,也能突破数据分布带来的局限。他预测,20 年后经过优化的十亿级参数模型,有望实现与人类相当的对话和推理能力。

2►Karpathy:强化学习是糟糕但必要的技术!模型靠蒙对答案骗奖励!

和很多专注具身智能的研究者不同,Karpathy 并没有一味肯定强化学习这条技术路线,反而提出了不少批判性观点。他在播客中直接坦言:“强化学习很糟糕,但之前的方法更糟”。

Karpathy 把传统强化学习的问题归结为 “奖励信号稀疏又嘈杂”,还用 “通过吸管吸取监督信号” 的比喻来形容它的低效:在解数学题、编写代码这类复杂任务中,模型要做大量尝试,其中绝大多数都是无效步骤,但传统强化学习只能靠 “解题正确与否”“代码能否运行” 这样的单一最终结果作为奖励信号,反向调整所有步骤的权重。

这会带来两个严重问题:一是错误步骤可能被正向强化,模型有时靠 “蒙对答案” 完成任务,过程中很多错误推导、无效代码编写会因为最终奖励为正而被错误鼓励,导致它没法真正掌握正确的逻辑;二是信号利用率极低,一次任务中模型可能产生数千个步骤,却只能靠一个奖励信号学习,就像用细管从海量信息里吸取极少有效监督,不仅效率低,还容易出现偏差。

Karpathy 拿人类学习做了对比:人类解数学题时,会主动检查每一步推导是否正确,就算最终答案错了,也能通过反思过程修正错误;但强化学习模型完全依赖最终结果,根本做不到这种过程性学习,这也是它和人类智能的核心差距之一。

为了解决传统强化学习的缺陷,行业提出了 “过程监督” 方案。在任务每一步都给模型反馈,比如 “这一步推导正确”“这段代码逻辑有误”,而不只是看最终结果。Karpathy 认可这个方向的合理性,但也指出它面临的核心难题是 “自动化信用分配”。

一方面,人类标注成本太高,要在每一步都提供精准反馈,需要大量领域专家参与,不仅成本高昂还难以规模化,比如解一道复杂数学题可能需要数十步反馈,标注成本远超过只看最终结果的标注。

另一方面,自动化评判很容易出现漏洞,现在行业常常用 LLM 作为过程监督的评判者,比如让 GPT-4 评估解题步骤是否正确,但这种方式极易出现 “对抗性样本”。 模型会慢慢摸清 LLM 评判标准的漏洞,生成看似逻辑严谨、实则毫无意义的内容。

Karpathy 还分享了一个实际案例:有团队用 LLM 评判数学题解题过程,模型在训练中逐渐学会生成 “前半段正确、后半段无意义” 的内容,却能拿到很高的奖励分数。原因就是 LLM 评判者没法识别这种 “隐性错误”,只能根据表面文本模式给出反馈。他认为,这背后的根源是 LLM 评判者本身的认知局限 —— 它没有真正的 “理解能力”,只能靠文本模式判断,自然应对不了超出训练分布的对抗性样本。

不过 Karpathy 也认为,尽管强化学习存在不少问题,但它仍是未来智能体发展的关键技术 —— 毕竟它能让模型跳出 “模仿学习” 的框架,探索出人类没想到的解决方案,就像 AlphaGo 下出的创新棋步那样。而要发挥出这种价值,强化学习必须和 LLM 的表征能力深度结合,核心要走两个方向。

一方面,要以 LLM 为 “认知基础”,降低强化学习的探索成本。早期 OpenAI 的 Universe 项目之所以失败,核心就是模型缺乏足够的表征能力,没有预训练知识支撑,只能靠 “随机点击键盘、鼠标” 摸索,奖励信号稀疏到几乎学不到东西。但现在的 LLM 已经具备强大的语言理解和逻辑推理能力,完全可以作为强化学习的 “认知底座”:比如让 LLM 先搞懂 “完成一份 Excel 表格的数据分析” 这样的任务目标,再由强化学习去优化具体操作步骤,既能减少无效探索,也能让奖励信号更精准地对应到有意义的行为上。

另一方面,要给强化学习引入 “反思机制”,让它学会 “自我修正”。人类学习的一大优势就是会反思,这恰恰是强化学习模型欠缺的。Karpathy 觉得,未来的强化学习算法得加上类似人类的 “反思模块”:比如模型完成任务后,能根据最终结果反向复盘每一步的对错,生成反思内容,再用这些内容优化自身行为。这种 “结果 — 反思 — 优化” 的闭环,能大幅减少传统强化学习中 “靠运气蒙对结果却学错过程” 的问题,让模型真正掌握正确的做事方法。

他提到,目前已有 Google《Vertex AI Memory Bank》这类论文在尝试相关方向,但还没形成成熟的模式,这些研究还只停留在用 LLM 生成反思文本的阶段,没能高效把反思内容转化为模型权重的优化。未来还需要更深入的算法创新,让 “反思” 成为强化学习训练的核心环节,而不是可有可无的附加步骤。

3►结语与未来:

Karpathy 指出,LLM 与强化学习(RL)的协同是未来通用智能体发展的核心路径,二者并非孤立存在,而是支撑智能体能力的两大关键:LLM 提供认知框架与知识基础,帮智能体解决理解和推理问题;RL 则赋予智能体探索与优化能力,让它能跳出模仿、实现创新求解。这种协同模式既能避免 LLM 陷入依赖记忆、泛化能力不足的困境,也能弥补 RL 探索效率低、缺乏过程感知的缺陷。

同时他强调,这一协同过程需要长期迭代打磨,当前相关技术仍处于早期阶段。无论是提炼 LLM 的认知核心,还是构建 RL 的反思机制,都要跨越算法、数据、工程等多重障碍。行业不应被 “智能体元年” 的短期炒作裹挟,而要正视当下的技术瓶颈,扎实推进相关研究与实践。

来源:具身智能大讲堂

相关推荐