Karpathy：强化学习是糟糕但必要的技术！模型靠蒙对答案骗奖励！

摘要：“强化学习很糟糕，但之前的方法更糟！” 近日，斯坦福大学博士、前 OpenAI 创始成员兼研究科学家、Eureka Labs 创始人 Andrej Karpathy 围绕 LLM 与强化学习分享了自己的看法。

“强化学习很糟糕，但之前的方法更糟！” 近日，斯坦福大学博士、前 OpenAI 创始成员兼研究科学家、Eureka Labs 创始人 Andrej Karpathy 围绕 LLM 与强化学习分享了自己的看法。

他直言，当前的强化学习存在致命缺陷，仅靠单一的最终奖励信号，去调整成百上千步的决策过程，就像用一根吸管吸取监督信号一样，信息利用效率低得惊人。

1►Karpathy预言 20 年后十亿级参数模型将比肩人类

“我们不是在建造动物，而是在召唤幽灵”。这是Karpathy 对 LLM 的核心观点。

在他看来，动物是亿万年进化的产物，天生带着大量基因编码的 “硬实力”—— 就像斑马出生几分钟就能奔跑，这种能力是进化刻进骨子里的固有程序，根本无需后天学习。而 LLM 完全诞生于数字世界，能力源自对人类留在互联网上的文本痕迹的模仿，它没有实体，没有生物的本能和感知，却能通过文本交互模拟出人类的语言逻辑和知识储备，本质就是一种 “缥缈的精神实体”。

这种本质差异，决定了 LLM 不必走生物进化的复杂老路，而是要顺着数字原生的逻辑，依托文本数据的特性，构建属于自己的独特智能形态。不过他也提到，未来通过技术迭代，LLM 或许能具备更多 “类动物” 的适应能力，比如持续学习、多模态交互，但这绝非短期内能实现的，需要长期探索。

Karpathy 还用人类认知逻辑做了通俗类比，把 LLM 的核心能力拆成两部分。

第一部分是预训练，相当于模型对互联网信息留下的 “模糊印记”。LLM 预训练本质就是把海量互联网文本高度压缩后存储，拿 Llama 3 来说，700 亿参数的模型训练时用了 15 万亿个 tokens，但每个 token 的信息最终只占 0.7 比特的存储量，这么极致的压缩，让预训练沉淀的知识没法精准留存，更像是一种笼统的 “模糊印象”。比如你问模型某本书的内容，它能说出大致的核心情节，但细节上很容易出错，这就是 “模糊印记” 的典型表现。

不过 Karpathy 强调，预训练的价值不只是存储知识。模型在学习预测下一个 token 的过程中，会自己形成一套内在的 “认知逻辑”，比如能在对话里快速领会用户需求、做简单的数学计算或分析因果关系。这些底层的逻辑框架，才是 LLM 智能的核心，绝非单纯堆砌知识就能实现的。

第二部分是上下文窗口，相当于模型的 “即时调用缓存”。

和预训练形成的 “模糊印记” 不同，上下文窗口（尤其是 KV 缓存）是模型能直接调用的临时信息存储区。如果给模型提供某本书的章节原文、一段背景说明这类具体上下文，这些内容会直接加载到 KV 缓存里，模型回答的准确率会明显提高，原因就是这些信息不用经过预训练的压缩，能被模型直接取用。

Karpathy 打了个很形象的比方：预训练知识就像一年前读过的书留下的模糊印象，而上下文信息就是当下摊开在桌上的笔记，不管是调用的便捷性还是信息的准确性，后者都比前者强太多，这也解释了为什么给模型提供参考文本，总能让它的回答质量变好。

Karpathy 直言，LLM 虽能力突出，但存在不少局限性。首先是过度依赖互联网预训练数据，一旦遇到未覆盖的新型任务或小众领域，表现便急剧下滑，背后原因是模型偏重记忆知识而非构建通用推理框架，知识反而成了限制其泛化能力的负担。

其次，LLM 缺乏类似人类睡眠、反思那样的经验沉淀机制，上下文窗口的临时信息对话结束就会消失，预训练后的权重也固定不变，无法复盘优化，新学到的规则难以复用，只能靠重新微调，效率极低；此外，LLM 还存在隐性模型坍缩问题，生成内容高度集中，创造力受限，比如讲笑话只会重复少数固定类型。

针对这些问题，Karpathy 提出，LLM 的核心价值应该是负责推理、解题的算法框架，大量的知识存储其实是冗余的。未来的高效智能体，应该是一个轻量化的 “认知核心”（仅需十亿级参数），搭配外部知识查询工具，由模型负责思考、工具负责记忆，这样既能解决效率与知识过时的问题，也能突破数据分布带来的局限。他预测，20 年后经过优化的十亿级参数模型，有望实现与人类相当的对话和推理能力。

2►Karpathy：强化学习是糟糕但必要的技术！模型靠蒙对答案骗奖励！

和很多专注具身智能的研究者不同，Karpathy 并没有一味肯定强化学习这条技术路线，反而提出了不少批判性观点。他在播客中直接坦言：“强化学习很糟糕，但之前的方法更糟”。

Karpathy 把传统强化学习的问题归结为 “奖励信号稀疏又嘈杂”，还用 “通过吸管吸取监督信号” 的比喻来形容它的低效：在解数学题、编写代码这类复杂任务中，模型要做大量尝试，其中绝大多数都是无效步骤，但传统强化学习只能靠 “解题正确与否”“代码能否运行” 这样的单一最终结果作为奖励信号，反向调整所有步骤的权重。

这会带来两个严重问题：一是错误步骤可能被正向强化，模型有时靠 “蒙对答案” 完成任务，过程中很多错误推导、无效代码编写会因为最终奖励为正而被错误鼓励，导致它没法真正掌握正确的逻辑；二是信号利用率极低，一次任务中模型可能产生数千个步骤，却只能靠一个奖励信号学习，就像用细管从海量信息里吸取极少有效监督，不仅效率低，还容易出现偏差。

Karpathy 拿人类学习做了对比：人类解数学题时，会主动检查每一步推导是否正确，就算最终答案错了，也能通过反思过程修正错误；但强化学习模型完全依赖最终结果，根本做不到这种过程性学习，这也是它和人类智能的核心差距之一。

为了解决传统强化学习的缺陷，行业提出了 “过程监督” 方案。在任务每一步都给模型反馈，比如 “这一步推导正确”“这段代码逻辑有误”，而不只是看最终结果。Karpathy 认可这个方向的合理性，但也指出它面临的核心难题是 “自动化信用分配”。

一方面，人类标注成本太高，要在每一步都提供精准反馈，需要大量领域专家参与，不仅成本高昂还难以规模化，比如解一道复杂数学题可能需要数十步反馈，标注成本远超过只看最终结果的标注。

另一方面，自动化评判很容易出现漏洞，现在行业常常用 LLM 作为过程监督的评判者，比如让 GPT-4 评估解题步骤是否正确，但这种方式极易出现 “对抗性样本”。模型会慢慢摸清 LLM 评判标准的漏洞，生成看似逻辑严谨、实则毫无意义的内容。

Karpathy 还分享了一个实际案例：有团队用 LLM 评判数学题解题过程，模型在训练中逐渐学会生成 “前半段正确、后半段无意义” 的内容，却能拿到很高的奖励分数。原因就是 LLM 评判者没法识别这种 “隐性错误”，只能根据表面文本模式给出反馈。他认为，这背后的根源是 LLM 评判者本身的认知局限 —— 它没有真正的 “理解能力”，只能靠文本模式判断，自然应对不了超出训练分布的对抗性样本。

不过 Karpathy 也认为，尽管强化学习存在不少问题，但它仍是未来智能体发展的关键技术 —— 毕竟它能让模型跳出 “模仿学习” 的框架，探索出人类没想到的解决方案，就像 AlphaGo 下出的创新棋步那样。而要发挥出这种价值，强化学习必须和 LLM 的表征能力深度结合，核心要走两个方向。

一方面，要以 LLM 为 “认知基础”，降低强化学习的探索成本。早期 OpenAI 的 Universe 项目之所以失败，核心就是模型缺乏足够的表征能力，没有预训练知识支撑，只能靠 “随机点击键盘、鼠标” 摸索，奖励信号稀疏到几乎学不到东西。但现在的 LLM 已经具备强大的语言理解和逻辑推理能力，完全可以作为强化学习的 “认知底座”：比如让 LLM 先搞懂 “完成一份 Excel 表格的数据分析” 这样的任务目标，再由强化学习去优化具体操作步骤，既能减少无效探索，也能让奖励信号更精准地对应到有意义的行为上。

另一方面，要给强化学习引入 “反思机制”，让它学会 “自我修正”。人类学习的一大优势就是会反思，这恰恰是强化学习模型欠缺的。Karpathy 觉得，未来的强化学习算法得加上类似人类的 “反思模块”：比如模型完成任务后，能根据最终结果反向复盘每一步的对错，生成反思内容，再用这些内容优化自身行为。这种 “结果 — 反思 — 优化” 的闭环，能大幅减少传统强化学习中 “靠运气蒙对结果却学错过程” 的问题，让模型真正掌握正确的做事方法。

他提到，目前已有 Google《Vertex AI Memory Bank》这类论文在尝试相关方向，但还没形成成熟的模式，这些研究还只停留在用 LLM 生成反思文本的阶段，没能高效把反思内容转化为模型权重的优化。未来还需要更深入的算法创新，让 “反思” 成为强化学习训练的核心环节，而不是可有可无的附加步骤。

3►结语与未来：

Karpathy 指出，LLM 与强化学习（RL）的协同是未来通用智能体发展的核心路径，二者并非孤立存在，而是支撑智能体能力的两大关键：LLM 提供认知框架与知识基础，帮智能体解决理解和推理问题；RL 则赋予智能体探索与优化能力，让它能跳出模仿、实现创新求解。这种协同模式既能避免 LLM 陷入依赖记忆、泛化能力不足的困境，也能弥补 RL 探索效率低、缺乏过程感知的缺陷。

同时他强调，这一协同过程需要长期迭代打磨，当前相关技术仍处于早期阶段。无论是提炼 LLM 的认知核心，还是构建 RL 的反思机制，都要跨越算法、数据、工程等多重障碍。行业不应被 “智能体元年” 的短期炒作裹挟，而要正视当下的技术瓶颈，扎实推进相关研究与实践。

来源：具身智能大讲堂

标签：模型智能体学习 llm karpathy

本文地址：http://news.43b.com.cn/a/1667989.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!