无需标注！大语言模型的“内生奖励”机制：强化学习的新突破

摘要：众所周知，在强化学习训练中的关键环节就是奖励信号的获取，准确的奖励信号对于训练的效果至关重要。在经典RL 中，奖励信号可以看作环境的一部分 —— 即行动后环境的真实反馈，而在 RL 训练 LLM 中，奖励值的来源主要有两种方式：

编辑丨极市平台

众所周知，在强化学习训练中的关键环节就是奖励信号的获取，准确的奖励信号对于训练的效果至关重要。在经典RL 中，奖励信号可以看作环境的一部分 —— 即行动后环境的真实反馈，而在 RL 训练 LLM 中，奖励值的来源主要有两种方式：

批判式：即 RLHF 中的 RM，该方式给出的是一个连续的标量值，但是由于 OOD 的问题，在一些样本上可能结果并不准确；验证式：即 RLVR 中的 Verifier, 通过与预设的答案或规则相比较，给出一个二元值，这种方式仅适用于有标准答案的场景，而在开放问题中则不太适用

而无论是以上的哪种情况，其奖励值都是旁证式的、外在的，那么在 LLM 与上下文构成的环境中，是否存在内在的奖励呢？即谜底是否存在在谜面上呢？本文将围绕该问题展开讨论，具体问题包括：

为什么会有内在奖励，其底层逻辑和原理是什么？内在奖励的形式有哪些，受哪些因素影响？内在奖励的准确度如何，与外在奖励相比怎样？

在 LLM 后训练领域主要存在两种方法论途径：

第一种途径是SFT，通过专家演示学习，或模仿学习，使用正样本来训练模型。第二种途径侧重于从环境信号中学习，主要通过强化学习方法 (PPO, GRPO 等)

在两种路径之间，还有一种特殊的方法 DPO，一方面相较于 SFT，DPO 增加了负样本和隐式奖励学习；另一方面相较于 RL，DPO 的训练数据又是完全 off-policy 的，且省略了显式的奖励信号的训练过程, 下面我们尝试一探究竟。

事实上，最早提出隐式奖励的工作就是 DPO 了，接下来我们还是不厌其烦地梳理一下其中的核心过程及要点。

上文中，我们得到了奖励与最优模型的基本关系，在此基础上有很多工作进行了更多细化，在此不加证明地介绍引文［8］中的结论，即

由此可知，SFT 过程沿着最优策略－奖励子空间进行搜索，试图对专家演示中隐含的奖励进行建模。在优化过程中，模型迭代的过程，也即策略－奖励的最优子空间的搜索过程。

采用该方案进行 RL 训练的典型案例即 PRIME，即通过以下方式获得过程奖励：

这样的好处是显而易见的，即可以通过收集 response－level 数据并训练一个 ORM 来简单地获得 PRMs，而无需高成本的数据标注。

总结一下，此类隐式奖励是通过策略模型或者 impolicity PRM 与 SFT 相比较产生的，其奖励的是相比 SFT 获得更高分数的 token，换句话说，该方式会加强 SFT 中的行为，使得在最终模型中的概率分布更加集中。

在经典的使用 RL 训练 LLM 的流程中，其过程是：SFT -> RM (verifier) -> PPO (GRPO) , 当缺少 rule-based verifier 时，该流程关键依赖于在人类偏好上训练的奖励模型（RM）来评分模型输出，最终对齐的 LLM 的质量基本上由该 RM 的质量决定。而训练 RM 需要构建大规模、高质量的人类偏好数据集，这是缓慢、昂贵且难以扩展的。

那么如果不去构造偏好数据集是否还可以得到准确的奖励信号呢？在上节中，我们提供了一种基于DPO 方式的隐式奖励，本节中我们将尝试通过另一个角度，即逆强化学习的方式来审视这一过程。