摘要:众所周知,在强化学习训练中的关键环节就是奖励信号的获取,准确的奖励信号对于训练的效果至关重要。在经典RL 中,奖励信号可以看作环境的一部分 —— 即行动后环境的真实反馈,而在 RL 训练 LLM 中,奖励值的来源主要有两种方式:
编辑丨极市平台
众所周知,在强化学习训练中的关键环节就是奖励信号的获取,准确的奖励信号对于训练的效果至关重要。在经典RL 中,奖励信号可以看作环境的一部分 —— 即行动后环境的真实反馈,而在 RL 训练 LLM 中,奖励值的来源主要有两种方式:
批判式:即 RLHF 中的 RM,该方式给出的是一个连续的标量值,但是由于 OOD 的问题,在一些样本上可能结果并不准确;验证式:即 RLVR 中的 Verifier, 通过与预设的答案或规则相比较,给出一个二元值,这种方式仅适用于有标准答案的场景,而在开放问题中则不太适用而无论是以上的哪种情况,其奖励值都是旁证式的、外在的,那么在 LLM 与上下文构成的环境中,是否存在内在的奖励呢?即谜底是否存在在谜面上呢?本文将围绕该问题展开讨论,具体问题包括:
为什么会有内在奖励,其底层逻辑和原理是什么?内在奖励的形式有哪些,受哪些因素影响?内在奖励的准确度如何,与外在奖励相比怎样?在 LLM 后训练领域主要存在两种方法论途径:
第一种途径是SFT,通过专家演示学习,或模仿学习, 使用正样本来训练模型。第二种途径侧重于从环境信号中学习,主要通过强化学习方法 (PPO, GRPO 等)在两种路径之间,还有一种特殊的方法 DPO,一方面相较于 SFT,DPO 增加了负样本和隐式奖励学习;另一方面相较于 RL,DPO 的训练数据又是完全 off-policy 的, 且省略了显式的奖励信号的训练过程, 下面我们尝试一探究竟。
事实上,最早提出隐式奖励的工作就是 DPO 了,接下来我们还是不厌其烦地梳理一下其中的核心过程及要点。
上文中,我们得到了奖励与最优模型的基本关系,在此基础上有很多工作进行了更多细化,在此不加证明地介绍引文[8]中的结论,即
由此可知,SFT 过程沿着最优策略-奖励子空间进行搜索,试图对专家演示中隐含的奖励进行建模。在优化过程中,模型迭代的过程,也即策略-奖励的最优子空间的搜索过程。
采用该方案进行 RL 训练的典型案例即 PRIME,即通过以下方式获得过程奖励:
这样的好处是显而易见的,即可以通过收集 response-level 数据并训练一个 ORM 来简单地获得 PRMs,而无需高成本的数据标注。
总结一下,此类隐式奖励是通过 策略模型或者 impolicity PRM 与 SFT 相比较产生的,其奖励的是相比 SFT 获得更高分数的 token,换句话说,该方式会加强 SFT 中的行为,使得在最终模型中的概率分布更加集中。
在经典的使用 RL 训练 LLM 的流程中,其过程是:SFT -> RM (verifier) -> PPO (GRPO) , 当缺少 rule-based verifier 时,该流程关键依赖于在人类偏好上训练的奖励模型(RM)来评分模型输出,最终对齐的 LLM 的质量基本上由该 RM 的质量决定。而训练 RM 需要构建大规模、高质量的人类偏好数据集,这是缓慢、昂贵且难以扩展的。
那么如果不去构造偏好数据集是否还可以得到准确的奖励信号呢?在上节中,我们提供了一种基于DPO 方式的隐式奖励,本节中我们将尝试通过另一个角度,即逆强化学习的方式来审视这一过程。
理解了上述论证的过程,我们就理解了内生奖励的核心,细心的读者可能也会意识到所谓的“内生”却仍然依赖于一个参考策略,那么这个参考模型是否可以去除呢?RLPR 做了这方面的重要尝试,下面我们来一探究竟。
RLPR的思想源于这样一个认知:模型给 正确答案 的 token 概率高,给 错误答案 的概率低, —— 这个 内在置信度 本身就是对“推理好坏”的自然评价。因此,RLPR直接用 参考答案 token 的平均概率 当奖励,无需外部验证器。
通过这种方式,RLPR 让 RLVR 走出“数学孤岛”,用 模型照镜子的方式 告诉自己“答得好不好”,从而在任何能写 prompt 的地方都能做强化学习。
参考资料[1] [2505.19590] Learning to Reason without External Rewards
[2] RLPR: Extrapolating RLVR to General Domains without Verifiers
[3] Generalist Reward Models: Found Inside Large Language Models
[4] [2507.00018v1] Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections
[5] 逆强化学习与内在奖励
[6] https://arxiv.org/abs/2507.07981
[7] Process Reinforcement through Implicit Rewards
[8] From r to Q*: Your Language Model is Secretly a Q-Function
[9] Explicit Preference Optimization: No Need for an Implicit Reward Model
[10] https://arxiv.org/pdf/2305.18290
[11] https://levelup.gitconnected.com/your-complete-guide-to-maximum-entropy-inverse-reinforcement-learning-c9d17b3144ac
来源:极市平台