为什么用错奖励，模型也能提分？

摘要：本文主要作者是吕昂和谢若冰。吕昂，中国人民大学博士生，研究方向为语言模型结构优化，导师为严睿教授；谢若冰，腾讯高级研究员，研究方向为大语言模型、推荐系统。

本文主要作者是吕昂和谢若冰。吕昂，中国人民大学博士生，研究方向为语言模型结构优化，导师为严睿教授；谢若冰，腾讯高级研究员，研究方向为大语言模型、推荐系统。

最近的一篇论文中，来自人大和腾讯的研究者们的研究表明，语言模型对强化学习中的奖励噪音具有鲁棒性，即使翻转相当一部分的奖励（例如，正确答案得 0 分，错误答案得 1 分），也不会显著影响下游任务的表现。

研究者解释道，强化学习对下游任务的提升，关键不仅在于奖励的准确性，而更在于模型是否能够产生高质量的思考过程。仅通过奖励模型输出中关键思考词的出现频率，而非基于答案正确性的奖励，语言模型依然能够在下游任务中取得非常高的峰值表现。这表明，强化学习对下游任务的提升，更多来源于让模型学会采用恰当的思考路径接近正确答案。而相关的解题基础能力，模型已在预训练阶段获得。因此，预训练阶段的能力提升依然至关重要。

研究者还展示了基于思考模式的极简奖励如何有效校准奖励模型，从而在开放性 NLP 任务中增强语言模型的表现，并使较小的模型也能通过强化学习成功获得思考能力。

论文地址：https://huggingface.co/papers/2505.22653

代码链接：https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason

论文概览

作者们首先研究了数学任务中奖励噪音对语言模型的影响，因为数学任务使用简单的规则校验，根据答案的正确性进行奖励，这使得人为控制奖励噪音变得非常简单（例如，通过将基于答案正确性的奖励函数结果进行 p% 的反转，正确答案得 0 分，错误答案得 1 分），从而便于研究。在训练 Qwen-2.5-7B 模型时，实验发现即使 p 值非常高，模型在下游任务中的表现几乎没有下降。只有当 p 值达到 50%（即完全随机奖励）时，训练效果才开始崩溃。这一现象引发了一个重要问题：为何即便模型给出错误答案并且得到奖励，训练效果依然保持不变？

图 1：使用不同程度奖励反转后的 Qwen-2.5-7B 在 MATH-500 数据集上的准确率变化，横轴为训练步数。

针对这一现象，作者提出了一种可能的解释：尽管答案错误，输出中的某些信息依然为模型的输出提供了奖励的价值。研究者认为，这些有价值的信息反映在模型的思考过程上。当模型生成诸如「First, I need to」，「second, I will」，「given these factors」，「finally」等思考模式时，无论最终答案是否正确，这一思考过程本身值得奖励。

为了验证这一假设，作者统计了在没有噪声奖励训练（即 p=0）的情况下，Qwen-2.5-7B 在数学任务中输出的高频思考关键词，并设计了一种非常简单的奖励机制 ——Reasoning Pattern Reward（RPR）。每当模型输出包含这些高频思考关键词时，便根据出现频次给予相应奖励，频次越高，奖励越大。

图 2: RPR 示意

仅使用 RPR 机制，完全不考虑答案的正确性，Qwen-2.5-7B 仍然能够在 MATH-500 数据集上将准确率从 5% 提升至 70% 以上。尽管在后续训练中准确率有所下降，作者通过案例研究指出，这一下降源于 RPR 使得模型在获得正确答案后「过度思考」，从而导致输出超长无法提取正确答案。作者承认，仅使用 RPR 而不使用其他答案校验奖励可能会被模型「hack」并产生问题，但他们强调，此实验的目的是证明思考模式在能力提升中的重要性，而非为了获得最好的结果。

这一实验表明，强化学习中，语言模型的提升主要源自输出格式的转变而非新知识的获取：模型在 RL 期间采样到具有良好思维模式的输出，而这种思维模式能够提高模型逐 token 接近正确答案的概率。

以上基于奖励函数的实验结果让作者们意识到，这一发现也许对于基于奖励模型（reward model）的强化学习后训练具有重要启示：由于奖励模型通常并不完美，输出中往往会包含噪声。如果语言模型能够在开放性任务中保持对奖励模型输出噪声的鲁棒性，那么我们或许不必过于追求极度精准的奖励模型，确保其「足够好」即可。

为验证这一点，作者在 Nvidia-HelpSteer3 数据集（一个多领域 AI 帮助性回复生成任务）上进行了实验。通过控制训练步数，训练了不同准确率的奖励模型，并用这些模型训练 Qwen-2.5-7B。作者认为奖励模型的准确率与其提供的奖励噪声呈负相关关系，即奖励模型准确率越高，奖励噪声越低。模型在测试集上输出的回复由人类 + GPT-4o 判断帮助性、信息度、与综合质量。

图 3: 奖励模型在 HelpSteer3 训练过程中，在验证集上的准确率，作者选取不同训练步数的 checkpoint 作为奖励模型进行训练。

实验结果显示，当奖励模型准确率超过 75% 时，不同奖励模型训练得到的语言模型在下游任务中的主观评测得分相似。这一现象与在数学任务中的观察相符，表明语言模型能够容忍一定程度的奖励噪声。然而，当奖励模型准确率低于 75% 时，训练效果显著下降；当准确率降至 65% 时，模型的表现大幅不如使用高准确率奖励模型训练得到的结果。这也许指出了 Qwen-2.5-7B 在该任务上的噪声耐受限度。

图 4: 不同奖励模型训练得到的语言模型在 HelpSteer3 任务中的主观评测表现

这一发现或许对许多研究人员而言提供了慰藉：在很多应用场景中，我们不必过分追求奖励模型的高准确率，因为超过某个临界点后，进一步提高奖励模型的准确率对任务性能的提升将变得有限。

作者们进一步思考，如果真的无法获得「足够好」的奖励模型，如何增强现有奖励模型以提升下游任务表现？

为此，作者提出通过 RPR 对奖励模型进行校准：如果某个输出被奖励模型评为低分，但其思考模式较好（即 RPR 得分较高），那么这个低分可能是一个假阴性，应该根据其思考模式通过 RPR 机制对奖励模型的输出进行补偿。通过这种方式，作者在 HelpSteer3 任务中验证了，即使奖励模型的准确率为 65%，经过 RPR 校准后，模型表现接近原本 85% 准确率的奖励模型训练出的效果。同时，85% 准确率奖励模型经过校准后，模型在下游任务中的表现进一步增强，突破了作者们所拥有的奖励模型质量的限制。

图 5: 经过 RPR 校准后，所有奖励模型训得的语言模型质量都有提升。

作者们的另一个重要发现是，即便使用作者所拥有的最精确的奖励模型（准确率 85%），Qwen-2.5-3B 在 HelpSteer3 任务上发生了训练崩溃，表现为输出长度急剧下降，仅剩数十个 token。但经过 RPR 校准后，3B 模型成功完成了训练，避免了崩溃并获得了良好的效果，并且在很多复杂的开放任务中，比如根据指令做 PPT，呈现出良好的解题思路。