从失败中学习:强化蒸馏法让大语言模型更擅长推理

B站影视 内地电影 2025-06-04 16:34 3

摘要:在人工智能研究的最前沿,一项创新研究正在改变我们训练大语言模型(LLM)推理能力的方式。来自国立新加坡大学和上海英飞睿(INFLY TECH)的研究团队于2025年5月30日在arXiv预印本平台发表了一篇题为《从负面信号中获益:利用教师数据的强化蒸馏提升LL

在人工智能研究的最前沿,一项创新研究正在改变我们训练大语言模型(LLM)推理能力的方式。来自国立新加坡大学和上海英飞睿(INFLY TECH)的研究团队于2025年5月30日在arXiv预印本平台发表了一篇题为《从负面信号中获益:利用教师数据的强化蒸馏提升LLM推理能力》(Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning)的研究论文。这项由Shuyao Xu、Cheng Peng、Jiangxuan Long、Weidi Xu、Wei Chu和Yuan Qi领导的工作,提出了一种名为"强化蒸馏"(REDI)的创新方法,使小型语言模型能够更高效地学习复杂推理能力。有兴趣深入了解的读者可以通过GitHub(https://github.com/Tim-Siu/reinforcement-distillation)获取代码和模型。

一、为什么我们需要更高效的语言模型训练方法?

想象一下,你有一位数学天才朋友和一位普通的学生。这位天才能够解决复杂的数学问题,而学生则希望学习这些技能。传统的教学方法是:天才解决一系列问题,只把正确的解答过程教给学生,丢弃所有错误的尝试。但我们知道,在现实学习中,了解"为什么某种方法行不通"和"哪里容易出错"同样重要。

这正是当前大语言模型训练中面临的情况。像DeepSeek-R1和OpenAI的o1这样的先进推理模型展示了令人印象深刻的推理能力,尤其是在数学等领域。但如何将这些能力高效地传递给更小、更经济的模型呢?

目前有两种主要方法:一种是大规模强化学习,直接对基础模型应用强化学习算法,通过在线探索不断优化。但这种方法通常需要强大的基础模型才能发挥全部潜力,而且计算成本高昂。另一种方法是知识蒸馏——从大型"教师"模型生成的推理过程(如思维链)中学习,这为更小、更高效的"学生"模型提供了一条实用且经济的路径。

然而,标准的蒸馏实践通常采用拒绝采样,只保留正确的推理示例,丢弃不正确的示例。这些被丢弃的示例实际上包含了宝贵的信息!这就像只告诉学生正确答案,而不告诉他们常见的陷阱和细微的错误。这引出了本研究的核心问题:

如何在离线环境中有效利用正面和负面的蒸馏推理轨迹,最大化LLM的推理性能?

二、强化蒸馏:一种两阶段的创新方法

研究团队提出的强化蒸馏(REDI)框架像是给语言模型设计了一套更全面的学习课程。这个课程分为两个阶段:

第一阶段:监督微调(SFT)

想象一个学生先观看教师成功解题的视频。在这个阶段,模型通过标准的监督微调(SFT)学习正确的推理轨迹。这就像打下良好的基础,学习"正确的做法是什么"。模型学习如何从问题到解决方案,掌握基本的推理模式和格式。

第二阶段:利用正负样本的强化

这是REDI方法的核心创新。在建立了基础之后,模型现在不仅学习成功案例,还学习失败案例中的教训。这就像学生不仅学习正确答案,还特别分析错误解法中的陷阱和缺陷。

研究团队首先探索了现有的离线偏好优化方法,如直接偏好优化(DPO)和简单偏好优化(SimPO)。他们发现这些方法中的正则化参数β虽然有助于稳定离线训练并允许更大的梯度步长,但往往会限制测试时的性能。

基于这一发现,团队探索了替代训练目标,消除了这些正则化项。他们发现一个简单的、无参考的目标函数——类似于β→0极限下的DPO/SimPO目标——可以在这种蒸馏环境中优于已建立的方法。这个函数直接最大化正面轨迹的似然度,同时最小化负面轨迹的似然度。

然而,平衡性能和稳定性的挑战依然存在。为解决这一问题,REDI引入了一种非对称加权策略:通过降低负面样本的梯度贡献,框架实现了增强的稳定性和优越的测试时性能。

REDI的目标函数可以表达为:

``` LREDI(θ) = E_(x,yw,yl)~DPref [ -(log πθ(yw|x))/|yw| + α·(log πθ(yl|x))/|yl| ] ```

其中α∈[0,1]控制对负面轨迹的惩罚强度: - 当α=0时,相当于只对正面轨迹进行SFT(忽略负面样本) - 当α=1时,恢复对称目标

研究表明,设置α=0.8提供了最佳平衡,实现了强大的测试时性能,同时保持训练稳定性。

三、实验设置:如何评估REDI的有效性?

研究团队像科学实验一样严谨地设计了评估方法。他们从OpenR1-Math-Raw语料库中提取数据,并构建了两个数据集:

1. 正面轨迹数据集(DSFT):包含78k个问题-解决方案对,每对由问题和相应的正确推理轨迹组成。这用于第一阶段的SFT训练。

2. 偏好对数据集(DPref):包含53k个三元组,每个三元组由问题、正确轨迹和不正确轨迹组成。这用于第二阶段的训练。

在训练配置方面,团队使用了Qwen2.5-Math-1.5B模型作为基础模型,并建立了两个SFT基线:

- Qwen-SFT-1.5B-3ep:在DSFT上训练3个轮次。作为DPO、SimPO和各种REDI配置的起点。 - Qwen-SFT-1.5B-5ep:在DSFT上训练5个轮次。作为最终Qwen-REDI-1.5B模型的起点。

所有评估都采用温度为0.6的解码策略,使用Top P采样(p=0.95),最大生成长度为32,768个标记。评估在多个数学推理基准上进行,包括MATH-500、AIME24、AMC23、Minerva和OlympiadBench。

四、研究结果:强化蒸馏的惊人效果

研究结果就像一次成功的教学实验,证明了从错误中学习的价值。

SFT基线的性能极限

首先,团队确定了仅使用正面蒸馏数据通过监督微调(SFT)可达到的性能。如图2所示,性能在大约5个轮次后达到平台期。这一观察突显了仅从正面轨迹学习的局限性,并激发了利用负面信号的动力。

DPO中的性能-稳定性权衡

研究团队发现,DPO的β参数(控制KL正则化)呈现出一个关键的权衡。更高的β值增强了训练稳定性,通常允许更激进的学习率。然而,即使使用调整过的学习率,较高的β可能会限制峰值性能。相反,较低的β值可以释放更高的峰值准确性。

这就像教师在指导学生时面临的权衡:过于严格的框架(高β)可能会限制创新思维,而过于宽松的指导(低β)可能导致方向不明确。

通过非对称加权实现稳定性和性能

REDI方法直接优化对数似然,而不依赖于KL正则化,而是通过非对称加权来管理稳定性。研究表明,REDI与α=0.8和学习率1×10^-6的配置实现了快速学习,类似于对称α=1.0高学习率配置,但关键的是,它不会崩溃。它达到了高峰值性能并保持这一水平,证明了非对称加权策略的效果。

最终模型性能的比较

表1展示了这些努力的最终成果。Qwen-REDI-1.5B模型,仅在131k个开放数据点上训练,实现了83.1%的MATH-500分数(pass@1)。这一性能与在800k专有数据上训练的DeepSeek-R1-Distill-Qwen-1.5B相当或超过,在各种数学推理基准测试中取得了优异成绩,为使用公开可用数据离线后训练的1.5B模型树立了新的标准。

值得注意的是,REDI不仅提高了pass@1性能,还维持或提高了多个基准测试的pass@16分数。这表明REDI的离线优化并不仅仅过度优化一组高概率解决方案,而是真正提高了模型的整体问题解决能力。

五、REDI如何改变游戏规则?

强化蒸馏(REDI)方法就像给语言模型提供了一个更全面的学习课程,不仅教它"正确的做法",还教它"避免常见错误"。这种方法的创新之处在于:

1. 高效利用数据:REDI充分利用了传统方法中被丢弃的负面示例,从教师模型生成的每一条数据中提取价值。

2. 平衡性能与稳定性:通过非对称加权(α

3. 无需在线交互:与需要昂贵在线交互的强化学习方法不同,REDI在离线环境中工作,使其更经济且易于实施。

4. 更小模型的强大性能:研究表明,即使是较小的1.5B参数模型,通过REDI也能实现与更大模型相当的推理能力。

5. 更好的未来在线RL准备:通过保持或提高pass@16分数,REDI训练的模型似乎更适合后续通过在线强化学习获得性能提升。

这种方法不仅提高了模型性能,还可能影响我们对知识传递的思考方式。就像在人类教育中,了解常见错误和失败案例可以深化理解,REDI展示了在AI训练中负面例子的教育价值。

六、未来展望与结论

强化蒸馏(REDI)为训练更小、更高效的语言模型开辟了一条新路径。通过有效利用正面和负面蒸馏推理轨迹,REDI使小型模型能够更接近大型推理模型的能力,但计算需求显著降低。

虽然本研究主要集中在数学推理上,但REDI框架可能适用于更广泛的推理任务,如科学问题解决、逻辑推理或复杂决策制定。未来的研究可能会探索REDI在其他领域的应用,以及与在线RL方法的结合可能性。

这项研究的关键贡献在于揭示了失败案例中蕴含的价值。通过将曾经被丢弃的"错误"转化为有价值的学习信号,REDI框架提供了一种更高效、更全面的知识传递方法。这不仅是一项技术创新,也是对教与学本质的深刻洞察——有时,知道"为什么不行"与知道"怎样做对"同样重要。

对于AI研究社区和更广泛的科技领域,这一发现提示我们重新思考如何看待失败和错误。也许,就像REDI所证明的那样,我们最大的进步可能来自于我们如何处理和学习失败的经验。

来源:至顶网一点号

相关推荐