翁荔称为“优雅”的在策略蒸馏，如何颠覆成本与效率的传统认知？

摘要：然而两种主流后训练模式都各有致命缺陷：SFT和蒸馏虽然简单可并行，但这种填鸭式教育让模型在完美数据中变得僵化，无法应对自己犯错时的未知局面；RL赋予了模型探索能力，但稀疏奖励导致的大规模试错让成本激增。

《AI未来指北》论文解读专栏，以一线视角和最易懂的语言拆解顶会顶刊精华。

模型的后训练，长久以来存在着一个不可能三角。

研究人员渴望模型在整个过程中同时拥有 强大的能力、高效的训练成本，以及可控的对齐 。

然而两种主流后训练模式都各有致命缺陷：SFT和蒸馏虽然简单可并行，但这种填鸭式教育让模型在完美数据中变得僵化，无法应对自己犯错时的未知局面；RL赋予了模型探索能力，但稀疏奖励导致的大规模试错让成本激增。

在这个背景下，Thinking Machines 对 Qwen 团队工作的深入分析和复现， 揭示了一种被称为在策略蒸馏（On-Policy Distillation, OPD）的方法，试图破解这个不可能三角。

Thinking Machines 是由前OpenAI首席技术官Mira Murati在2025年2月创立的AI研究与产品公司，汇聚了来自 OpenAI、DeepMind、Meta 等公司的顶尖人才，包括 ChatGPT、DALL·E 等项目的核心贡献者，OpenAI前安全研究副总裁Lilian Weng（翁荔）是该公司的联合创始人之一。

他们提出的这个方法的最大特点，就是翁荔所说的“ 优雅的结合” 。它以一种违反直觉的融合，解决了上述两大范式最棘手的问题。

那么，它到底优雅在哪儿呢？

要理解OPD的优雅，我们必须首先理解传统蒸馏的局限性。

传统蒸馏本质上是离策略（Off-Policy）的：学生学习的是老师预先生成的静态数据集，充满完美轨迹的标准答案。而OPD更接近强化学习RL，其训练数据不再是老师的完美录像，而是 学生自己（On-Policy）实时生成的轨迹 。

学生自己的真实分布（它自己会犯的错）上，受到来自老师每个token水平上的密集指导。这样它就会被训练成一个学习者。

传统蒸馏中，学生只学会了在“老师会遇到的状态”下如何做。一旦学生在推理链里犯了错，走了一步老师棋谱里没有的臭棋，就会导致复合错误，即一步错、步步错。

而Thinking Machines这种更具RL属性的在策略蒸馏（OPD），让学生学会了在“自己真实会遇到的状态”下如何思考，解决了传统蒸馏，也是SFT的复合错误难题。

这本是强化学习相较于SFT整体性的一种优势。

但强化学习也有自己的问题，那就是效率太低。

RL通过在试错中学习，因此可以规避 SFT 存在的复合错误问题。

但标准的RL因为要大量试错效率太低，比如说在稀疏奖励型RL中，信用分配（Credit Assignment）极其困难。模型输出了100个token，最后答案错了，完全不知道是第1步想错了还是第50步算错了。为了找到哪一步是坏棋，需要海量样本巨量的 rollouts）去猜，方差极大，收敛极慢，成本高企。

为了解决这个问题，研究者们提出了过程奖励模型（Process Reward Models, PRM）。训练一个裁判给每一步都打分。这已经非常接近OPD了，因为它同样是On-Policy采样和密集反馈。

但OPD的构思显然更进了一步，它提出了一个极其优雅的简化： 我们为什么需要一个费力训练的裁判（RM），直接用蒸馏的思路，让老师（Teacher Model）本人上场不好吗？

PRM的反馈是标量分数（-0.5分），学生拿到分数后依然需要自己探索如何提升。而OPD的反馈是KL散度，即直接告诉学生和老师的差距在哪里。

这就是OPD的融合之妙：它拥有RL的灵魂（ 让学生在自己的真实轨迹上学习） ，同时拥有它拥有SFT蒸馏的肉体 （密集的KL散度监督）。

而且它既规避了SFT的易错，又避免了RL的低效。

也避免了SFT中固有的灾难性遗忘（因为教师KL散度也是全领域的），以及RLHF（包括PRM）流程中最昂贵的步骤：训练奖励模型（RM）。

03 优雅的成本控制

所有人的第一直觉都是OPD这种在线方法一定贵得离谱，因为学生每一步都要调用巨大的老师模型去做一次正向传播。

然而，Thinking Machines 博客中的图表给出了一个完全反直觉的答案： OPD 的总成本效率，甚至碾压了 SFT，达到了 9-30 倍之多。

这是因为OPD确实单步成本高，但 样本效率 （Sample Efficiency）也高。

SFT在打基础阶段（0到400K数据）确实低廉，但当模型达到瓶颈（比如AIME'24得分60%）后，边际效益急剧递减。为了将分数从60%提升到70%，如果继续使用SFT，需要用5倍数据量去硬灌那10%的提升，成本高到无法接受。

而RL的稀疏奖励导致海量无效试错，为了找到通往+1分的路径，99.9%的算力都浪费在错误答案的探索上。它在初期的成本效率比SFT还低，后期提升部分才能基本持平。

而OPD 的“单步成本”确实非常高，但它换来的是极致的样本效率。在 OPD 中，没有一步是浪费的。

这就是那张图表所揭示的真相： OPD 的额外成本，仅是 SFT（硬灌）的 1/13.6。 它用高质量的单步指导替换了低质量的海量试错，彻底颠覆了“RL很贵、SFT很便宜”的传统认知。

这是 OPD 的第二层优雅。

OPD这种用RL的On-Policy采样，去跑SFT的蒸馏目标的想法，似乎并不难想到。密集奖励会导致RL效果提升也是RL的基础认知。那为什么在这么长的时间里，几乎没有人把这两者做一个如此简单直接的结合呢？

其实在Thinking Machine的博客中也写道，这个想法是他们从已有的三个来源，包括Qwen 3、Agarwal的研究和Tinker的想法扩展而来。尤其是Qwen 3 已经提供了一些训练工程的基础。

但目前如此少的应用，和对此在研究领域认知的缺乏背后，可能隐藏的是两大后训练阵营壁垒带给研究者的认知误区。

SFT/蒸馏阵营的误区，是成本洁癖。 他们的核心优势是离线带来的廉价，本能地无法接受在线调用大模型老师的昂贵范式，认为这在成本上不可能优于SFT。

而RL阵营的误区，则是奖励模型（RM）崇拜，和对模仿的鄙视。 自RLHF成功以来，全部精力都用于训练更好的RM，痴迷于标量奖励和探索。而OPD这种逐帧模仿老师分布的做法，在他们看来根本不是真正的RL，它太Low、离元学习太远。

OPD用一个反直觉的实验，同时击碎了两个阵营的枷锁：这种看似昂贵的在线方法，由于样本效率的碾压， 总成本反而比廉价的SFT低了10倍 ； 而且根本不需要复杂的奖励模型 ，最简单的模仿就能更快、更稳、更便宜地教会模型思考。

这种用最简单的组合（On-Policy采样 + KL散度损失），去解决两个最复杂范式（SFT和RL）的难题，这才是OPD和它的前辈们最优雅的地方，是一次想象力的飞跃。

来源：时空探险家

标签：优雅策略 rl prm kl

本文地址：http://news.43b.com.cn/a/1722516.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐