翁荔称为“优雅”的在策略蒸馏,如何颠覆成本与效率的传统认知?

B站影视 内地电影 2025-10-30 10:12 1

摘要:然而两种主流后训练模式都各有致命缺陷:SFT和蒸馏虽然简单可并行,但这种填鸭式教育让模型在完美数据中变得僵化,无法应对自己犯错时的未知局面;RL赋予了模型探索能力,但稀疏奖励导致的大规模试错让成本激增。

《AI未来指北》论文解读专栏,以一线视角和最易懂的语言拆解顶会顶刊精华。

模型的后训练,长久以来存在着一个不可能三角。

研究人员渴望模型在整个过程中同时拥有 强大的能力、高效的训练成本,以及可控的对齐

然而两种主流后训练模式都各有致命缺陷:SFT和蒸馏虽然简单可并行,但这种填鸭式教育让模型在完美数据中变得僵化,无法应对自己犯错时的未知局面;RL赋予了模型探索能力,但稀疏奖励导致的大规模试错让成本激增。

在这个背景下,Thinking Machines 对 Qwen 团队工作的深入分析和复现, 揭示了一种被称为在策略蒸馏(On-Policy Distillation, OPD)的方法,试图破解这个不可能三角。

Thinking Machines 是由前OpenAI首席技术官Mira Murati在2025年2月创立的AI研究与产品公司,汇聚了来自 OpenAI、DeepMind、Meta 等公司的顶尖人才,包括 ChatGPT、DALL·E 等项目的核心贡献者,OpenAI前安全研究副总裁Lilian Weng(翁荔)是该公司的联合创始人之一。

他们提出的这个方法的最大特点,就是翁荔所说的“ 优雅的结合” 。它以一种违反直觉的融合,解决了上述两大范式最棘手的问题。

那么,它到底优雅在哪儿呢?

要理解OPD的优雅,我们必须首先理解传统蒸馏的局限性。

传统蒸馏本质上是离策略(Off-Policy)的:学生学习的是老师预先生成的静态数据集,充满完美轨迹的标准答案。而OPD更接近强化学习RL,其训练数据不再是老师的完美录像,而是 学生自己(On-Policy)实时生成的轨迹

学生自己的真实分布(它自己会犯的错)上,受到来自老师每个token水平上的密集指导。这样它就会被训练成一个学习者。

传统蒸馏中,学生只学会了在“老师会遇到的状态”下如何做。一旦学生在推理链里犯了错,走了一步老师棋谱里没有的臭棋,就会导致复合错误,即一步错、步步错。

而Thinking Machines这种更具RL属性的在策略蒸馏(OPD),让 学生学会了在“自己真实会遇到的状态”下如何思考,解决了传统蒸馏,也是SFT的复合错误难题。

这本是强化学习相较于SFT整体性的一种优势。

但强化学习也有自己的问题,那就是效率太低。

RL通过在试错中学习,因此可以规避 SFT 存在的复合错误问题。

但标准的RL因为要大量试错效率太低,比如说在稀疏奖励型RL中,信用分配(Credit Assignment)极其困难。模型输出了100个token,最后答案错了,完全不知道是第1步想错了还是第50步算错了。为了找到哪一步是坏棋,需要海量样本巨量的 rollouts)去猜,方差极大,收敛极慢,成本高企。

为了解决这个问题,研究者们提出了过程奖励模型(Process Reward Models, PRM)。训练一个裁判给每一步都打分。这已经非常接近OPD了,因为它同样是On-Policy采样和密集反馈。

但OPD的构思显然更进了一步,它提出了一个极其优雅的简化: 我们为什么需要一个费力训练的裁判(RM),直接用蒸馏的思路,让老师(Teacher Model)本人上场不好吗?

PRM的反馈是标量分数(-0.5分),学生拿到分数后依然需要自己探索如何提升。而OPD的反馈是KL散度,即直接告诉学生和老师的差距在哪里。

这就是OPD的融合之妙:它拥有RL的灵魂( 让学生在自己的真实轨迹上学习) ,同时拥有它拥有SFT蒸馏的肉体 (密集的KL散度监督)

而且它既规避了SFT的易错,又避免了RL的低效。

也避免了SFT中固有的灾难性遗忘(因为教师KL散度也是全领域的),以及RLHF(包括PRM)流程中最昂贵的步骤:训练奖励模型(RM)。

03 优雅的成本控制

所有人的第一直觉都是OPD这种在线方法一定贵得离谱,因为学生每一步都要调用巨大的老师模型去做一次正向传播。

然而,Thinking Machines 博客中的图表给出了一个完全反直觉的答案: OPD 的总成本效率,甚至碾压了 SFT,达到了 9-30 倍之多。

这是因为OPD确实单步成本高,但 样本效率 (Sample Efficiency)也高。

SFT在打基础阶段(0到400K数据)确实低廉,但当模型达到瓶颈(比如AIME'24得分60%)后,边际效益急剧递减。为了将分数从60%提升到70%,如果继续使用SFT,需要用5倍数据量去硬灌那10%的提升,成本高到无法接受。

而RL的稀疏奖励导致海量无效试错,为了找到通往+1分的路径,99.9%的算力都浪费在错误答案的探索上。它在初期的成本效率比SFT还低,后期提升部分才能基本持平。

而OPD 的“单步成本”确实非常高,但它换来的是极致的样本效率。在 OPD 中,没有一步是浪费的。

这就是那张图表所揭示的真相: OPD 的额外成本,仅是 SFT(硬灌)的 1/13.6。 它用高质量的单步指导替换了低质量的海量试错,彻底颠覆了“RL很贵、SFT很便宜”的传统认知。

这是 OPD 的第二层优雅。

OPD这种用RL的On-Policy采样,去跑SFT的蒸馏目标的想法,似乎并不难想到。密集奖励会导致RL效果提升也是RL的基础认知。那为什么在这么长的时间里,几乎没有人把这两者做一个如此简单直接的结合呢?

其实在Thinking Machine的博客中也写道,这个想法是他们从已有的三个来源,包括Qwen 3、Agarwal的研究和Tinker的想法扩展而来。尤其是Qwen 3 已经提供了一些训练工程的基础。

但目前如此少的应用,和对此在研究领域认知的缺乏背后,可能隐藏的是两大后训练阵营壁垒带给研究者的认知误区。

SFT/蒸馏阵营的误区,是成本洁癖。 他们的核心优势是离线带来的廉价,本能地无法接受在线调用大模型老师的昂贵范式,认为这在成本上不可能优于SFT。

而RL阵营的误区,则是奖励模型(RM)崇拜,和对模仿的鄙视。 自RLHF成功以来,全部精力都用于训练更好的RM,痴迷于标量奖励和探索。而OPD这种逐帧模仿老师分布的做法,在他们看来根本不是真正的RL,它太Low、离元学习太远。

OPD用一个反直觉的实验,同时击碎了两个阵营的枷锁:这种看似昂贵的在线方法,由于样本效率的碾压, 总成本反而比廉价的SFT低了10倍 而且根本不需要复杂的奖励模型 ,最简单的模仿就能更快、更稳、更便宜地教会模型思考。

这种用最简单的组合(On-Policy采样 + KL散度损失),去解决两个最复杂范式(SFT和RL)的难题,这才是OPD和它的前辈们最优雅的地方,是一次想象力的飞跃。

来源:时空探险家

相关推荐