让AI学习效率飙升50倍的秘密:在线策略蒸馏

B站影视 日本电影 2025-10-29 12:12 1

摘要:于是你换了种方法。让他自己写,然后你在旁边指出每一个句子的优劣、逻辑是否通顺、语气是否合适。

想象一下,你在教一个学生写作文。

传统做法是:你给他十篇范文,让他照着学。

这叫“模仿学习”。

但很快你发现——当他真正面对一个没见过的题目时,立刻就懵了。

于是你换了种方法。让他自己写,然后你在旁边指出每一个句子的优劣、逻辑是否通顺、语气是否合适。

这种“边写边教”的方式,更像真正的学习。

这,正是 Thinking Machines Lab 最新研究《On-Policy Distillation》的核心灵感所在。(原文链接:https://thinkingmachines.ai/blog/on-policy-distillation/)

它提出了一种全新的 AI 训练方式——让模型在“自己行动”的轨迹上,被实时指导、被动态优化。

这听起来简单,却可能改写整个大模型的训练范式。

Thinking Machines Lab 是 Mira Murati(前 OpenAI CTO)离职后创办的新实验室。

她和团队成员 John Schulman、Barret Zoph 都是推动 ChatGPT 与强化学习革命的关键人物。

他们的研究方向有一个共同点: 让模型更懂得“如何学习”

这篇论文的作者 Kevin Lu、John Schulman、Horace He 等人,延续了他们在 RLHF(人类反馈强化学习)和蒸馏训练上的积累。

他们在问一个根本问题——

“AI的学习方式是不是错了?”

当我们说“训练一个大模型”,其实是两步:

让模型看大量人类写的文本(称为 SFT:监督微调 )。

再通过 RLHF (强化学习)让它学会“人类喜欢的回答方式”。

问题在于——这两步并不协调。

SFT 教的是“模仿旧答案”;RLHF 强调“探索新答案”。

前者像“死记硬背”,后者像“自我实践”。

模型经常在两者之间摇摆:要么过度顺从人类样本,要么冒进地乱试。

Thinking Machines Lab 提出的 On-Policy Distillation(政策内蒸馏)

是想把这两种学习方式“融合”成一种更自然的状态。

传统蒸馏(Distillation)是:

老师(大模型)写出一份完美答案,学生照着学。

而他们的新方法是:

学生自己先写一遍,老师实时给出每一步的分数、建议、改进方向。

这个过程在强化学习里叫 On-Policy ——模型在“自己生成的轨迹”上学习,而不是在别人给的现成答案上学习。

于是,模型学到的不再是“理想的句子”,而是“如何自己到达理想的句子”。

可以把它理解为:

不再教模型“结论”,而是教它“思考的路径”。

RLHF 的本质是“奖励”(Reward):模型生成一整段答案,评审模型给它一个分。

但这有个问题——只有整段结束后才能反馈,太慢了。

On-Policy Distillation 把反馈粒度缩小到“每个token”(每一个生成的字词)。

就像作文老师不再只给你打总分,而是逐句标注“这里句式优美”“这里逻辑混乱”。

这种“密集监督”(dense supervision)方式让学习效率成倍提升。

论文作者形象地称之为“ 用微镜头监督AI的思考过程 ”。

他们用这个方法训练模型后,

在 AIME’24 数学基准测试上,性能超过了传统 RLHF 模型。

同时算力需求更低、训练更稳定、结果更可复现。

一句话总结就是:

以前我们靠“惩罚与奖励”教AI做人, 现在我们靠“示范与纠错”教AI成长。

在更宏观的层面,这篇论文揭示的是 AI学习方式的哲学转折

过去几年我们用海量数据喂模型,希望它靠统计规律“模仿人类”。

但 Thinking Machines 团队认为, 真正的智能不在模仿,而在于反思自己的行为

“On-Policy Distillation” 让 AI 有机会在自己的轨迹上打磨自己——

这让“自我改进型智能体”(self-improving agent)成为现实的一步。

未来,当你的AI助手能在每天的任务中积累经验、吸收教训、变得越来越懂你,

也许正是这种“on-policy”学习在默默起作用。

Thinking Machines Lab 的这篇论文不是在造一个更大的模型,

而是在重新定义“学习”这件事的意义。

当AI开始自己教自己,

我们也许正见证着“智能的第二次觉醒”——

第一次是机器学会说话,

第二次,是它学会思考“我为什么这么说”。

来源:时空探险家

相关推荐