EMNLP 2025 接收!把“猜-思-答”三步走做成大模型训练新范式

B站影视 港台电影 2025-09-23 14:51 4

摘要:大模型的后训练阶段,很多人都纠结一个问题:到底是用监督微调(SFT),还是强化学习(RL)?SFT 简单高效,但能力上限不高;RL 能力强,但训练又慢又不稳。尤其是在文本分类这个场景,RL 表现一直不如人意。

大模型的后训练阶段,很多人都纠结一个问题:到底是用 监督微调(SFT),还是 强化学习(RL)?SFT 简单高效,但能力上限不高;RL 能力强,但训练又慢又不稳。尤其是在 文本分类 这个场景,RL 表现一直不如人意。

vivo AI Lab 的研究团队试图打破这种两难局面。他们在近期被 EMNLP 2025 接收的论文中提出了一个新方法——GTA(Guess–Think–Answer),试图把 SFT 和 RL 的优势融合起来:既要快,又要强。

GTA 的核心思想不复杂,甚至可以说挺“人类”的:

Guess(猜):模型先凭直觉给出一个初步猜测。这一步用标准的交叉熵损失训练,就像 SFT 一样,确保训练能快速收敛。Think(思):模型不是直接输出答案,而是对刚才的猜测进行“思考”——好不好?为啥对?为啥错?这一步让模型有机会反思,提高推理质量。Answer(答):最终输出答案,这一步由 RL 来优化,不只是对不对,还包括整个答题过程的质量。

这个三阶段结构,相当于把 SFT 当“引路灯”,让 RL 不再盲目乱走;同时强化学习又能反过来提升最终结果的泛化能力。

SFT 和 RL 本质上是两种不同的训练目标,直接放在一起容易“打架”——你往东,我往西,模型就懵了。为了解决这个问题,作者设计了两个关键机制:

Loss Masking:训练时,“猜”的部分只用 SFT 的损失,“答”的部分只用 RL 的奖励。各管各的,互不干扰。梯度冲突检测:训练过程中实时监控两个信号的梯度方向,发现冲突时进行调整,从源头上避免训练失稳。

GTA 在四个主流文本分类数据集上进行了实测,包括经典的情感分析数据集 SST-5、商品评论 Amazon、情绪识别 Emotion 和新闻分类 BBC News。模型使用的是 Qwen2.5、Qwen3 和 LLaMA 的 3B 小模型,在 L40s 多机多卡集群上训练。

实验对比了 SFT、GRPO(强化学习方法)和 GTA 三种方案:

性能:GTA 在所有数据集上都优于 SFT 和 GRPO,尤其是在复杂类别的情感和情绪分类任务中,表现更明显。收敛速度:GTA 在 500~1000 步就超过了 GRPO 到达的最高点,而 GRPO 到 10000 步都没追上。思考过程有效性:作者测试了“有思考”和“无思考”版本,发现带有思考阶段的模型表现更稳、准确率更高,且无需额外标注。

简单说就是:GTA 既跑得快,又跑得远。

有趣的是,虽然 GTA 里有“猜”这一步,但模型不会盲目跟着猜测走。论文展示了两个案例:

Case A:模型一开始猜错了,但在“思考”阶段自我纠正,最终输出了正确答案。Case B:模型猜了个不在标签里的答案,思考后发现问题,及时回头修正。

这说明“思考”这一步,的确在起作用——模型不是照单全收,而是在自我反省。

虽然目前 GTA 只在文本分类任务上做了验证,但从原理来看,它也可能适用于问答、摘要、对话生成等更复杂的 NLP 场景。作者也表示,未来会尝试在更大模型和更多任务上扩展 GTA。

当然,把 SFT 和 RL 融合,也确实带来更大的显存压力。为了控制成本,这次实验选择了 3B 级别的小模型。未来如果想在更大模型上用 GTA,还需要一些工程优化。

近年来,越来越多的研究都在探索如何把 SFT 和 RL 结合起来,比如通义的 CHORD、上海 AI 实验室的 LUFFY 等。vivo 提出的 GTA,是其中一个非常有代表性的实践。

它的思路不复杂,但效果扎实:用 SFT 引导 RL,用 RL 提升 SFT,中间加上一段“思考”过程,让模型逻辑更清晰、训练更稳健、表现更可靠。

一句话总结:SFT 给你速度,RL 给你高度,GTA 帮你两手都要。

来源:老闫侃史视频

相关推荐