EMNLP 2025 接收！把“猜-思-答”三步走做成大模型训练新范式

摘要：大模型的后训练阶段，很多人都纠结一个问题：到底是用监督微调（SFT），还是强化学习（RL）？SFT 简单高效，但能力上限不高；RL 能力强，但训练又慢又不稳。尤其是在文本分类这个场景，RL 表现一直不如人意。

大模型的后训练阶段，很多人都纠结一个问题：到底是用 监督微调（SFT），还是 强化学习（RL）？SFT 简单高效，但能力上限不高；RL 能力强，但训练又慢又不稳。尤其是在 文本分类 这个场景，RL 表现一直不如人意。

vivo AI Lab 的研究团队试图打破这种两难局面。他们在近期被 EMNLP 2025 接收的论文中提出了一个新方法——GTA（Guess–Think–Answer），试图把 SFT 和 RL 的优势融合起来：既要快，又要强。

GTA 的核心思想不复杂，甚至可以说挺“人类”的：

Guess（猜）：模型先凭直觉给出一个初步猜测。这一步用标准的交叉熵损失训练，就像 SFT 一样，确保训练能快速收敛。Think（思）：模型不是直接输出答案，而是对刚才的猜测进行“思考”——好不好？为啥对？为啥错？这一步让模型有机会反思，提高推理质量。Answer（答）：最终输出答案，这一步由 RL 来优化，不只是对不对，还包括整个答题过程的质量。

这个三阶段结构，相当于把 SFT 当“引路灯”，让 RL 不再盲目乱走；同时强化学习又能反过来提升最终结果的泛化能力。

SFT 和 RL 本质上是两种不同的训练目标，直接放在一起容易“打架”——你往东，我往西，模型就懵了。为了解决这个问题，作者设计了两个关键机制：

Loss Masking：训练时，“猜”的部分只用 SFT 的损失，“答”的部分只用 RL 的奖励。各管各的，互不干扰。梯度冲突检测：训练过程中实时监控两个信号的梯度方向，发现冲突时进行调整，从源头上避免训练失稳。

GTA 在四个主流文本分类数据集上进行了实测，包括经典的情感分析数据集 SST-5、商品评论 Amazon、情绪识别 Emotion 和新闻分类 BBC News。模型使用的是 Qwen2.5、Qwen3 和 LLaMA 的 3B 小模型，在 L40s 多机多卡集群上训练。

实验对比了 SFT、GRPO（强化学习方法）和 GTA 三种方案：

性能：GTA 在所有数据集上都优于 SFT 和 GRPO，尤其是在复杂类别的情感和情绪分类任务中，表现更明显。收敛速度：GTA 在 500~1000 步就超过了 GRPO 到达的最高点，而 GRPO 到 10000 步都没追上。思考过程有效性：作者测试了“有思考”和“无思考”版本，发现带有思考阶段的模型表现更稳、准确率更高，且无需额外标注。

简单说就是：GTA 既跑得快，又跑得远。

有趣的是，虽然 GTA 里有“猜”这一步，但模型不会盲目跟着猜测走。论文展示了两个案例：

Case A：模型一开始猜错了，但在“思考”阶段自我纠正，最终输出了正确答案。Case B：模型猜了个不在标签里的答案，思考后发现问题，及时回头修正。

这说明“思考”这一步，的确在起作用——模型不是照单全收，而是在自我反省。

虽然目前 GTA 只在文本分类任务上做了验证，但从原理来看，它也可能适用于问答、摘要、对话生成等更复杂的 NLP 场景。作者也表示，未来会尝试在更大模型和更多任务上扩展 GTA。

当然，把 SFT 和 RL 融合，也确实带来更大的显存压力。为了控制成本，这次实验选择了 3B 级别的小模型。未来如果想在更大模型上用 GTA，还需要一些工程优化。

近年来，越来越多的研究都在探索如何把 SFT 和 RL 结合起来，比如通义的 CHORD、上海 AI 实验室的 LUFFY 等。vivo 提出的 GTA，是其中一个非常有代表性的实践。

它的思路不复杂，但效果扎实：用 SFT 引导 RL，用 RL 提升 SFT，中间加上一段“思考”过程，让模型逻辑更清晰、训练更稳健、表现更可靠。

一句话总结：SFT 给你速度，RL 给你高度，GTA 帮你两手都要。

来源：老闫侃史视频

标签：训练模型 gta 范式 emnlp

本文地址：http://news.43b.com.cn/a/1299222.html