Ubiquant团队：如何用单样本训练超越强化学习？

摘要：在人工智能发展日新月异的今天，大型语言模型（LLM）的训练方法也在不断革新。2025年5月，来自Ubiquant的研究团队Zitian Gao、Lynx Chen、Joey Zhou和Bryan Dai在论文《One-shot Entropy Minimiza

在人工智能发展日新月异的今天，大型语言模型（LLM）的训练方法也在不断革新。2025年5月，来自Ubiquant的研究团队Zitian Gao、Lynx Chen、Joey Zhou和Bryan Dai在论文《One-shot Entropy Minimization》中提出了一项令人惊讶的发现：他们训练了13,440个大型语言模型，发现仅使用一个未标记数据和10步优化，就能实现比使用数千数据和精心设计奖励的基于规则的强化学习更好的性能提升。这一研究成果可能会促使我们重新思考大型语言模型的后训练范式。

想象一下，如果有人告诉你，做一道复杂的数学题有两种方法：一种需要数千次练习和专业指导，另一种只需看一眼题目，思考十次就能掌握。你会选择哪一种？这正是Ubiquant研究团队的惊人发现 - 他们称之为"单样本熵最小化"(One-shot Entropy Minimization)的方法，简单到令人难以置信，却又出奇地有效。

一、研究背景：为何单样本熵最小化如此重要？

大型语言模型的后训练阶段（即预训练后的微调过程）已经取得了长足进步，代表性的模型如DeepSeek-R1、Kimi-K1.5和OpenAI o系列都展示出了非凡的推理能力。然而，准备强化学习(RL)从来都不是一件容易的事。它通常需要大量高质量的标记数据，以及精心设计的基于规则的奖励函数，以最大化优势信号并防止奖励欺骗（模型找到取巧的方式获取高奖励而不是真正提高能力）。

相比之下，熵最小化(EM)方法完全是无监督的。想象一下，如果你教一个孩子解决问题，传统方法是给他看很多例子，并不断告诉他"对"或"错"（这相当于强化学习）。而熵最小化则像是鼓励孩子在面对问题时减少犹豫和不确定性，集中精力在他认为最可能正确的思路上（不需要任何外部反馈）。

Ubiquant的研究团队进行了一项史无前例的大规模实验，训练了13,440个大型语言模型，以消除训练中的随机性，确保实验结果和观察到的模式具有可靠性。他们的研究表明，仅使用一个未标记数据，性能就已经超过了传统的强化学习。而且，它们通常在短短10个训练步骤内就能收敛，这比强化学习通常需要的数千步要快得多。

熵最小化基于两个直接而简单的假设： 1. 大型语言模型的生成过程本质上是随机的 2. 正确答案通常比错误答案具有更低的熵（更确定、更集中的概率分布）

研究揭示，熵最小化和强化学习共享同一个目标：释放预训练模型的潜在潜力，而不添加新知识。两者都依赖于一个称为"令牌重排序"(token reranking)的过程来最大化模型的性能。研究团队发现，熵最小化在后训练阶段有能力与强化学习相媲美。

二、方法解析：单样本熵最小化如何工作？

### 熵最小化算法的原理

想象一下掷骰子的过程。普通的六面骰子每面出现的概率都是1/6，这是一个高熵的情况——结果非常不确定。如果这个骰子被加重，使得某一面（比如6）出现的概率大大增加，那么这就是一个低熵的情况——结果更加确定。

熵最小化就是这样一个过程：它让语言模型在生成回答时，更加"确定"自己的选择，减少不确定性。具体来说，对于预训练的自回归语言模型，参数为θ，给定输入提示x（如问题或问题描述），模型会自回归地生成响应序列y = (y?, y?, ..., y?)。

在每一步生成时，模型计算下一个词的条件熵：

H? = -∑?∈V pθ(v | y

这个公式看起来复杂，但实际上它只是在测量模型对下一个词的选择有多"犹豫"。熵越高，模型越不确定；熵越低，模型越确定。熵最小化训练就是通过减少这种"犹豫"，让模型更加自信地生成它认为正确的答案。

为了避免惩罚提示部分，他们只计算生成的令牌的熵。如果Tprompt表示提示x中的令牌数量，则目标位置集合为：

I = {t | t > Tprompt, yt ≠ [PAD]}

单个输入x的整体熵最小化损失函数为：

LEM(x; θ) = (1/|I|) ∑t∈I Ht

这个损失函数鼓励模型对自己的预测更加自信，而不依赖外部监督。熵最小化损失对模型参数完全可微，其梯度类似于熵正则化强化学习中的分数函数估计器。此外，熵最小化提供了一个封闭形式的目标，消除了对外部奖励估计或价值基准的需求，从而简化优化，同时保留熵驱动探索和利用的有效性。

### 数据选择策略

熵最小化依赖于一个前提：模型的预测不确定性可以作为有意义的训练信号。但并非所有输入提示都同样有信息量。就像在学校里，有些问题对学习帮助很大，有些则不然。

研究团队采用了一种基于方差的数据选择策略。具体来说，他们测量模型pass@k准确率的方差（即模型在多次尝试下表现的波动程度），并选择模型表现方差最大的提示。这样做的目的是针对那些处于模型能力边缘的输入——既不太简单也不太困难——使它们成为熵驱动优化的理想目标。

对于一个提示x，他们从模型中抽取k个独立样本： Y(x) = {y(1), y(2), ..., y(k)}，y(i) ~ pθ(· | x)

然后计算pass@k分数： pass@k(x) = (1/k) ∑???? I[y(i) 正确]

研究团队进一步计算这个二元成功变量的样本方差： Varpass@k(x) = (1/k) ∑???? (I[y(i) 正确] - pass@k(x))?

这个方差量化了模型对给定输入预测的不一致性。低方差表示模型要么非常确信正确答案（几乎完美的成功），要么非常确信错误答案（一致错误），这两种情况对熵最小化都不理想，因为它们导致低熵后验，无法进一步改进。

因此，他们的数据选择目标定义为： x* = argmax?∈D Varpass@k(x)

这种方法有效地优先考虑那些模型表现出最大行为不确定性的提示，使它们成为"熵敏感"的。这些提示实证上产生最大的熵梯度，因此推动熵最小化下的有意义参数更新。

直观地说，具有高pass@k方差的数据表明模型的响应分布正跨越决策边界——有时正确，有时不正确——表明预测分布广泛或多模态。这些恰恰是熵最小化最有影响力的区域：它鼓励模型将其概率质量集中在一致且（理想情况下）正确的推理轨迹上。

### 实际操作与实验设置

研究团队基于Accelerate库实现了熵最小化的整体训练过程。他们从数据集中选择了1条数据作为提示。由于这是一种无监督方法，他们不需要任何数据标签。

他们直接以2×10??的恒定学习率、0.5的温度参数和64的批量大小训练模型，仅训练10步。这就像是给一个聪明的学生快速展示一个问题，让他思考几分钟就能掌握解决方法。

三、惊人的实验结果：单样本熵最小化的威力

与大多数基于强化学习的基准相比，研究团队的单样本熵最小化结果显示出强大的竞争力。具体来说，当将单样本熵最小化方法应用于Qwen2.5-Math-7B基础模型时，在所有评估的数学推理基准测试中都观察到了显著的性能提升。

MATH500的性能显著提高了25.8个百分点（从53.0%提升到78.8%），Minerva Math提高了24.3个百分点，Olympiad Bench提高了22.5个百分点，AMC23提高了26.2个百分点。平均而言，单样本熵最小化策略相比原始Qwen2.5-Math-7B模型实现了令人印象深刻的24.7个百分点的提升。

值得注意的是，即使只有一个单样本示例和最少的训练步骤（仅10步），熵最小化也显著缩小了Qwen2.5-Math-7B与最先进的基于强化学习的模型（如Prime-Zero-7B和RLVR-GRPO）之间的差距。特别是在AMC23基准测试中，经熵最小化增强的Qwen2.5-Math-7B取得了70.3%的竞争性分数，接近领先的强化学习模型。这些结果清楚地表明，熵最小化（EM）尽管是一种比典型强化学习方法更简单、更数据高效的技术，但在增强基础语言模型的数学推理任务性能方面具有巨大潜力。

四、深入理解：为什么单样本熵最小化如此有效？

### Logits分布变化分析

想象你在做一个选择题，对于每个选项，你心中都有一个确信度分数。传统上，模型对每个可能的词也有一个"确信度分数"，这在技术上称为logits。研究团队发现，经过熵最小化训练的模型，这些分数的分布发生了有趣的变化。

研究人员从NuminaMath数据集中抽取了20个提示，并使用四种不同的模型（Qwen2.5-Math-7B、Qwen2.5-Math-7B-EM、Qwen2.5-Math-7B-RL、Qwen2.5-Math-7B-EM-RL）生成响应。每个模型生成20个响应，总共生成4×20=80个输出。对于每个输出，他们提取了logits，这些是模型在应用softmax函数之前产生的未归一化分数。

分析表明，经过熵最小化训练的模型，其logits分布的偏度显著增加，表明分布向右偏移。这表明熵最小化增加了模型的整体置信度，将概率质量集中在一部分令牌上。结果，原始logits中以前的高概率区域被扩展为长尾高概率区间。

相比之下，经过强化学习训练的模型显示出logits偏度的明显减少，表明分布向左偏移。研究人员假设这是由于强化学习训练过程中地面真值信号的影响。具体来说，强化学习似乎执行重排序，抑制那些预测概率高但与地面真值一致性低的令牌，从而降低它们的排名并将整体分布向左偏移。

研究人员将这种现象称为"logits偏移"。向右的logits偏移对大型语言模型的生成和采样过程有益，因为模型主要从高概率令牌中采样。将logits向右偏移增加了候选令牌的数量并扩展了高概率路径，从而增强了模型的能力。相反，向左的logits偏移被认为对大型语言模型的生成过程有害，因为它减少了采样过程中的高概率路径数量，从而降低了模型的整体性能。因此，熵最小化引起的向右logits偏移比强化学习导致的向左偏移更受欢迎。

### 训练损失与推理性能的关系

研究团队发现了一个有趣的现象：大约在第10步训练时，熵最小化的训练损失降到较低水平，模型在数学推理方面的性能达到峰值。然而，出乎意料的是，当熵最小化训练损失在第10步之后继续下降时，数学推理性能开始下降。

这就像是教一个孩子解题，一开始随着他越来越确定自己的答案，表现确实在提高，但如果他变得过度自信，反而可能固执己见而忽略其他可能性，导致表现下降。

结合前面的发现，研究团队认为熵最小化主要作为一种塑造模型分布的工具，而不是作为一种学习方法或策略。因此，分布塑造的效果在很少的训练步骤内就基本达成，导致熵最小化训练损失的持续下降与数学推理性能提升之间的解耦。

### 训练和评估中的温度参数影响

在烹饪中，温度控制着食物的质地和口感。同样，在语言模型中，"温度"参数控制着生成文本的多样性和确定性。高温度会使模型生成更多样化但可能更不精确的文本，低温度则会使模型生成更确定但可能缺乏创造性的文本。

研究发现，随着生成温度的增加，熵最小化训练模型在四个数学推理基准测试中的平均性能总体上呈上升趋势。平均性能的最大值最初增加，然后在温度约为0.5时下降。更高的温度导致更好的平均推理能力，而中等温度（如0.5）导致更大的性能方差，从而创造更高峰值性能的机会。

然而，在评估生成时，研究团队观察到了熵最小化训练模型对不同采样温度的反应的惊人模式。具体来说，随着评估过程中采样温度的增加，模型在四个数学推理基准测试中的平均性能持续下降。这一趋势与基于强化学习训练的模型形成鲜明对比，后者在采样温度较高时性能往往会提高。

这可以通过贪婪解码过程来理解，该过程在每一步选择条件概率最大的令牌： yt = argmaxv∈V pθ(v | y

结合前面的分析，研究团队假设熵最小化训练系统地重塑了模型的logits分布，使其变得越来越右偏。这个过程强化了已经高概率的令牌的置信度，有效地将概率质量集中在语义上连贯和正确的选项上。因此，贪婪解码（确定性地选择最可能的令牌）在熵最小化微调后成为一种高效的策略。

相比之下，强化学习基于外部地面真值奖励调整令牌概率。这通常提升了以前低概率（尾部）令牌的相对排名。即使在重排序之后，这些令牌也往往占据概率分布中的中间位置，需要在采样过程中使用更高的温度才能被选择。因此，基于强化学习训练的模型表现出相反的趋势：随着采样温度的提高，性能提升。

### 熵最小化在强化学习前后的效果

研究团队还探索了熵最小化与强化学习结合使用的效果。结果显示明显的不对称性：在强化学习之后应用熵最小化导致在四个数学基准测试中的性能稳步下降，而在熵最小化之后应用强化学习则产生持续的收益。这表明熵最小化加剧了强化学习引入的分布扭曲，强化了强化学习的"对齐税"。

这与先前研究一致，表明强化学习在监督微调(SFT)之后最有效，而在强化学习之后应用SFT或基于熵的方法通常会损害性能。在这种情况下，强化学习之后的熵最小化锁定了狭窄、过度自信的输出模式，而强化学习之前的熵最小化增强了推理能力，并允许强化学习在不降低多样性或准确性的情况下细化输出。

### 熵最小化在不同模型上的表现

研究团队报告了多种基础模型在最小训练步骤后单样本熵最小化的峰值性能。值得注意的是，仅通过单个示例和最小优化，熵最小化在所有模型上的MATH500、Minerva Math、Olympiad Bench和AMC23任务中持续提升推理准确率。例如，在Qwen2.5-Math-7B模型上，单样本熵最小化在MATH500上提升了25.8个百分点（从53.0%到78.8%），在Minerva Math上提升了24.3个百分点（从11.0%到35.3%），在Olympiad Bench上提升了22.5个百分点（从17.2%到39.7%），在AMC23上提升了26.2个百分点（从44.1%到70.3%）。这表明熵最小化能够在几乎不需要额外数据或计算的情况下显著增强推理性能。

研究人员观察到，单样本熵最小化收益的上限由基础模型的内在推理强度决定。在相对较弱的LLaMA-3.1-8B上，单样本熵最小化将平均准确率仅提高到24.3%，几乎不超过基线的23.6%。这表明当底层模型缺乏足够的推理能力时，最小的熵最小化优化无法完全弥补其缺陷。相比之下，在更强大的Qwen2.5-7B基础上，单样本熵最小化将平均准确率从29.6%显著提高到37.3%。更值得注意的是，在高度能干的Qwen2.5-7B-Instruct基础上，单样本熵最小化将平均准确率从43.12%推高到44.5%，不仅超过了基线，还超过了单独的熵最小化效果。

### 单样本与多样本熵最小化的比较

研究显示，使用一两个示例的熵最小化训练在四个数学基准测试中获得的平均分数与包含数千个示例的数据集相当，甚至产生了改进。这表明使用最小示例集的熵最小化在各种下游任务中提供了更好的泛化和更强的性能。

为了揭示潜在因素，研究团队对单样本熵最小化训练动态进行了详细分析。他们观察到，在单样本熵最小化下，提示长度和生成的输出长度保持明显更稳定。此外，虽然多样本熵最小化损失在第3步之后继续显著波动，但单样本熵最小化损失从第3步开始稳步下降，并在第10步之后保持较低水平。这表明依赖单个示例大大减少了样本偏差并缩小了输出方差，实现更细粒度和稳定的优化。

五、未来工作与潜在应用

### 稳定熵最小化训练

研究中的一个显著发现是熵最小化的极端效率，在短短10个训练步骤内就能实现有意义的改进。然而，这种快速收敛可能带来潜在的权衡：对超参数的敏感性和训练不稳定性。研究团队的分析表明，超过某个点后，持续的熵最小化损失减少实际上可能损害模型的推理性能。这表明熵最小化更像是一种分布塑造机制，而不是标准的学习算法——一旦模型变得过于自信，其输出可能会崩溃为过于狭窄的令牌分布，减少多样性和正确性。

未来的工作可以研究早停标准或自适应调度机制，以稳定熵最小化训练并防止性能下降。

### 探索熵最小化的全部潜力

尽管其简单性，熵最小化仅使用单个未标记示例就表现出惊人的强大性能。这引发了关于熵基础目标能走多远的有趣问题。例如，熵最小化能否超越推理任务，扩展到对话、摘要或代码生成等其他领域？此外，当前的熵最小化设置在令牌层面操作——未来的扩展可能考虑整个序列或语义单元的结构化熵，以更好地捕捉高层次的不确定性。结合特定任务的先验或自适应熵正则化也可能有助于进一步释放熵最小化训练的潜力。

此外，熵最小化与隐式置信度校准之间的联系值得深入研究。研究团队的发现表明，熵最小化通过强化高概率推理路径来增强模型置信度。这意味着熵最小化可能作为复杂校准技术的轻量级替代方案，特别是对于解释性和鲁棒性至关重要的任务。开发评估协议以更精确地量化熵最小化的校准效果将是一个重要方向。

### 将熵最小化与其他后训练技术结合

熵最小化在概念上与大多数现有的后训练范式正交，包括监督微调(SFT)和强化学习(RL)。这为混合方法开辟了令人兴奋的机会。例如，可以在SFT之前应用熵最小化以锐化模型的预测分布，提高其对下游监督的接受性。或者，熵最小化可以作为SFT或RLHF期间的正则化策略。

研究团队还注意到，如前面简要探讨的，在强化学习之前应用熵最小化会导致logits分布的有益变化，可能促进更快更稳定的策略优化。对不同的EM+RL调度、课程策略和交互效应的系统研究将有助于阐明整合这些方法的最佳方式。

六、结论

这项研究引入了单样本熵最小化作为大型语言模型的一种简单而强大的后训练方法。仅使用一个未标记示例，Ubiquant的研究团队实现了与依赖大规模监督和精心设计奖励的强化学习方法相当或更好的性能。它完全无监督、高效，并且在几个训练步骤内收敛。

实验表明，熵最小化通过增加正确推理路径的置信度来重塑模型的输出分布，有效增强了预训练知识的实用性。研究团队确定了关键指标（如logits偏度和行为方差），这些指标有助于定位熵敏感输入并指导优化。

这些发现表明，通过置信度校准重组现有知识，而不是获取额外信息，可以显著提高推理性能。因此，熵最小化不仅是一种实用技术，也是一个概念框架，用于推进我们对大型语言模型后训练的理解。

来源：至顶网一点号

标签：训练学习令牌 ubiquant ubiquant团队

本文地址：http://news.43b.com.cn/a/466416.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐