超越80/20法则:少数高熵词决定了大模型推理能力的提升

B站影视 内地电影 2025-06-05 23:44 2

摘要:大模型的推理能力在近年来取得了显著进步,但这些进步背后的机制我们却知之甚少。来自阿里巴巴Qwen团队和清华大学LeapLab的研究人员在2025年6月的最新研究中,通过探索一个全新视角——词元(token)熵模式,揭示了强化学习在提升大模型推理能力过程中的工作

大模型的推理能力在近年来取得了显著进步,但这些进步背后的机制我们却知之甚少。来自阿里巴巴Qwen团队和清华大学LeapLab的研究人员在2025年6月的最新研究中,通过探索一个全新视角——词元(token)熵模式,揭示了强化学习在提升大模型推理能力过程中的工作原理。这项发表在arXiv(arXiv:2506.01939v1)的研究由Shenzhi Wang、Le Yu、Chang Gao等人完成,项目由Bowen Yu领导,Gao Huang和Junyang Lin担任通讯作者。

当我们观察大模型的思维链(Chain-of-Thought, CoT)推理过程时,你可能会惊讶地发现:并非所有词元都同等重要。想象一下在森林中徒步,大部分路径是明确的小道,但偶尔会遇到岔路口,这些岔路口决定了你接下来的行进方向。在大模型的思维中也存在类似现象——研究团队发现,只有约20%的词元具有高熵值(表示高不确定性),这些"高熵少数派"词元就像思维路径上的"岔路口",决定着推理的方向。而剩余80%的低熵词元则像是沿着已确定道路前进的"跟随者"。

通过分析词元熵模式,研究人员发现当使用强化学习训练模型(即RLVR,带可验证奖励的强化学习)时,模型基本保持了基础模型的熵模式,主要调整的是那些高熵词元。这一发现促使研究团队提出了一个革命性的想法:如果强化学习只针对这些"岔路口"词元进行优化,会发生什么?

令人惊讶的是,仅对20%的高熵词元应用强化学习,不仅保持了与完全训练相当的性能,在大模型上甚至取得了更好的效果。在Qwen3-32B模型上,这种方法比传统方法在AIME'25测试集上提高了11.04分,在AIME'24测试集上提高了7.71分。相比之下,如果仅对80%的低熵词元应用强化学习,性能则显著下降。这一发现甚至超越了经典的80/20法则,表明在大模型的推理能力提升中,真正起决定性作用的是那些关键的"高熵少数派"词元。

随着模型规模增大,这种方法的效果更加明显,暗示了强化学习在大模型上的缩放规律。这项研究不仅帮助我们理解大模型的推理机制,也为未来如何更高效地优化大模型提供了新思路。

让我们一起深入了解这项突破性研究的细节,看看"高熵少数派"词元如何引领大模型的推理革命。

一、研究背景:为何需要理解大模型的推理机制?

在人工智能的发展历程中,大型语言模型(LLM)的推理能力已经取得了长足进步,特别是在数学和编程等领域。这些进步很大程度上归功于OpenAI的o1、Anthropic的Claude 3.7、DeepSeek R1、Kimi K1.5和Qwen3等模型采用的测试时缩放方法。这些模型的一个共同关键技术是"带可验证奖励的强化学习"(Reinforcement Learning with Verifiable Rewards,简称RLVR),该方法通过与自动化正确性验证相结合的强化学习目标来优化模型输出。

虽然RLVR已经取得了显著成功,但其背后的工作原理却仍然是个谜。目前的实现方式通常是直接对所有词元进行训练,而不理解哪些词元真正促进了推理能力的提升。这种方法忽略了词元在推理过程中可能扮演的不同功能角色,可能阻碍了进一步的性能提升。

想象一下,如果你在教一个孩子解数学题,你会发现孩子在某些关键决策点上容易犯错——比如选择使用加法还是乘法,或者是否需要考虑负数情况。而在其他步骤,如简单的计算执行上,孩子可能相对轻松。那么,更有效的教学方法不是全面重复每一步,而是集中精力指导那些关键决策点。

这正是Shenzhi Wang和他的研究团队的核心洞察。他们提出了一个新颖的视角:通过词元熵模式来分析RLVR,研究不同熵值的词元如何影响推理性能。词元熵反映了模型在生成该词元时的不确定性程度——高熵表示模型有多种可能的选择且不确定选哪一个,低熵则表示模型对选择非常确定。

就像在迷宫中,有些交叉路口(高熵点)决定了你最终能否到达目的地,而大部分直路(低熵点)只是执行已经决定的方向。理解这些"关键路口"的作用,可能是解锁大模型推理能力的钥匙。

二、词元熵揭示的思维链奥秘

当我们观察大模型生成的思维链时,会发现一个有趣的现象:不是所有词元都是平等的。研究团队使用Qwen3-8B模型生成了AIME'24和AIME'25测试集的回答,收集了超过100万个响应词元,然后分析了每个词元的熵值分布。

这种分析揭示了两个重要的熵模式:

首先,只有少数词元具有高熵值,而大多数词元的熵值很低。具体来说,超过50%的词元熵值低于0.01,而只有20%的词元熵值高于0.672。这就像一本书中,大多数句子都是按照语法规则和上下文流畅地展开,但偶尔会出现需要作者创造性决策的关键点。

其次,最高熵的词元往往充当逻辑连接的桥梁,而最低熵的词元则倾向于完成当前句子部分或构词。通过分析出现频率超过100次的词元,研究人员发现高熵词元通常是像"wait"(等等)、"however"(然而)、"unless"(除非)这样表示转折或转变的连接词,或者像"thus"(因此)、"also"(也)这样表示进展或添加的词,又或者像"since"(因为)、"because"(因为)这样表示因果关系的词。同样,"suppose"(假设)、"assume"(假定)、"given"(给定)和"define"(定义)等词在数学推导中经常出现,用于引入假设、已知条件或定义。

相比之下,低熵词元通常是单词后缀、源代码片段或数学表达式组件,这些都表现出高度确定性。

这种分布模式让研究人员想到了一个形象的比喻:高熵词元就像是思维路径上的"岔路口"(fork),在这些点上模型需要在多个可能的推理方向之间做出选择。而低熵词元则是在已经选定的路径上前进。

为了验证高熵词元作为"岔路口"的角色,研究团队进行了一个巧妙的实验:他们在生成过程中对高熵词元和其他词元分配不同的解码温度。温度参数控制着生成过程的随机性——温度越高,生成越多样;温度越低,生成越确定。

实验结果非常有说服力:降低高熵词元的温度会显著降低性能,而降低低熵词元的温度影响较小。相反,提高高熵词元的温度会带来明显的性能提升,而提高低熵词元的温度甚至会导致模型生成无意义的输出。这表明高熵"岔路口"词元确实需要较高的探索性,而低熵"跟随"词元则需要保持确定性。

这就像在森林中徒步时,你希望在岔路口有足够的探索精神去尝试不同道路,但在确定的路径上则希望稳步前进而不是随意游荡。

三、强化学习如何塑造词元熵模式

既然理解了思维链中的词元熵模式,研究团队进一步探索了RLVR训练如何影响这些模式。他们对Qwen3-14B基础模型应用DAPO(一种先进的RLVR算法)进行训练,然后分析训练过程中熵模式的演变。

研究发现,虽然训练会逐渐改变模型的熵模式,但基础模型的熵模式大体上得到了保留。即使在训练收敛后,基础模型的高熵词元位置与RLVR模型的重叠率仍然高达86.67%。这表明RLVR主要是在基础模型已建立的熵模式框架内工作,而不是创建全新的模式。

更有趣的是,RLVR主要调整的是高熵词元,而低熵词元的熵值变化相对较小。研究人员计算了RLVR前后每个5%熵百分位范围内的平均熵变化,发现基础模型中熵值较高的词元在RLVR后熵值增加更多。这就像是强化学习主要关注那些关键的决策点,而对于已经相当确定的执行步骤则较少干预。

这些观察结果启发研究人员提出了一个大胆的假设:如果RLVR主要影响高熵词元,那么是否可以只针对这些"岔路口"词元进行优化,而忽略其他低熵词元?

四、只优化高熵少数派:突破性的RLVR改进

基于对高熵"岔路口"词元重要性的认识,研究团队开发了一种改进的RLVR方法。传统RLVR对所有词元的策略梯度进行更新,而改进后的方法只保留熵值最高的20%词元的策略梯度,屏蔽其余80%词元的梯度。

实验设置遵循DAPO(Dynamic sAmpling Policy Optimization)的训练方案,这是当前最先进的RLVR算法之一。为了公平比较,两种方法使用相同的超参数,包括clip-higher、动态采样、词元级策略梯度损失和超长奖励塑形。研究使用DAPO-Math-17K作为训练数据集,并在6个标准数学推理基准上进行评估:AIME'24、AIME'25、AMC'23、MATH500、Minerva和OlympiadBench。

实验结果令人惊讶:只保留20%高熵词元的策略梯度不仅没有降低性能,反而在多个基准测试上带来了性能提升。在Qwen3-32B基础模型上,这种方法在AIME'24上提高了7.71分,在AIME'25上提高了11.04分。类似地,在Qwen3-14B上也观察到了性能提升:AIME'24提高了5.21分,AIME'25提高了4.79分。而在Qwen3-8B上,性能基本保持不变。

相比之下,如果只对80%的低熵词元应用强化学习,性能会显著下降,这进一步证明了高熵词元在推理能力提升中的关键作用。

研究团队还尝试了不同比例的高熵词元,发现在合理范围内,性能对比例的选择相对不敏感。将比例从20%降低到10%会导致性能轻微下降,而将比例提高到100%(即传统RLVR)则会导致明显性能下降。这表明选择适当比例的高熵词元可以在探索和训练稳定性之间取得平衡。

通过分析训练过程中的整体熵,研究人员发现保留约20%的高熵词元可以促进有效的探索。将比例调整到10%、50%或100%都会导致整体熵较低,探索减少,性能下降。这表明只有一个关键子集的高熵词元对强化学习中的探索有意义贡献,而其他词元可能中性或甚至有害。

更令人兴奋的是,这种方法表现出强烈的规模扩展趋势——随着模型大小增加,性能提升越明显。这暗示着只关注高熵"岔路口"词元的策略在更大的模型上可能更加有效。

研究团队还探索了这种方法在其他领域的泛化能力。虽然训练主要在数学数据集上进行,但在对域外测试集如LiveCodeBench的评估中,仅保留10%或20%高熵词元的DAPO仍然显著优于传统DAPO。这表明高熵词元可能与推理模型的泛化能力相关。

最后,研究人员将Qwen3-32B模型的最大响应长度从20480增加到29696,这进一步提高了AIME'24的得分,从63.54提升到68.12。这表明该方法的潜力可能尚未完全发挥,更长的上下文长度或更具挑战性的训练数据可能带来更大的性能提升。

五、理解高熵少数派的重要性及其启示

这项研究不仅提出了一种改进RLVR的方法,还为我们理解大模型的推理机制提供了新视角。研究团队在论文讨论部分提出了几个有趣的见解:

首先,高熵少数派词元可能是解释为什么强化学习能够泛化而监督微调(SFT)容易记忆的关键因素。Chu等人的研究表明,强化学习对未见过的基于规则的任务表现出强大的泛化能力,而SFT倾向于记忆训练数据。一个可能的原因是强化学习倾向于保持或增加岔路口词元的熵,维持推理路径的灵活性。相比之下,SFT将输出逼向单一分布,降低了岔路口词元的熵,导致推理路径灵活性的丧失。

其次,与传统强化学习不同,大模型推理融合了先验知识并需要产生可读输出。这导致了思维链中低熵多数词元和高熵少数词元的混合,而传统强化学习可以假设整个轨迹中的动作熵均匀。这种独特的熵模式可能源于大模型对大规模先验知识的预训练和语言流畅性的需求,迫使大多数词元与记忆的语言结构保持一致,产生低熵。只有预训练语料库中本来就不确定的少数词元允许探索,因此表现出高熵。

第三,在RLVR中,熵奖励可能并不是最佳选择,因为它会增加低熵多数词元的熵。相比之下,clip-higher机制(提高εhigh值)能更有效地提升高熵少数词元的熵。实验表明,具有高重要性比率的词元往往具有更高的熵。通过在训练中包含更多这些词元,clip-higher增加了整体熵,而不显著影响低熵词元。

这些发现不仅帮助我们理解大模型的推理机制,也为未来的RLVR算法设计提供了指导。通过关注那些真正影响推理方向的高熵"岔路口"词元,我们可能能够开发出更高效、更有效的训练方法。

六、研究局限性与未来方向

尽管这项研究取得了显著成果,研究团队也坦诚地指出了几点局限性。首先,实验主要集中在Qwen系列模型上,虽然他们尝试在LLaMA-3.1-8B上进行了验证,但该模型在AIME基准测试上的表现相对较差,使得结果不太具有说服力。

其次,实验主要在数学领域进行,未来可以扩展到编程或更复杂的任务如ARC-AGI。此外,研究发现基于特定实验设置,在不同RLVR场景中,观察到的20%有效比例可能需要调整为不同的值。

未来研究方向包括开发新的RLVR算法以更好地利用高熵少数派词元,并探索这些见解如何增强不仅是RLVR,还有监督微调、蒸馏、推理和多模态训练等其他方法。

七、结论:高熵少数派如何重塑大模型推理

这项研究强调了高熵少数派词元在塑造大模型推理能力中的关键作用。通过详细分析词元熵模式,研究人员发现只有一小部分词元表现出高熵,这些词元充当推理路径中的关键决策点或"岔路口"。

研究还揭示了RLVR训练过程中熵模式的演变,发现强化学习主要是在基础模型建立的熵模式框架内工作,主要调整高熵词元的熵值。基于这些发现,研究团队开发了一种改进的RLVR方法,只针对20%的高熵词元进行优化,不仅保持了与传统方法相当的性能,在大模型上甚至取得了更好的效果。

这些发现超越了经典的80/20法则,表明在大模型的推理能力提升中,真正起决定性作用的是那些关键的"高熵少数派"词元。这不仅帮助我们理解大模型的推理机制,也为未来如何更高效地优化大模型提供了新思路。

研究团队的工作强调了从词元熵角度理解RLVR的潜力,并展示了如何通过利用高熵少数派词元来进一步提升大模型的推理能力。这一视角可能为大模型训练带来范式转变,使我们能够更有针对性地优化那些真正影响推理质量的关键决策点。

来源:至顶网一点号

相关推荐