让大语言模型通过段级信用分配更高效地学习推理能力

B站影视 电影资讯 2025-06-09 15:36 2

摘要:近日,由中国科学院软件研究所的郭奕然、徐莉杰、刘杰、叶丹以及香港城市大学的邱爽共同完成的一项开创性研究《段级策略优化:大语言模型强化学习中的有效段级信用分配》(Segment Policy Optimization: Effective Segment-Lev

近日,由中国科学院软件研究所的郭奕然、徐莉杰、刘杰、叶丹以及香港城市大学的邱爽共同完成的一项开创性研究《段级策略优化:大语言模型强化学习中的有效段级信用分配》(Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models)发表于arXiv(arXiv:2505.23564v1),引发了学术界的广泛关注。这项研究提出了一种全新的强化学习框架,为解决大语言模型(LLM)推理能力培养中的信用分配问题提供了创新思路。

强化学习(RL)已经成为训练最先进推理大语言模型的基石,如OpenAI o1、DeepSeek R1、Kimi K1.5和Qwen3等模型都证明了RL在培养复杂推理能力方面的独特价值。但在训练过程中,研究人员面临一个根本性挑战:如何准确地将成功或失败归因于序列中的各个动作,即所谓的"信用分配"问题。特别是在LLM的情境下,由于奖励稀疏且延迟,这一挑战更为严峻。

想象一下,如果你正在教一个人解决数学问题,当他最终得到正确答案时,你需要明确指出哪些思考步骤是正确的,哪些是需要改进的。传统的强化学习方法在这方面面临两个极端:要么对每一个微小步骤都给出反馈(就像对每一个计算符号都评价一次),要么只对最终答案给予评价(不管中间过程如何)。这两种方法各有其局限性。

现有的强化学习方法主要在两个极端的粒度上进行优势估计:一种是基于词元级别(如PPO),另一种是基于轨迹级别(如GRPO)。词元级方法试图为每个词元提供细粒度的优势信号,但由于难以训练准确的评论家模型,往往导致估计不准确。而轨迹级方法则仅依赖最终奖励提供粗粒度的优势信号,导致信用分配不精确。

为了解决这些限制,研究团队提出了段级策略优化(SPO)框架,它在中间粒度上利用段级优势估计,在词元级和轨迹级之间取得了更好的平衡。SPO提供比轨迹级方法更精确的信用分配,同时比词元级方法需要更少的估计点,从而能够基于蒙特卡洛(MC)方法进行准确的优势估计,无需依赖评论家模型。

简单来说,SPO就像是在阅读一篇长文章时,不是对每个单词都做笔记(太细),也不是只看最后一段总结(太粗),而是将文章分成几个自然段落,对每个段落进行评价。这种方法既能捕捉到足够详细的信息,又不会让评价工作变得过于繁重。

SPO框架包含三个核心组件,每个组件都采用了创新策略:

第一,灵活的段落划分。SPO可以根据不同的需求和任务特点,采用不同的策略将生成的序列划分为连续的段落。这种划分不要求语义上的完整性,使得框架能够在词元级和轨迹级之间灵活调整粒度。

第二,准确的段落优势估计。通过蒙特卡洛方法,SPO直接从策略中获取无偏的段级优势估计,避免了训练额外评论家模型的复杂性和不稳定性。

第三,使用段落优势进行策略优化。SPO提出了一种新颖的概率掩码策略,可以将段级优势更精确地分配给段内的关键词元,而不是均匀地分配给所有词元。

研究团队基于SPO框架设计了两个专门的实例,分别针对短链思维(CoT)和长链思维场景:

SPO-chain专为短链思维设计,采用基于分界点的段落划分和基于链的优势估计。在GSM8K数据集上,SPO-chain比PPO和GRPO的准确率分别提高了6-12个百分点。

SPO-tree专为长链思维设计,采用基于树的优势估计,显著降低了蒙特卡洛估计的成本。在MATH500数据集的2K和4K上下文评估中,SPO-tree比GRPO的准确率提高了7-11个百分点。

这项研究的创新之处在于找到了一个"恰到好处"的信用分配粒度。就像烹饪中的火候掌握——太大的火会烧焦食物,太小的火又会导致烹饪时间过长,只有适中的火候才能让食物恰到好处。SPO找到了这种平衡,既保证了足够精细的信用分配,又避免了过于细粒度带来的计算负担和估计偏差。

研究结果表明,SPO在数学推理任务上取得了显著的性能提升,为大语言模型的强化学习训练提供了更高效、更精确的方法。这种方法不仅可以应用于数学推理,也有望扩展到代码生成、RLHF等更广泛的场景。

一、SPO的理论基础与技术创新

要理解SPO的创新之处,我们需要先了解强化学习中的信用分配问题。想象一下,你在玩一个复杂的棋盘游戏,最终赢得了比赛。但问题来了:是哪些具体的落子帮助你获胜的?是开局的策略?中盘的牺牲?还是收官时的精妙配合?将胜利的"功劳"准确分配给每一步棋,这就是信用分配问题的核心。

在大语言模型的强化学习训练中,现有方法主要分为两类:词元级方法和轨迹级方法。词元级方法如PPO使用评论家模型为每个生成的词元估计优势值。然而,由于每个提示词产生的状态变化很大,且每个提示词的数据有限,评论家模型很难准确预测状态值。研究者Kazemnejad等人在2024年的工作中提供了大量证据,表明这种困难导致评论家模型产生不可靠的值预测,从而导致次优的信用分配。此外,PPO需要维护一个与演员模型大小相当的独立评论家模型,这使得内存占用和计算成本翻倍,不利于大规模训练。

另一方面,轨迹级方法如GRPO(群体相对策略优化)绕过了评论家模型,仅基于最终结果为整个生成序列计算单一优势值。虽然这种方法在计算上更高效且无偏,但它导致对长序列的信用分配不精确。对大量词元应用单一优势信号,使模型难以识别哪些特定动作产生积极或消极贡献,导致模型无法奖励部分进展或学习低效的解决路径。此外,实验结果发现GRPO在固定训练集上很快出现过拟合,独特响应数量减少,验证集性能早期饱和。

SPO的核心创新在于引入了段级优势估计,位于词元级和轨迹级之间的中间粒度。SPO将生成的序列划分为连续段落,并在这个中间粒度上估计优势。这种段级估计提供了几个关键优势:

首先,它改进了信用分配。与轨迹级方法相比,段级反馈提供了更局部化的信息,允许信用分配到更短的段落。这种更精细的粒度使模型能够奖励最终不成功响应中的部分进展,并惩罚成功响应中的冗余或不必要部分。

其次,它实现了更准确的优势估计。与词元级优势相比,段级优势涉及更少的估计点。这使SPO能够利用有效的蒙特卡洛采样,直接从策略中获得准确无偏的优势估计,从而消除了对额外、不稳定的评论家模型的需求。

第三,它提供了灵活性和适应性。段划分方法可以任意定义,不需要语义上的完整性,提供了从词元级到轨迹级的灵活粒度调整,使其适用于广泛的任务。

可以把SPO比作阅读一本复杂的书:词元级方法相当于对每个单词都做详细笔记(过于繁琐且容易丢失大局观),轨迹级方法相当于只看最后一章总结(太过笼统,丢失了关键细节),而SPO则是将书分成若干章节,对每章进行评价和分析,既保留了足够的细节,又不会迷失在过多的信息中。

二、SPO框架的组成部分

SPO框架由三个关键组件组成:灵活的段落划分、基于蒙特卡洛的段落优势估计,以及使用段落优势进行策略优化。这种模块化设计允许在每个组件内实现各种策略,使框架高度适应不同的任务和场景。

首先,让我们了解段落划分。在SPO中,段落被定义为一系列连续生成的词元。给定一个完整生成的轨迹(如一段完整的文本或解题过程),SPO可以采用不同的策略将其划分为多个段落。最简单的方法是固定词元数量划分,即每隔固定数量的词元设置一个段落边界。但研究团队还提出了更高级的自适应分界点划分策略,通过累积一定数量的低概率词元(即概率低于阈值的词元)来定义段落。这种策略自适应地在值可能发生变化的位置放置段落边界,避免了固定词元数量划分策略中,当每个段落较短时值可能在段落边界保持不变的问题。

段落优势估计是SPO的第二个关键组件。研究团队采用蒙特卡洛方法直接从采样轨迹中估计段落值,而不依赖评论家模型。具体来说,对于每个段落边界状态,独立采样多条轨迹,并通过平均这些采样轨迹的回报来估计该状态的值。段落优势则通过相邻段落边界状态值的差异计算得出。

这就像是在一场足球比赛中,不仅看最终比分,也不需要对每次传球都评分,而是将比赛分为上半场和下半场,分别评估球队在每个半场的表现。如果球队在上半场领先2:0,下半场结束时总比分是2:1,那么就可以认为上半场的表现贡献了积极的优势(+2),而下半场的表现则产生了轻微的负面影响(-1)。

第三个组件是使用段落优势进行策略优化。一旦计算出段落优势,SPO可以采用不同的策略更新模型参数。最直接的方法是将段落优势分配给段落内的所有词元,然后使用PPO损失函数进行优化。但研究团队还提出了一种改进版本:基于概率掩码的策略梯度。这种方法不是均匀地将优势分配给段落内的所有词元,而是专门将优势分配给低概率词元,基于这些词元主要贡献了段落优势的直觉。这种精细的方法进一步增强了对关键词元的信用分配。

这就像是在评价一篇文章时,不是对每个单词都给予同等的关注,而是特别关注那些关键词和转折点,因为这些元素对文章的整体质量影响最大。

三、SPO的特定实例应用

基于SPO框架,研究团队设计了两个专门的实例,分别针对短链思维和长链思维场景。

SPO-chain专为短链思维设计,其特点是计算开销较低,段落通常包含较少数量的词元。SPO-chain采用自适应分界点划分策略,基于链的段落优势估计,以及使用概率掩码的策略梯度优化。

在自适应分界点划分中,SPO-chain首先识别分界点,即词元概率低于预定阈值的位置。这些分界点代表模型推理轨迹可能分歧的位置,因此可能导致值的变化。为了更好的信用分配,SPO-chain更倾向于让每个段落包含更少的分界点。给定固定的段落数量K,通过解决一个优化问题来寻找反映这一原则的划分,最终结果是均匀分布分界点,使每个段落包含相同数量的分界点。

在短链思维场景中,蒙特卡洛估计的计算开销通常是可管理的。因此,SPO-chain采用简单的基于链的蒙特卡洛采样方法。具体来说,在每个段落边界状态,独立采样N条轨迹,然后通过平均这些采样轨迹的回报来估计该状态的值。段落优势通过相邻段落边界状态值的差异计算得出。

最后,对于策略优化,SPO-chain使用带概率掩码的策略梯度方法。由于段落间值变化主要由分界点处的词元引起,SPO-chain仅将段落优势分配给这些关键词元,而不是均匀地分配给段落内的所有词元。

这就像是在评价一段舞蹈表演时,特别关注那些技术难度高的动作和转换点,而不是对每一个小步伐都给予相同的权重。

SPO-tree则专为长链思维设计,其主要创新点在于基于树的段落优势估计方法。这种方法显著降低了蒙特卡洛估计的计算成本,使其能够有效扩展到长链思维场景。

在长链思维场景中,每个段落通常包含大量词元。因此,不太可能整个段落内的所有词元转换都有接近1的概率。所以SPO-tree采用固定词元数量的划分策略,在固定词元间隔处设置段落边界,生成具有相等词元数量的段落。

基于树的段落优势估计是SPO-tree的核心创新。基于链的策略在估计值后丢弃采样,在涉及长推理轨迹的场景中导致样本的大量浪费。为解决这个问题,SPO-tree提出了一种基于树的段落优势估计策略,它在策略优化中重用用于值估计的样本,显著提高了样本效率。

具体来说,SPO-tree将轨迹采样过程建模为树结构。每个节点代表一个段落,是通过扩展其父节点的序列并添加新采样的词元生成的。共享同一父节点的节点形成一个组,具有相同的提示词和序列长度(叶节点除外)。这种层次组织便于在每个组内计算优势。与基于链的段落优势估计策略相比,树中的每个节点(段落)都可以用作训练示例,大大提高了样本效率。此外,由于轨迹间的广泛节点共享,实际需要采样的词元数量远少于所有轨迹词元总和,大大减少了采样开销。

这就像是在解决一个迷宫问题时,不是每次都从头开始尝试新路径,而是构建一个决策树,每次在分叉点做出不同选择,从而高效地探索多条可能路径,避免重复走已经探索过的部分。

四、实验结果与性能提升

为了评估SPO的有效性,研究团队在数学推理任务上进行了广泛的实验。

首先,对于短链思维场景,研究团队使用RhoMath 1.1B模型在GSM8K数据集上评估了SPO-chain。结果表明,SPO-chain在GSM8K测试集上实现了最高的准确率,比PPO和GRPO高出6-12个百分点。与VinePPO相比,SPO-chain不仅提供了更高的准确率,而且在生成轨迹时所需的时间更少,这是因为SPO-chain每条轨迹的优势估计点更少。此外,与GRPO相比,SPO-chain在相同的实际时间内显著提高了验证性能,并最终收敛到更好的解决方案。

段落粒度对最终模型性能的影响也进行了深入研究。实验结果表明,间隔为2的配置略优于间隔为5的配置,而间隔为100的配置显著差于5。这表明使用过于精细的间隔提供有限的好处,而过于粗糙的间隔则会严重降低准确率。这些发现支持了段级优势方法的设计:词元级优势仅比段级优势提供微小的改进,而轨迹级优势则表现出明显的劣势。

不同段落划分策略的比较结果也证明了自适应分界点划分策略的有效性。尽管采样预算最小,SPO-chain仍实现了最佳测试准确率,这验证了基于分界点的段落划分策略的有效性。

对概率掩码优化策略的消融研究显示,移除概率掩码技术导致SPO-chain的准确率从56.7%降至55.0%。有趣的是,将概率掩码技术应用于GRPO也显著提高了其准确率,从45.7%提升至53.6%。研究团队推测,使用概率掩码技术能够更精确地将信用分配给最可能影响模型推理轨迹的词元,同时将概率接近1的词元的损失掩盖,从而有助于减少过拟合。

对于长链思维场景,研究团队使用DeepSeek-R1-Distill-Qwen-1.5B模型在MATH数据集上评估了SPO-tree。实验初始阶段限制训练上下文窗口大小为2K,并在每10次迭代后评估模型在MATH500上的准确率。结果显示,SPO-tree在整个训练过程中始终优于GRPO,验证了利用更细粒度信号的好处。

进一步研究中,研究团队从2K检查点继续训练并将模型上下文长度扩展到4K。结果表明,SPO-tree在所有上下文大小下始终优于GRPO,并在2K和4K上下文(即训练时使用的上下文长度)下实现了卓越性能。研究团队推测,段级优势方法显著提高了词元效率,归因于更精确的信用分配,使模型能够更直接地得出正确答案。这种改进在有限上下文大小下带来了明显更好的性能。

不同树结构和优势计算方法的比较也进行了研究。结果表明,不同树结构(4-4-4、6-6-6、8-8-8)的性能差异在相同实际时间下并不显著,表明树结构具有鲁棒性。较小的树结构在初期实现更高的准确率,可能是因为它们在相同时间内能处理更多数据示例。然而,较大的树结构最终在后期训练阶段表现更好,因为它们能够实现更准确的值估计,并受益于每个组内更多的段落,从而产生更可靠和细微的优势估计。

五、SPO的启示与未来展望

SPO的研究成果为大语言模型的强化学习训练提供了新的视角和方法。它找到了一个介于词元级和轨迹级之间的平衡点,实现了更精确的信用分配和更高效的训练。

从更广泛的角度看,SPO的成功启示我们,在机器学习中,找到适当的抽象级别和粒度往往比简单地追求极端(过于细致或过于粗略)更为重要。这就像在教育中,既不是对学生的每一个微小行为都给予反馈,也不是只关注期末考试成绩,而是在合适的学习阶段给予有针对性的反馈,帮助学生更有效地进步。

SPO框架的灵活性和模块化设计使其有潜力应用于更广泛的场景。虽然当前研究主要集中在数学推理任务上,但SPO的原则可以扩展到代码生成、人类反馈的强化学习(RLHF)等其他领域。

未来研究可能会探索以下几个方向:

首先,开发更高级的段落划分策略,可能结合语义信息或任务特定知识,以更智能地划分序列。这就像是在阅读理解中,不仅按照段落机械地划分文本,而是根据内容的语义边界进行更有意义的划分。

其次,研究更高效的蒙特卡洛采样方法,进一步降低计算成本,使SPO能够更容易地扩展到更大的模型和更复杂的任务。这类似于在统计调查中,不是简单地增加样本数量,而是优化采样策略,以较少的样本获得更可靠的结果。

第三,将SPO与其他优化技术结合,如异步RL或分布式训练,以进一步提高训练效率。这就像是在团队协作中,不仅优化单个成员的工作方式,也优化整个团队的协作流程。

第四,探索将SPO与过程奖励模型集成,结合两种方法的优势,提供更丰富、更细致的反馈信号。这类似于在教育评估中,结合形成性评估(过程中的反馈)和总结性评估(最终结果),给学生提供更全面的指导。

SPO的研究不仅提供了一种更有效的训练方法,也深化了我们对大语言模型学习过程的理解。通过更精确的信用分配,我们能更好地理解模型在推理过程中的行为和决策,为解释性AI和可靠AI的发展提供了新的思路。

总的来说,段级策略优化(SPO)代表了强化学习在大语言模型训练中的一个重要进步。它通过在适当的粒度上进行信用分配,既避免了词元级方法的复杂性和不稳定性,又克服了轨迹级方法的粗糙性和不精确性,为培养大语言模型的复杂推理能力提供了更有效的路径。

来源:至顶网一点号

相关推荐