复旦团队大模型推理新思路:Two-Player架构打破自我反思瓶颈

B站影视 2024-12-06 17:39 3

摘要:在AI领域,近期的新闻焦点无疑是关于「Scaling Law 是否撞墙?」的辩论。这一曾经被视作大模型发展的第一性原理,如今却遭遇了挑战。在这样的背景下,研究人员开始意识到,与其单纯堆砌更多的训练算力和数据资源,不如让模型「花更多时间思考」。以OpenAI推出

在AI领域,近期的新闻焦点无疑是关于「Scaling Law 是否撞墙?」的辩论。这一曾经被视作大模型发展的第一性原理,如今却遭遇了挑战。在这样的背景下,研究人员开始意识到,与其单纯堆砌更多的训练算力和数据资源,不如让模型「花更多时间思考」。以OpenAI推出的o1模型为例,通过增加推理时间,这种方法让模型能够进行反思、批评、回溯和纠正,大幅提升了推理表现。

但问题在于,传统的自我反思(Self-Reflection)自我纠正(Self-Correction)方法存在明显局限——模型的表现往往受制于自身能力,缺乏外部信号的引导,因此容易触及瓶颈,止步不前。

单一模型在传统自我纠正与自我优化时往往难以纠正自身,而双模型协作架构下能够获得更有建设性的建议。

针对这些挑战,复旦NLP研究团队提出了一种全新的双模型协作架构(Two-Player Paradigm)。简单来说,就是让评判模型(Critique Model)参与到行为模型(Actor Model)的推理过程中——行为模型专注推理,评判模型则以步骤级别的反馈为行为模型指路。

这种设计打破了传统依赖于单一模型的限制,也让行为模型能够在训练和推理阶段实现自我改进。更重要的是,整个框架无需依赖模型蒸馏过程(例如直接模仿o1的思考过程),而是通过多模型协作互动获得了高质量、可靠的反馈信号,最终实现性能随计算投增大的不断提升。

在这篇工作中,研究团队聚焦以下四个核心内容:

如何自动化构建critique数据集,训练高效、可靠的评判模型(Critique Model);使用评判模型推动测试阶段的扩展(Test-time Scaling);通过交互协作提升行为模型的训练性能(Training-time Scaling);基于critique数据的Self-talk帮助模型自我纠错。

作者们提出了一个创新性框架——AutoMATHCritique,可以自动生成步骤级别的反馈(step-level feedback),并基于此构建了名为MathCritique-76k的数据集,用于训练评判模型。进一步,研究团队深入探讨了评判模型在测试阶段助力推理性能的机制,并通过引入双模型协作架构Critique-in-the-Loop,有效缓解了模型探索与学习的自训练过程中常见的长尾分布问题,为复现OpenAI o1深度推理表现开辟了新的可能性。

AutoMathCritique 自动化、可扩展地构造步骤级Critique数据

为了研究Critique模型在架构中的作用与性能,作者们首先训练了一个可靠的Critique模型。鉴于步骤级别反馈数据的稀缺,作者们提出了一种新的框架AutoMathCritique,用于自动化构造多样性推理数据,并获得步骤级别的反馈。

AutoMathCritique流程:通过多种方式收集错误数据与错误信息,并交由标注模型进行步骤级别标注。在标注完相应问答反馈对后,交由Actor模型进行进一步筛选。

图中,第一个阶段「构建错误推理路径」包含三种策略:

RG1: 直接构建整体推理路径,在高温度下让Actor模型进行重复采样,采样出的数据只会包含最终答案的错误信息;RG2: 以某一条推理路径为模板,在特定的推理步后逐渐提高温度,让 Actor 模型采样出新的轨迹,采样出的数据会包含最终答案的错误信息与错误步骤的位置信息;RG3: 以某一条推理路径为模板,对特定的推理步插入多样化错误内容,让Actor模型继续采样出完整轨迹,采样出的数据会包含最终答案的错误信息与错误步骤的位置与错误信息。

第二个阶段「标注步骤级别反馈」提供了详细的反馈数据:为了更好的提升反馈数据的质量,研究人员将第一阶段获得的各类错误信息交由标注模型,并提供参考答案、错位定位和错误类型信息作为辅助,帮助标注模型提供步骤级别的反馈。

第三个阶段「精筛反馈」筛选出更加高质量的数据:为了进一步筛选出能够更好帮助Actor模型的数据,研究人员将错误推理路径与反馈数据一起输入给Actor模型,根据其修改后答案的正确率决定是否保留。

AutoMathCritique收集到的信息示例。

通过如上方案构建的数据既包含模型本身所可能犯下的错误,又构建了域外错误,使Critique模型能够学习大批量、多样化错误数据。而步骤级别的反馈数据使得Actor模型能够更好的定位自己所犯下的错误,进而提升修改的质量。

使用如上框架,研究团队构建了一个拥有76k数据量的数据集MathCritique-76k,其中既包含了正确推理轨迹又包含了自动化合成的错误轨迹,并且筛选了优质的步骤级别反馈数据用于之后的训练。

MathCritique-76k的数据构成。

Critique模型如何帮助Actor模型提高测试性能?

实验探究:Critique模型在测试时对Actor模型的帮助

基于如上构建的数据集,作者以Llama3-Instruct系列为基座模型,微调了一个专门用于提供步骤级别反馈的Critique模型。其选取了常用的数学推理数据集GSM8K与MATH为测试对象,进行了多种实验。

1. Critique模型对错误的识别率与对Actor模型的帮助

不同Critique模型的推理轨迹正误判断能力与对Actor模型的帮助,Acc.代表Actor模型在不同Critique模型的帮助下能够达到的正确率。

作者选取了两个微调后的模型与SOTA模型作为研究对象,发现Critique模型能够极为有效地识别出推理轨迹的正确与否,并且其所提供的步骤级别反馈能够被Actor模型所用,使得Actor模型能够显著改进自己的错误,以达到更高的正确率。

为了更进一步探究Actor模型是如何受到帮助的,作者将数据集按照Actor模型初始的正确率分为了5个难度,并且比较在不同难度下,有无反馈数据对模型回答正确率的影响。

以Actor模型正确率(采样100次)作为难度分级的指标,使用Critique模型的反馈数据能在更高难度题目下获得更大的帮助。

研究发现Actor模型在几乎各个难度下,正确率均有所提升。而且在难度级别较高的题目中,Actor模型均收到了更大的帮助,表现为正确率的显著提升。这说明,使用Critique模型帮助Actor模型改进其所不会的难题,可以是解决自我提升长尾分布难题的新方法

2. 在Critique模型帮助下增加推理计算投入的性能

有无反馈数据对测试时Majority voting性能的影响,@3K代表采样数量为横坐标的三倍,以控制采样消耗相同。

研究人员进一步探究Critique模型能否在测试时提高Actor模型性能。他们以并行Majority voting的结果作为测试指标,发现即使在控制了相同的采样消耗的情况下,拥有反馈数据依旧能够显著超过没有反馈数据的Actor模型。这说明,加入Critique模型可以作为实现Test-time Scaling的新方法之一

Critique模型如何帮助Actor模型探索与学习?

基于以上在Test-time的发现,研究人员将测试阶段所展现出来的优势用于训练阶段(Training-time)的探索与学习(Exploration & Learning),进一步探究Critique模型能否帮助Actor模型在训练时进行自我优化。为此,他们提出了一个有难度感知的双模型协作优化架构Critique-in-the-loop Self-Improvement,用于获得更高质量、多样化的数据,并缓解自我优化采样时的长尾难题

Critique-in-the-loop Self-Improvement算法伪代码。

研究人员提出了一种双模型协作优化架构。在第一次采样时,Actor模型会在训练集上重复多次采样。针对错误数据,研究人员使用Critique模型辅助Actor模型进行多次自我修正,从而达到了难度感知的目的。每一轮迭代时,Actor模型总会学习正确的数据,从而实现自我提升。

实验探究:Critique模型在训练时对模型性能的影响

1. Critique-in-the-loop能够有效帮助模型自我提升

相比于在训练阶段只使用Actor模型进行采样(Vanilla SI), 使用Critique模型后,Actor模型在测试集正确率上均有显著提升。图中N代表采样次数。

实验发现,Vanilla Self-Improve尽管能在一定程度上提升模型的性能,然而其很快达到瓶颈,甚至开始出现性能的下滑。但是Critique-in-the-loop能够显著改善这一情况,既使得模型的自我提升较为稳定,又能够在多个采样次数下获得相当显著的性能提升。研究人员认为,这与长尾分布难题的缓解密不可分。

2. Critique-in-the-loop能够缓解长尾分布难题

为了进一步证实长尾分布难题获得了缓解,研究人员进一步探究在训练时,不同难度问题的训练数据占总体数据集的比例。

图1 | 相比于Vanilla SI、Critique-in-the-loop在不同难度问题中采样出的训练数据比例变化。图2、图3 | 两者在测试集中,不同难度问题的性能表现比较。

实验发现,Critique-in-the-loop能够更有效地平衡不同难度问题占总体数据集的占比。值得注意的是,难度较高的问题所占的比例出现显著上升,证实了长尾分布难题得到缓解。与此同时,研究团队还分析了测试集上不同难度问题的性能表现。实验结论也说明,在较难问题上模型展现出性能的显著提高。

3. 在测试时使用Critique模型,Critique-in-the-loop能够带来更大的提升

不同训练策略与测试策略的性能性能。训练时,使用了直接微调推理与有反馈的纠正数据,直接微调推理与自我纠正数据,无Critique模型的自我提升以及有Critique模型的自我提升四种方式。测试时,比较了是否使用Critique模型两种方式。

鉴于作者之前所提到的训练与测试时Critique模型的好处,作者进一步分析了两者结合后的效果。实验发现当使用Critique-in-the-loop时,在测试阶段使用Critique模型带来的性能提升较小,说明Critique模型所带来的性能提升已经被融入到了推理模型中。尽管如此,相比于其他训练方案,其性能依旧有显著优势。

深入分析Critique Models

实验探究:Critique模型扩展性(Scaling Properties)

为了探究Critique模型是否对多种模型——尤其是那些模型大小与性能高于自己的Actor模型——做到相类似的帮助,作者固定Critique模型为3B大小的Qwen-2.5模型,并使用不同模型大小的Qwen-2.5系列模型(1.5B、3B、7B、14B)作为Actor模型进行了实验。

不同模型大小的Actor模型在测试赛上正确率表现。其中w/o critic代表不使用Critique模型,w/orcale代表仅对原始回答错误的数据进行修正。

实验结论发现,无论何种模型大小, Critique模型的存在均能显著提升模型测试性能。然而,在较为简单的数据集GSM8K上,更大的模型获得的帮助不如较小的模型;但在较为困难的数据集MATH上,性能的提升依旧显著。

实验探究:Critique模型对Majority Voting性能的影响

作者进一步探究Critique模型对Majority Voting性能的影响,探究当采样次数更大时的表现。

对Actor模型采样1000次后的性能图,问题按照通过率由低到高进行排序,其中红色部分表示该问题在Majority Voting下依旧做错。

研究发现,拥有Critique模型的情况下,Actor模型在整体上提高了问题的正确率,从而带来了Majority Voting的稳定性。另外,作者们还发现,不使用Critique模型时,尽管Actor模型会给出占比较多的正确答案,然而非正确答案却拥有更高的占比;而拥有Critique模型时, Actor模型最终修改给出的答案更为一致,使得正确答案的占比会超过某些出现频率较高的错误答案,帮助模型能够更好的选出正确答案。

实验探究:不同计算投入策略对性能的影响

作者继续探讨了多种计算提升消耗策略下Actor模型的表现。实验使用了并行采样与线性采样两种方式,并且比较了Pass@k、Majority Voting以及Sequential Final(仅选取最终答案)三种方式。

图1、图2 | 线性与并行采样策略下,模型的Pass@k表现;图3、图4 | 不同采样策略下模型的Majority voting表现。横坐标表示采样样本的数量。

实验结果发现,在Pass@k的设定下,线性采样的表现略低于并行采样,这可能源于并行采样会带来更多样化的答案选择。而在模型需要给出答案的设定下,仅选取最终答案并不如Majority voting的表现要好,强调了内在一致方式的重要性;随着采样次数的提高,线性采样的性能超过了并行采样的方式,这有可能源于当采样次数足够大时,并行采样带来的多样性答案可能有害于最终的性能表现,而线性采样通过反复修改一个回答,使得结果更加稳定。

A Step Further 基于Critique数据构建Self-talk模型帮助自我纠错

最后,受到OpenAI o1模型的推理启发,研究人员进一步探究Self-talk形式帮助模型自我纠错的可能性。Self-talk形式帮助模型在每一个推理步骤后立刻开始反思与改进,而不必等整个轨迹生成完之后再进行改进。

Self-talk形式数据构建示意图。

图中,第一个阶段用于「构建初始反馈数据」。研究人员使用 AutoMathCritique框架构建步骤级别的反馈数据,并加入到推理路径中,形成初始的思维链。

第二个阶段用于「循环修正错误思考链」。第一阶段中的数据存在着错误的推理路径,研究人员使用Critique模型帮助Actor模型生成新的推理路径,并将反馈数据同样加入到推理路径中逐步生成思维链,直到整个推理路径没有错误为止。

第三个阶段用于「优化思考链为Self-talk形式」。前两阶段得到的思考链较为生硬,因此研究人员进一步使用模型优化思维链,使其变为自然的Self-talk形式,并保证了最终答案的正确性。

Self-talk形式数据示例。

使用如上构建的数据,研究人员训练了一个Self-talk模型。初步实验发现,相比于轨迹级别的自我改进,Self-talk格式能够显著改善模型性能。尽管表现不如所提出的双模型合作架构,然而这也揭示了其潜能所在。

在MATH数据集上三种方法的各种指标,分别使用轨迹层面的自我改进,步骤层面的自我对话改进以及双模型协作架构。实验比较了正确率、Pass@k和MV@k三个指标。

总结

本文的主要贡献包括:

--机器之心

来源:Future远见

相关推荐