摘要:这项由东南大学的武永亮、周一舟等多位研究者组成的国际团队完成的研究,于2025年8月发表在arXiv预印本平台上。研究团队来自东南大学、加州大学洛杉矶分校、上海交通大学、南洋理工大学、加州大学伯克利分校等多所知名高校。有兴趣深入了解的读者可以通过arXiv:2
这项由东南大学的武永亮、周一舟等多位研究者组成的国际团队完成的研究,于2025年8月发表在arXiv预印本平台上。研究团队来自东南大学、加州大学洛杉矶分校、上海交通大学、南洋理工大学、加州大学伯克利分校等多所知名高校。有兴趣深入了解的读者可以通过arXiv:2508.05629v1访问完整论文。
当我们谈到人工智能的训练时,就像在说如何教会一个学生掌握新技能。目前主要有两种教学方法:一种叫监督微调(SFT),就像给学生一本标准答案,让他照着抄写练习;另一种叫强化学习(RL),就像让学生不断尝试,根据做得好不好给予奖励或惩罚。
长期以来,人工智能领域的研究者发现了一个令人困扰的现象:虽然监督微调方法简单易用,学生能快速模仿出标准答案的样子,但在面对新问题时往往表现不佳,就像只会背书却不会灵活应用的学生。相比之下,强化学习虽然训练过程复杂耗时,但培养出的学生面对陌生问题时表现更好,具有更强的举一反三能力。
这就像两种不同的学习方式:死记硬背vs灵活思考。前者虽然能让学生快速在考试中取得不错成绩,但遇到题型稍有变化就束手无策;后者虽然学习过程艰难,但能培养出真正的理解能力和创新思维。
研究团队决定深入探究这个问题的根源。他们想弄明白:为什么看似简单有效的监督微调方法,在实际应用中会表现出这种局限性?能否找到一种方法,既保持监督微调的简单易用,又能获得强化学习般的优秀表现?
经过深入的数学分析,研究团队发现了一个惊人的真相:监督微调方法在本质上就是一种伪装的强化学习,但它使用了一种极其糟糕的奖励机制。这就像一个老师在评分时,越是学生答错的题目,反而给予越高的关注度和权重。这种颠倒的激励机制导致学生过度关注那些本来就做不好的地方,反而忽视了真正重要的学习目标。
基于这一发现,研究团队提出了一种名为动态微调(DFT)的新方法。这个方法的核心思想极其简单:只需要在原有的训练过程中增加一行代码,就能彻底改变训练的效果。具体来说,就是根据模型对每个答案的信心程度来动态调整学习的权重,让模型把更多注意力集中在它确实能学好的地方,而不是在那些它暂时无法理解的难点上纠结不清。
一、传统训练方法的隐藏陷阱
要理解这项研究的价值,我们需要先了解传统训练方法存在什么问题。
监督微调就像是让学生照着标准答案抄写。老师给出一堆题目和对应的标准答案,学生的任务就是尽可能准确地复制这些答案。这种方法的好处是简单直接,学生能很快上手,在短时间内在训练题目上取得不错的成绩。
但问题在于,这种训练方式暗含着一个扭曲的评分机制。研究团队通过数学分析发现,监督微调在计算学习目标时,会给那些学生答得越不好的题目分配越高的权重。
这就好比一个奇怪的老师,看到学生在某道数学题上答错了,就反复让学生在这道题上花费十倍甚至百倍的时间,而对于学生已经掌握得不错的题目却几乎不关注。这种教学方式的后果是学生会过度纠结于自己暂时无法理解的难题,反而对整体的学习目标产生偏差。
更糟糕的是,这种权重分配机制具有极不稳定的特性。当学生对某个答案的信心很低时,系统分配给它的权重会急剧增加,就像一个失控的放大器。这种不稳定性导致训练过程中出现剧烈的波动,学生可能会在某些极端情况下完全迷失方向。
研究团队发现,这正是监督微调泛化能力差的根本原因。学生过度关注那些它暂时无法处理的边缘案例,反而忽视了对核心知识的掌握。结果就是在考试中,面对与训练题目稍有不同的新问题时,学生往往表现得手足无措。
相比之下,强化学习采用了一种更加合理的学习机制。它不是简单地要求学生复制标准答案,而是根据学生答题的好坏程度给予相应的奖励或惩罚。这种方式下,学生会逐渐学会如何在各种不同的情况下做出合适的回应,而不是机械地背诵固定答案。
但强化学习也有自己的问题。它需要一个明确的评分标准(奖励函数),需要大量的试错过程,计算成本高昂,而且训练过程往往不够稳定。就像一个严格的教练,虽然能培养出优秀的运动员,但训练过程艰苦,需要投入大量时间和资源。
研究团队意识到,如果能找到一种方法,既保持监督微调的简单高效,又能避免其固有的权重分配问题,就能在两种方法之间找到一个完美的平衡点。
二、数学分析揭示的真相
研究团队并没有仅仅停留在直观的观察上,而是通过严格的数学推导,揭示了监督微调和强化学习之间的深层联系。
他们发现,监督微调的梯度更新过程实际上可以完全等价于一个特殊的强化学习过程。在这个等价的强化学习框架中,奖励函数非常简单:如果学生的答案与标准答案完全一致,就给1分,否则给0分。这看起来似乎很合理,但问题出现在权重分配上。
在这个等价的强化学习框架中,每个学习样本的权重不是固定的1,而是与学生对该答案的信心程度成反比。具体来说,如果学生对某个答案的信心是p,那么这个答案在训练中的权重就是1/p。这意味着学生越没把握的答案,在训练中得到的关注度反而越高。
研究团队用一个生动的比喻来解释这个现象:假设一个学生在考试中遇到100道题目,其中90道题目他都有90%的信心答对,但有10道题目他只有10%的信心。按照监督微调的逻辑,这10道没把握的题目将占据90%的学习时间和注意力,而那90道本来就掌握得不错的题目反而被边缘化了。
这种权重分配机制带来了两个严重问题。第一个问题是方差爆炸。当学生对某个答案的信心接近于0时,权重1/p会趋近于无穷大,导致训练过程变得极不稳定。这就像一个失控的音响系统,微小的输入信号被无限放大,产生刺耳的噪音。
第二个问题是学习偏差。由于过度关注那些低信心的样本,学生会逐渐形成一种扭曲的学习模式:总是试图去解决那些它暂时无法理解的问题,而忽视了巩固和提高已有的知识基础。这种学习方式不仅效率低下,还会导致整体知识结构的不平衡。
通过这种数学分析,研究团队不仅解释了为什么监督微调的泛化能力较差,还为解决这个问题指明了方向:只需要消除这种有害的权重分配机制,就能大幅改善训练效果。
三、动态微调的巧妙设计
基于对问题根源的深入理解,研究团队提出了一个极其巧妙而简单的解决方案:动态微调(DFT)。
这个方法的核心思想是对传统的监督微调进行一个简单的修正。在计算每个训练样本的损失时,不再使用原始的权重1/p,而是将其乘以p,这样就恰好抵消了有害的反比权重,使得每个样本的权重变成均匀的1。
用更直观的话来说,就是让学生对每道题目给予同等的关注度,不再因为某道题目暂时做不好就过分纠结。这种调整让学习过程变得更加均衡和稳定。
从实现角度来看,这个改进几乎是微不足道的。研究团队只需要在原有的代码中添加一行计算,将损失函数乘以模型对当前答案的概率值。这个概率值可以直接从模型的输出中获得,不需要额外的计算或存储开销。
但这一行代码带来的改变是革命性的。通过这种简单的修正,训练过程不再受到不稳定权重的干扰,学生能够更加均衡地学习每一个样本,从而获得更好的泛化能力。
有趣的是,经过这种修正后的监督微调,在强化学习的等价框架中,所有正确答案的奖励都变成了统一的1。这就像一个公平的老师,对每一个正确答案都给予同等的认可,不会因为学生原本就有信心而降低评价。
研究团队还发现,这种设计与最近一些成功的强化学习方法在思路上不谋而合。例如,一些基于验证的奖励系统也采用了为所有正确答案分配相同奖励的策略。这种巧合进一步验证了他们方法的合理性。
为了确保数值稳定性,研究团队还采用了一个技术细节:在计算概率权重时使用停止梯度操作。这意味着这个权重只是用来调整损失的大小,而不会影响反向传播的方向。这个细节确保了训练过程的稳定性,避免了可能出现的数值问题。
四、实验验证的惊人效果
为了验证新方法的有效性,研究团队进行了大规模的实验。他们选择了数学推理这个对AI来说特别具有挑战性的任务,因为数学问题需要严密的逻辑思维和精确的推理能力,是测试AI泛化能力的理想场景。
实验使用了NuminaMath数据集,这是一个包含约86万个数学问题的大型数据集,涵盖了从中国高中数学到国际数学奥林匹克竞赛的各种难度级别。为了平衡计算效率,研究团队随机选择了其中的10万个样本进行训练。
测试模型包括了当前最先进的几个大语言模型:Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、LLaMA-3.2-3B、LLaMA-3.1-8B,以及DeepSeekMath-7B-Base。这些模型在参数规模和架构设计上各有特色,能够全面验证新方法的通用性。
评估标准采用了五个具有代表性的数学推理基准:Math500、Minerva Math、奥林匹克竞赛题目、2024年AIME竞赛、以及2023年AMC竞赛。这些基准从基础数学到竞赛级难题,全面覆盖了不同难度层次。
实验结果令人震惊。在几乎所有的模型和基准组合中,动态微调都展现出了压倒性的优势。
以Qwen2.5-Math-1.5B模型为例,传统监督微调相比基础模型平均只提升了2.09个百分点,而动态微调却实现了15.66个百分点的提升,是传统方法效果的7.5倍。这种差距不是微小的改进,而是质的飞跃。
更令人印象深刻的是,在一些极具挑战性的基准测试中,传统监督微调甚至出现了负面效果。例如,在奥林匹克竞赛题目上,传统方法让Qwen2.5-Math-1.5B的准确率从15.88%下降到12.63%,显示出明显的过拟合现象。但动态微调却将准确率提升到27.08%,实现了11.2个百分点的显著改进。
类似的情况也出现在其他高难度基准上。在2024年AIME竞赛中,传统监督微调让Qwen2.5-Math-7B的表现从6.68%下降到2.48%,而动态微调却提升到8.56%。在2023年AMC竞赛中,传统方法对Qwen2.5-Math-1.5B几乎没有改善(从19.38%到18.75%),但动态微调实现了惊人的提升(到38.13%)。
这些结果清楚地表明,传统监督微调在面对复杂推理任务时确实存在严重的过拟合问题,而动态微调有效地解决了这个问题,展现出了优秀的泛化能力。
研究团队还分析了训练过程中的学习曲线,发现动态微调不仅最终效果更好,学习过程也更加高效。新方法通常在前120个训练步骤内就能达到peak性能,而传统方法需要更长时间才能收敛,且最终效果仍然不如新方法。
更重要的是,动态微调在训练早期就展现出了优越性。在许多情况下,新方法在前10-20个训练步骤中取得的效果,就已经超过了传统方法的最终表现。这种快速收敛特性不仅提高了训练效率,还降低了计算成本。
五、与其他先进方法的比较
为了更全面地评估动态微调的性能,研究团队还将其与最新的其他改进方法进行了详细比较。
首先是与重要性加权监督微调(iw-SFT)的对比。这是另一个试图改进传统监督微调的concurrent方法,通过引入数据生成策略的重要性权重来优化训练过程。
比较结果显示,动态微调在大多数情况下都优于重要性加权方法。在LLaMA-3.2-3B上,动态微调比iw-SFT平均高出2.39个百分点;在LLaMA-3.1-8B上优势达到4.15个百分点;在DeepSeekMath-7B上领先3.34个百分点;在Qwen2.5-Math-1.5B上也有1.30个百分点的优势。
特别值得注意的是,iw-SFT在某些情况下表现出不稳定性。在LLaMA模型上,该方法有时甚至不如传统的监督微调。例如,在LLaMA-3.2-3B的Math500基准上,iw-SFT的准确率为5.13%,而传统SFT能达到8.65%。这种不一致的表现表明iw-SFT可能对特定的模型架构或数据分布比较敏感。
相比之下,动态微调展现出了更强的鲁棒性,在所有测试的模型和基准上都能稳定地超越基线方法。
研究团队还探索了动态微调在离线强化学习场景中的应用。在这种设置下,他们拥有正负样本对或密集的奖励信号,可以与其他强化学习方法进行直接比较。
实验使用了拒绝采样微调(RFT)的框架,从基础模型对1万个数学问题生成4个回答,然后使用数学验证工具筛选出正确答案作为训练数据。这样得到了约14万个训练样本。
在这种设置下,动态微调与多种主流强化学习方法进行了对比,包括离线方法DPO和RFT,以及在线方法PPO和GRPO。
结果再次证明了动态微调的优越性。该方法平均准确率达到35.43%,比最好的离线方法RFT高出11.46个百分点,甚至超过了最强的在线强化学习方法GRPO(32.00%)3.43个百分点。
这个结果特别令人印象深刻,因为在线强化学习方法通常被认为具有更强的性能,但需要更复杂的训练流程和更高的计算成本。动态微调能够用更简单的方式达到甚至超越这些方法的效果,展现了其巨大的实用价值。
在具体基准上的表现也很出色。在Math500上,动态微调达到64.71%,略优于GRPO的62.86%,明显优于PPO的56.10%和RFT的48.23%。在更具挑战性的AMC23基准上,优势更加明显:48.44%的准确率比GRPO高出7.19个百分点,比RFT高出17.66个百分点。
六、深入分析训练机制的改变
为了更好地理解动态微调为什么如此有效,研究团队深入分析了新方法如何改变模型的学习行为。
他们检查了训练前后模型在训练集上的token概率分布变化,发现了一个有趣的现象:传统监督微调倾向于均匀地提高所有token的概率,试图让模型对训练数据的每个部分都更加确信。这种行为表面上看起来合理,但实际上可能导致模型过度拟合训练数据的细节。
相比之下,动态微调展现出了一种更加"智能"的学习模式。该方法会显著提升某些token的概率,同时主动降低另一些token的概率,形成了一种双峰分布。这种分化现象表明,模型学会了区分哪些部分是重要的,哪些部分相对次要。
深入分析发现,那些被降低概率的token主要是连接词和标点符号,如"the"、"let"、逗号、句号等。这些元素虽然在语法上是必要的,但通常不携带核心的语义信息。动态微调让模型将更多注意力集中在那些真正重要的内容词汇上,而不是在语法细节上过度纠结。
这种学习模式与人类的学习方式非常相似。当我们学习一门新学科时,通常会重点关注核心概念和关键信息,而不是每一个语法细节或格式要求。这种选择性注意机制是高效学习的重要特征。
研究团队还发现,其他一些成功的强化学习方法(如DPO、PPO、GRPO)也表现出类似的双峰分布趋势,但程度比动态微调要温和得多。这进一步说明了动态微调在引导模型进行选择性学习方面的独特优势。
这种分析还解释了为什么动态微调在数学推理等需要精确逻辑的任务上表现特别出色。在数学问题中,解题的关键往往在于理解核心概念和推理步骤,而不是语言表达的完美性。动态微调帮助模型将注意力集中在这些关键要素上,从而提高了推理能力。
七、方法的鲁棒性验证
任何新方法的实用价值都需要通过鲁棒性测试来验证。研究团队对动态微调进行了全面的超参数敏感性分析,以确保该方法不是依赖于特定的实验设置才获得成功的。
他们测试了四种不同的学习率:2e-4、1e-4、5e-5和1e-5。结果显示,动态微调在所有学习率设置下都稳定地优于传统监督微调,这表明新方法的优越性不依赖于特定的学习率选择。
有趣的是,两种方法都对学习率表现出了相似的敏感性模式:中等学习率(1e-4和5e-5)效果最佳,过高或过低的学习率都会导致性能下降。但重要的是,在任何学习率设置下,动态微调都保持了对传统方法的显著优势。
批次大小的测试同样令人满意。从32到256的不同批次大小下,两种方法的性能都相对稳定,没有显示出明显的趋势性变化。这表明动态微调不需要特别的批次大小调优,可以在默认设置下获得良好效果。
这种鲁棒性对于实际应用来说非常重要。它意味着研究者和工程师可以放心地采用动态微调,而不必担心需要进行复杂的超参数搜索或者方法只在特定条件下有效。
研究团队还测试了不同训练数据规模下方法的表现。虽然他们在主要实验中使用了10万个训练样本,但额外的测试表明,即使在更小的数据集上,动态微调仍然保持其优势。这种数据规模的鲁棒性进一步增强了方法的实用性。
另一个重要的鲁棒性测试是跨模型的一致性。实验涵盖了不同架构(Qwen、LLaMA、DeepSeek)和不同规模(1.5B到8B参数)的模型,动态微调在所有这些变体上都展现出了一致的改进效果。这种跨架构的一致性表明,新方法触及了深层的优化原理,而不是针对特定模型的偶然发现。
八、理论创新与实用价值
这项研究的价值不仅在于提出了一个有效的算法改进,更在于为我们理解监督学习和强化学习的关系提供了全新的理论视角。
研究团队首次严格证明了监督微调与强化学习之间的数学等价关系,这个发现本身就具有重要的理论意义。这种等价性不仅帮助我们更好地理解为什么监督微调会出现泛化能力不足的问题,还为改进这类方法提供了明确的指导原则。
从更宏观的角度来看,这项工作揭示了一个重要的机器学习原理:看似简单的算法往往隐藏着复杂的内在机制,而这些机制可能产生意想不到的副作用。只有通过深入的理论分析,我们才能识别和修正这些问题。
动态微调方法的设计也体现了优秀算法设计的重要特征:简单而有效。仅仅一行代码的修改就能带来如此显著的改进,这种简洁性使得该方法具有很高的实用价值。工程师可以轻松地将这个改进集成到现有的训练流水线中,而无需进行大幅的架构调整。
与此同时,新方法也为未来的研究开辟了新的方向。既然监督微调可以通过简单的修正获得强化学习级别的性能,那么其他传统机器学习方法是否也存在类似的改进空间?这种思路可能会启发更多类似的理论分析和算法改进。
从实际应用的角度来看,动态微调的意义更加深远。在当前AI模型训练成本不断攀升的背景下,任何能够提高训练效率的方法都具有巨大的商业和社会价值。动态微调不仅提高了最终模型的性能,还加快了收敛速度,这意味着可以用更少的计算资源获得更好的结果。
特别是对于资源有限的研究机构和中小企业来说,这种改进更具实际意义。他们可能无法承担大规模强化学习训练的计算成本,但却可以轻松采用动态微调来提升模型性能。
九、方法局限与未来展望
尽管动态微调展现出了出色的性能,研究团队也诚实地指出了当前研究的局限性,并对未来的改进方向进行了展望。
首先,目前的实验主要集中在数学推理任务上,虽然这是一个很好的测试场景,但还需要在更广泛的任务类型上验证方法的有效性。数学推理具有相对明确的对错标准,而在一些更加主观或开放性的任务中,动态微调是否仍然有效还需要进一步验证。
其次,实验使用的模型规模最大为8B参数,虽然已经涵盖了中等规模的模型,但在当前动辄数百亿参数的大模型时代,还需要验证方法在超大规模模型上的表现。理论上,动态微调的原理应该是规模无关的,但实际效果仍需实验证实。
另外,目前的研究主要关注文本任务,而现在多模态模型越来越重要。动态微调能否推广到图像、语音等其他模态,或者在多模态任务中发挥作用,这些都是值得探索的方向。
从技术实现的角度来看,虽然动态微调的核心思想很简单,但在具体实现时可能还有优化空间。例如,如何更精确地计算和应用概率权重,如何在分布式训练环境中确保数值稳定性,这些工程细节都可能影响最终效果。
研究团队还指出了一个有趣的理论问题:动态微调与经典的Focal Loss形成了鲜明的对比。Focal Loss通过降低高信心样本的权重来解决类别不平衡问题,而动态微调则是通过降低低信心样本的权重来改善泛化性能。这种对立的设计理念反映了不同时代机器学习面临的不同挑战:在深度学习早期,主要问题是如何让模型学到足够的信息;而在当前的大模型时代,如何避免过拟合变成了更重要的问题。
这种观察启发我们思考:随着机器学习技术的发展,我们对"好的学习算法"的理解也在不断演进。也许将来还会出现更多这样的范式转变,需要我们重新审视那些看似成熟的方法。
从更长远的角度来看,动态微调的成功也提示我们,在追求更复杂、更先进的算法的同时,不应该忽视对基础方法的深入理解和改进。有时候,最大的突破可能就隐藏在最简单的修改中。
十、对AI发展的深层启示
这项研究的意义远不止于提出了一个新的训练算法,它还为我们思考人工智能的发展提供了一些深层启示。
首先,它再次证明了理论研究的重要性。如果没有深入的数学分析,研究团队就不可能发现监督微调中隐藏的权重分配问题。这种理论洞察不仅解释了现有方法的局限性,还直接指导了改进方法的设计。这提醒我们,在追求实际应用效果的同时,不能忽视对算法内在机制的理论研究。
其次,这项工作展示了简单性的力量。在当前AI领域普遍追求更复杂、更大规模模型的趋势下,动态微调用一行代码就实现了显著改进,这种简洁性格外珍贵。它提醒我们,有时候最有效的解决方案可能比我们想象的要简单得多。
再者,研究结果表明,监督学习和强化学习之间的界限可能比我们想象的更加模糊。传统上,这两种方法被视为不同的学习范式,但这项研究揭示了它们之间的深层联系。这种统一的视角可能会启发更多跨领域的方法融合。
从教育学的角度来看,动态微调的设计理念也很有启发性。它让AI模型采用了更接近人类学习的方式:专注于能够理解和掌握的内容,而不是在暂时无法理解的难题上纠结。这种学习策略的有效性不仅适用于机器,对人类学习也有参考价值。
最后,这项研究的成功也展示了国际合作在科学研究中的价值。来自多个国家和机构的研究者共同完成了这项工作,体现了科学研究的开放性和合作精神。
说到底,这项研究最大的价值在于它为AI训练方法的改进提供了一个新的思路:不要仅仅满足于现有方法的表面效果,而要深入挖掘其内在机制,找出问题的根源,然后用最简单有效的方式解决这些问题。这种研究范式不仅适用于机器学习,对其他科学领域也有借鉴意义。
当我们回顾这项研究时,会发现它完美地体现了科学研究的魅力:从一个看似简单的观察出发,通过深入的理论分析,最终找到了一个既简单又有效的解决方案。这种从理论到实践的完整链条,正是推动科学进步的基本模式。
对于普通读者来说,这项研究告诉我们一个朴素的道理:学习的时候要讲究方法,过度纠结于暂时无法理解的难题可能适得其反,更好的策略是保持均衡的学习节奏,既要挑战自己,又要巩固基础。无论是AI还是人类,好的学习方法都是相通的。
研究团队已经在GitHub上公开了相关代码,感兴趣的读者可以通过https://github.com/yongliang-wu/DFT访问。相信这个简单而有效的方法会被更多研究者采用,为AI技术的发展贡献力量。
Q&A
Q1:动态微调(DFT)是什么?它与传统训练方法有什么区别?
A:动态微调是东南大学团队提出的AI训练改进方法,只需在原有训练代码中增加一行代码,就能大幅提升模型性能。与传统监督微调不同,DFT会根据模型对每个答案的信心程度动态调整学习权重,避免过度关注难以理解的内容,让学习过程更均衡稳定。
Q2:为什么传统的监督微调效果不如强化学习?
A:研究团队发现传统监督微调存在隐藏的权重分配问题:模型越没把握的答案反而获得越高的学习权重,就像学生过度纠结于不会的题目而忽视基础知识。这种扭曲的学习机制导致过拟合,使模型在新问题上表现不佳。
Q3:动态微调的实际效果如何?普通人能使用吗?
A:实验显示动态微调效果惊人,在数学推理任务中平均提升效果是传统方法的3-7倍,有些情况下传统方法还出现负面效果时,DFT仍能实现显著改进。该方法已在GitHub开源,技术人员可以轻松集成到现有训练流程中,只需修改一行代码。
来源:至顶网一点号