摘要:这项由东北大学、北京大学、哈佛大学和谷歌等机构合作的研究,由Zhenglun Kong和Zheng Zhan领衔(并列第一作者),与Shiyue Hou、Yifan Gong等多位研究者共同完成,发表于2025年5月28日的arXiv预印本平台(arXiv:2
这项由东北大学、北京大学、哈佛大学和谷歌等机构合作的研究,由Zhenglun Kong和Zheng Zhan领衔(并列第一作者),与Shiyue Hou、Yifan Gong等多位研究者共同完成,发表于2025年5月28日的arXiv预印本平台(arXiv:2505.23844v1)。研究团队提出了一个名为"Fusion-X"的创新框架,旨在解决大型语言模型(LLMs)集成过程中面临的挑战。
想象一下,如果你有几位各自领域的专家朋友——一位擅长历史,一位精通科学,还有一位是文学大师。当你遇到问题时,你可能会自然而然地根据问题类型向最合适的那位请教,而不是总是问同一个人或者一次性问所有人(这样会浪费时间,还可能得到矛盾的答案)。大型语言模型(LLMs)的融合也面临类似的挑战。
近年来,各种专门领域的大语言模型如雨后春笋般涌现,每个模型都在特定领域展现出色的能力。然而,要持续提升这些模型的综合能力并不容易。传统方法是对单个模型进行微调,但这种方式往往无法有效吸收其他专业模型中的丰富知识,特别是当相关数据集不可获取或需要大量预处理时。
目前存在的解决方案各有局限。集成方法(Ensemble)虽然能提高预测性能,但需要同时运行多个模型,不仅内存占用大,推理时间长,还难以适应变化的数据环境。权重合并(Weight Merging)方法则要求模型架构统一,依赖手动配置或添加额外层。而混合专家(MoE)结构虽然解决了一些推理和权重共享问题,但仍面临推理时间长、需要同质架构以及模型尺寸更大的挑战。
最近的FuseLLM和FuseChat尝试将多个源模型的知识融入单个目标模型,但由于模型选择不当和融合过程缺乏控制,导致不同任务之间的干扰和性能下降。这就像是邀请了很多不同专业的人一起解决问题,但没有一个好的"主持人"来协调谁该在什么时候发言,结果大家互相打断,最终表现不如单独询问某个专家。
研究的创新突破:适应性选择与动态融合
针对现有方法的局限性,研究团队提出了一个动态框架,能够自适应地选择和集成多个大语言模型的知识。这个框架巧妙地解决了三个关键挑战:
首先,研究团队引入了一个"自适应选择网络"(Adaptive Selection Network),这相当于一位聪明的主持人,能够评估不同源模型的表现并选择最适合当前问题的模型。这个网络基于每个模型在预定义任务集上的表现分数,显式地评估和选择表现最好的源模型,从而减轻模型融合中常见的干扰问题。
其次,研究者们设计了"动态加权融合策略"(Dynamic Weighted Fusion Strategy),考虑候选模型的内在特性进行融合。这就像是在小组讨论中,根据每个人的专业背景和贡献给予不同的发言权重。融合过程中分配的权重来自分数评估,使融合过程能够优先考虑更有可能提高综合模型整体性能的模型。
最后,为了防止选择器总是选择相同的几个候选模型(就像小组讨论中总是让同一个人发言),研究者引入了"反馈驱动损失函数"(Feedback-driven Loss Function),优化自适应选择网络的训练并指导候选模型的选择。
研究结果令人鼓舞:该方法确保了LLMs的稳定和可扩展集成,同时保持了效率和有效性,即使面对模型多样性也能保持良好表现。更重要的是,与传统方法相比,该方法在不增加目标模型参数规模或计算量的情况下实现了更高效的集成,将知识干扰减少了高达50%。
技术原理深度解析:如何实现智能模型选择与融合
要理解Fusion-X的工作原理,让我们通过一个简单的类比:想象你在组织一场专家讨论会,需要根据不同问题邀请最合适的专家发言,并根据他们的专业程度赋予不同的话语权重。
在Fusion-X框架中,首先,自适应选择网络会评估每个源模型(专家)对当前输入的处理能力。这个网络由三个线性层组成,使用GELU激活函数来引入非线性,增强捕捉输入数据复杂模式的能力。它的工作就像是评审委员会,根据每个模型的概率分布矩阵给出评分。
经过评估后,系统会应用动态阈值机制来选择模型。只有评分超过阈值τ的候选模型才会被选中参与融合:
``` Xselected = {Pθj | pj > τ, j = 1, ..., M} ```
这里Xselected代表被选中的模型子集,pj是第j个模型的选择概率。为了确保至少选择一个候选模型,如果没有模型满足阈值条件,系统会选择概率最高的那个。研究团队将阈值τ设置为0.15,这使模型能够根据输入数据和当前学习上下文自适应地选择最相关的候选模型。
选出候选模型后,系统会进行动态加权融合。首先,对选定的概率进行归一化:
``` p = π( p ⊙ m / (∑pimi + ε) ) ```
其中mi是表示选定候选模型的二进制掩码(如果pi被选中则mi=1,否则为0),ε是防止除零的小常数,π(·)是调整向量大小的函数。
接着,系统会重塑归一化后的概率和掩码以匹配候选输出的维度,实现元素级乘法。K个选定候选模型的输出根据各自的权重累加,产生统一的模型输出Pf:
``` Pf = sum(concat({Pj · pj})Kj=1, dim=-1) ```
这种动态融合过程可以持续让更有影响力的候选模型对最终模型产生更大影响。
然而,研究团队发现选择网络往往会收敛到一种状态,即始终为少数几个候选模型分配较大权重。为了缓解这个问题,他们实施了反馈方法来指导候选模型的选择,采用软约束方法。模型相对于一批训练样例的重要性被定义为每个LLM的pj值的批次级总和。
研究者定义了反馈损失Lfeed,将其添加到现有的模型损失函数中。这个损失被计算为重要性值的变异系数的平方:
``` Lfeed = CV?({pj}Kj=1) = σ?({pj}Kj=1) / (μ?({pj}Kj=1) + ε) ```
这里,σ?是方差,μ是均值,ε是确保数值稳定性的小常数。这个定义强调了使源LLMs的重要性分布在模型中更加均匀的目标。最小化重要性值pj的方差可以减少这些值之间的差异,使重要性分布更加均匀。同时,最大化均值确保反馈损失不会对小方差过度敏感。在分母中对均值进行平方有助于归一化损失并保持一致的尺度,强调方差的相对变化。
完整的目标函数为:
``` L(θT, φASN) = -Et~C[D(Tt, Ot)] + λfuse(-Et~C[D(Tt, Pf)]) + λfeedCV?(∑j∈K pj) ```
其中θT, φASN是目标LLM和选择网络的参数。第一项Llm减少目标模型输出Tt与独热标签矩阵Ot之间的差异。第二项Lfuse强制目标LLM输出Tt与融合表示矩阵Pf一致。研究团队将λfuse设为0.1,λfeed设为0.5。
实验设计与评估:验证模型的实际效果
研究团队采用了多个模型和数据集进行实验,以验证其方法的有效性。他们使用llama-2-7B作为目标模型,并在多个基准上进行评估,以进行公平比较。为了展示参数规模和模型数量的扩展性能,他们在多个规模上进行评估,包括Llama-160M、GPT-Neo-125M、Pythia-160M、Tiny-starcoder等小型模型,以及OpenLLaMA-V2-3B、MiniMA-3B、Amber、Starcoder2-3B等中型模型,还有Llama-2-7B、OpenLLaMA-7B、MPT-7B、Pythia-6.9B、Starcoder2-7B、Llama 3-8B、Yi-6B等大型模型。
这些模型有着不同的参数规模、架构、分词器和词汇表。研究团队遵循前人工作,使用MiniPile数据集进行持续训练。
模型的优化使用AdamW优化器,beta1=0.9,beta2=0.95,梯度裁剪设为1.0,权重衰减为0.1。他们采用余弦学习率调度,最大学习率为1B以下模型的3e-5和大于1B模型的1e-5,预热比例为0.008。训练使用8个A100 GPU,每个具有80GB内存。
评估基准包括常识(CS)、大型基准困难问题(BBH)、多任务语言理解(MMLU)和多语言程序评估(MultiPL-E),分别代表了LLMs的常识能力、推理能力和代码生成能力。
实验结果揭示:Fusion-X的卓越表现
研究结果令人印象深刻,在所有评估基准上,Fusion-X都显著超越了基线方法。在常识评估方面,Fusion-X在三个不同规模(T、S和B)上都一致地超过了目标模型,标准偏差在-0.02~+0.02之间。与目标模型的持续训练(CT)和FuseLLM相比,Fusion-X在所有规模上都展现出一致的改进。
更重要的是,Fusion-X有效防止了由于整合不太相关或质量较低的信息而导致的模型性能下降,特别是在ARC-Challenge、HellaSwag和OpenBookQA等任务上。例如,在Fusion-X-B中,相比于Llama-2-7B,ARC-Challenge提高了2.53%,HellaSwag提高了1.28%,OpenBookQA提高了4.12%。
在代码生成评估中,Fusion-X在集成三个和四个模型时,在所有编程语言任务上都优于FuseLLM。特别是,Fusion-X更有效地从Starcoder2-7B中聚合编码知识,相比FuseLLM表现出更大的性能提升。
在BBH基准上,Fusion-X-B模型在所有27个任务上平均提升了5.3%,展示了该方法的有效性。与FuseLLM相比,Fusion-X对Llama-2的性能提升几乎翻了一倍(2.7%对5.3%)。虽然在某些任务中观察到知识干扰,可能是因为除Llama-2之外的某些源LLM在特定任务上表现不佳,从而对融合结果产生负面影响。但是,尽管FuseLLM相比Llama-2-7B显示出平均性能提升,它在10个任务上表现更差,表明存在显著的知识干扰。相比之下,Fusion-X只有5个任务表现低于Llama-2-7B,相比FuseLLM的知识干扰减少了50%。
研究团队还使用Llama 3-8B作为目标模型,将其与OpenLLaMA-7B、Yi-6B和StarCoder2-7B融合。结果显示,在BBH基准上,Fusion-X比Llama-3-8B提高了8.0%,在MMLU上提高了2.5%,在CS上提高了3.4%,平均提高了4.6%。
此外,Fusion-X在训练效率方面也表现出色。训练过程中,Fusion-X比现有方法表现出更大的一致性,并且需要更少的训练步骤来达到相似的困惑度。例如,Fusion-X可以使用约50%的训练步骤达到与其他方法相似的困惑度。同样,在训练令牌数量方面,Fusion-X也展现出更高的训练效率,能够匹配FuseLLM的性能,同时使用的训练令牌数量几乎少三倍。当使用相同数量的令牌训练时,Fusion-X实现了高达2.6%的稳定性能提升。
模型扩展分析:规模和数量如何影响性能
模型扩展对LLMs至关重要。研究团队探索了两个扩展方向:增加模型规模和扩展源模型数量。结果表明,在BBH 100M规模上,当融合四个和五个LLMs时,FuseLLM的性能甚至低于基线。相比之下,Fusion-X在整合更多LLMs时持续提高性能。
FuseLLM性能下降是由于知识干扰,这在线图中得到了说明,线图显示了BBH(总共27个任务)和MMLU(总共57个任务)中表现低于基线的任务百分比。FuseLLM表现出明显高于Fusion-X的性能下降比例,下降影响多达44%的任务。此外,随着更多模型的合并,它表现出增加的下降趋势(在4个规模中有3个)。相比之下,Fusion-X保持了更稳定的下降比例,随着模型数量和规模的增加,相比FuseLLM的下降减少了50%。
因此,研究团队认为,LLM集成的选择性策略至关重要,因为简单地扩展LLM集成并不总是能提高性能。更重要的是,精心设计的选择策略可以减轻知识干扰并最大化整体性能。
训练令牌数量分析:更高效的知识融合
Fusion-X的方法比竞争方法实现了更高的训练效率。研究显示,通过在训练过程中有效融合LLMs,Fusion-X模型需要更少的令牌来达到竞争性或更优的性能。例如,Fusion-X可以匹配FuseLLM的性能,同时使用的训练令牌几乎少三倍。当使用相同数量的令牌训练时,Fusion-X实现了高达2.6%的稳定性能提升。
与不同集成方法的比较:全方位超越
研究团队将Fusion-X与各种工作进行了比较,结果在BBH和MMLU上集成四个LLMs。在最小训练目标模型的情况下,Fusion-X的方法优于具有更大参数规模和更高推理成本的集成方法,由于内存开销,这些方法难以扩展LLMs的数量。例如,PackLLM使用贪婪算法,在推理过程中顺序集成LLMs。
对于权重合并方法,一个基本限制是它们需要相同的架构,使其不能直接与Fusion-X模型比较。因此,研究团队合并了几个基于LLaMA的模型(Meditron-7B、Vicuna-7B-v1.5和OpenLLaMA-7B)进行公平比较,标记为Fusion-X-B*。与权重合并技术相比,Fusion-X具有支持异构模型的优势。这显示了该方法在创建更稳定、高效和可扩展的方法来增强LLMs能力方面的有效性。
结论与未来展望:开启大模型知识聚合的新时代
总结来说,研究团队提出了一个新颖的框架用于集成多个LLMs。自适应选择网络有选择地集成表现最佳的源LLMs,克服了现有方法的局限并最小化知识干扰。研究团队还引入了动态加权融合策略和反馈驱动损失函数来增强融合过程。该方法显著提高了适应性和性能,提供了一种高效的LLM集成解决方案,同时保持参数规模和计算效率。
尽管如此,仍存在一些局限性,主要是由于训练前需要额外的令牌对齐,未来的工作应探索在多样化数据集上的训练。有兴趣深入了解的读者可以通过GitHub访问该项目的代码。
这项研究为大型语言模型的知识聚合提供了一个更加灵活、稳定和高效的方法,有望在未来推动更强大、更全面的AI系统的发展。就像一个优秀的团队领导懂得如何让每个团队成员在最合适的时机发挥所长,Fusion-X框架为大型语言模型的协作开辟了新的可能性。
来源:至顶网一点号