Sakana AI华人学者打造“AI进化算法”,让模型从零开始进化

B站影视 欧美电影 2025-08-30 23:13 1

摘要:如果无需训练单一巨型模型,而是通过“培育”模型来打造强大的新型 AI,这有可能吗?研究界常说“师法自然”,那么打造 AI 时是否也能从大自然汲取灵感?自然界的智能并非单一整体,而是一个由多样且专门化的有机体组成的活跃生态系统,生物们通过竞争、协作与基因组合实现

如果无需训练单一巨型模型,而是通过“培育”模型来打造强大的新型 AI,这有可能吗?研究界常说“师法自然”,那么打造 AI 时是否也能从大自然汲取灵感?自然界的智能并非单一整体,而是一个由多样且专门化的有机体组成的活跃生态系统,生物们通过竞争、协作与基因组合实现适应进化。那么,能否用同样的方式构建 AI?这便是上海交通大学本科校友唐玉金和同事刚刚完成的一项创举,这也是华人研究者在日本 AI 圈崭露头角的故事。

图 | 唐玉金(来源:https://www.linkedin.com/in/yujin-tang-98b3ab5a/)

据了解,唐玉金本科毕业于上海交通大学,硕士和博士分别毕业于日本早稻田大学和日本东京大学。博士毕业以后,他先是在日本知名电信运营商 KDDI 工作,后在 Google 和 Google DeepMind 工作。2024 年,他加入日本知名 AI 初创公司 Sakana AI,该公司由“Transformer 八子”的其中一位创办。

在上述工作中,唐玉金和同事针对大模型打造出一款新型进化算法,让人们能在无需昂贵训练和微调过程的情况下增强 AI 能力。这款名为“自然生态位模型融合”(M2N2,Model Merging of Natural Niches)的算法克服了其他模型融合方法的局限性,甚至能够完全从零开始进化出新模型。日前,相关论文发表于国际顶会遗传与进化计算会议(GECCO,Genetic and Evolutionary Computation Conference),并获得“最佳论文提名。与此同时,M2N2 的代码已经在 GitHub 开源。

如下图所示,唐玉金等人通过 M2N2 打造的的融合模型成功整合了各个种子模型的优势,同时还能规避它们的劣势。与种子模型相比,融合模型展现出两项关键改进:首先,生成的图像更具照片真实感,这也与此次研究使用的训练集中的真实照片数据互相契合;其次,融合模型对于输入提示词的语义理解能力更强。例如,在下图最右侧一列中,多个种子模型虽然能够生成视觉效果尚可的自行车图像,但是融合模型不仅能够“专门捕捉提示词中指定的‘自行车车牌号显示区域’”,还生成了“更像是真实照片而非合成渲染”的图像。

图 | 与种子模型相比,融合模型展现出两项关键改进(来源:https://arxiv.org/pdf/2508.16204)

下图则显示:尽管融合模型完全是基于日语提示词进化而来的,但是它对日语和英语均具备良好的理解能力。这种“涌现出的双语能力”体现了模型融合的核心优势,即能够整合互补能力,同时避免“基于梯度的训练方法通常会存在的灾难性遗忘”问题。

如下表所示,本次融合模型在测试集上获得了超越所有对比模型的最高归一化压缩分数(NCS,Normalized Compression Score)。此外,在弗雷歇初始距离(FID,Fréchet Inception Distance)这一指标上,本次融合模型也超越了基于协方差矩阵自适应进化策略(CMA-ES,Covariance Matrix Adaptation Evolution Strategy)的模型融合基线(尽管该基线是明确以最小化训练集 FID 值为目标进行训练的)。

此外,M2N2 还能扩展至融合专业的语言模型和图像生成模型,并能达到最先进的性能水平。值得注意的是,M2N2 还能保留那些超出适应度函数显式优化目标的关键模型能力,故其具备较好的鲁棒性与通用性。

什么是模型融合?它有何必要性?

据介绍,模型融合是一种将多个专业化 AI 模型的知识整合到单一更强模型中的技术。与使用新数据精调单个预训练模型的微调技术不同的是,融合技术可以同时整合多个模型的参数。这一过程可以将大量知识汇聚到一个模型中,同时无需进行昂贵的基于梯度的训练,也无需访问原始训练数据。

对于企业团队而言,相比传统微调技术,该方法具有多重优势。由于模型融合是一个无梯度的过程,因此只需前向传播,其计算成本远低于涉及昂贵梯度更新的微调技术。这让该技术既能规避必须精心平衡训练数据的需求,也避免了模型在学习新任务后出现“灾难性遗忘”的风险。当专业模型的训练数据不可获取时,该技术显得尤为必要和强大,因为对于融合来说它只需要模型权重本身即可实现。

早期的模型融合方法需要大量的人工干预。比如,为了寻找最优组合,人们需要反复地试验和调整系数。不久之前,业内引入了进化算法,从而能够通过自动搜索最优参数组合来实现流程的自动化。但是,其中仍然存在一些人工环节,比如开发者必须为可融合参数设定固定集合。这种限制缩小了搜索空间,也可能会更强大的组合方案的发现。

破题之钥:从自然进化原则中汲取灵感的 M2N2

M2N2 从自然界中的进化原则汲取灵感,解决了上述局限性。M2N2 能够探索更广泛的可能性,并能发现更加有效的模型组合方式,而这主要得益于该算法所具备的以下三个关键特性。

首先,M2N2 消除了固定的合并边界,例如块或层。它不是按照预定义的层级针对参数进行分组,而是使用灵活的“分割点”和“混合比例”来划分和组合模型。举个例子,算法可能会将模型 A 某一层中 30% 的参数与模型 B 同一层中 70% 的参数进行合并。整个过程从一个“种子模型档案库”开始,在每一步中 M2N2 从档案库中选取两个模型,确定一个混合比例和一个分割点,然后将它们合并。如果合并后的模型表现良好,它就会被重新加入档案库,并会替换掉其中较弱的一个模型。这使得 M2N2 能够随着时间的推移探索越来越复杂的组合。这种逐步引入复杂性的方式,在保持计算可行性的同时,能够确保更广泛的探索可能性。

其次,M2N2 通过竞争机制来管理模型种群的多样性。打个比方,假设你是一名批改卷子的老师,你合并了两名考生的两份考试答卷,如果两份答卷上的答案完全相同,那么合并它们不会带来任何改进。但是,如果每份答卷针对不同的问题给出了正确答案,那么合并后的结果就会强得多。模型融合的道理也是一样的。然而,此前的挑战在于如何定义哪种多样性是有价值的。M2N2 并没有依赖人工设计的指标,而是模拟了对有限资源的竞争。这种受自然启发的方法会很自然地奖励那些拥有独特技能的模型,因为它们可以“获取未被争夺的资源”,并能解决其他模型无法解决的问题。

再次,M2N2 使用一种称为“吸引力”的启发式方法来配对待合并的模型。不同于其他合并算法简单地将表现最好的模型组合在一起的做法,M2N2 基于模型的互补优势来进行配对。一个“吸引力得分”会识别出这样一对模型:其中一个模型在另一个模型难以处理的数据点上表现出色。这不仅提高了搜索效率,也提升了最终合并模型的质量。

事实上,M2N2 的提出正是源于 Sakana AI 长期以来对自然界关键规律的借鉴。

一方面,在本次研究之中唐玉金等人不再以人工方式定义“多样性”的含义,而是构建了一个数字生态系统,从而让模型为争夺有限资源(即正确解决数据样本)去展开竞争。这种竞争压力会推动模型向不同“生态位”专精以便谋求生存,从而形成一组高度适合融合的多样化专精模型种群。

另一方面,他们突破了僵化的融合框架。以往的方法需基于固定边界(如完整的模型层)融合模型,而 M2N2 允许通过进化发现灵活的“分割点”,来对模型的局部组件进行融合,进而实现更复杂、更强大的参数组合。为了优化这一过程,如前所述唐玉金等人还引入了“吸引力”启发式规则,这是一种类似“配偶选择”的机制,会优先将具备互补优势的模型配对融合,大幅提升进化搜索的效率。

在应用上,M2N2 可被用于各类机器学习模型,包括大语言模型和文生图模型。对于希望构建定制化 AI 解决方案的企业而言,M2N2 可以通过整合现有开源模型优势,提供一种高效创建专业化模型的途径。对于那些已经开发出专用模型的企业而言,模型融合的商业价值极具吸引力。通过融合他们可以获得其他方式难以实现的新型混合能力。例如,将一个“为有说服力的销售话术优化的大模型”与一个“用于解读客户反应的视觉模型”融合,可以创建一个“能根据实时视频反馈动态调整销售话术”的单一智能体。这种方式既能释放多个模型的综合智能,又只需承担运行单个模型的成本与延迟。

事实上,一直以来 Sakana AI 都没有将单一巨型模型的规模扩张作为追求目标,而是在努力构建一个由多样、专精模型构成的生态系统,这些模型通过共同进化、协作与融合,最终形成更具适应性、稳健性与创造力的 AI。

展望未来,研究人员认为 M2N2 这类技术是“模型融合”大趋势的重要组成部分。在他们设想的未来场景里:AI 是一个不断进化的生态系统,模型的能力会根据需求进行组合,而非从零开始构建一个庞大的“单一的巨石型模型”。模型能够通过持续进化与融合不断适应新的挑战,从而让企业能够维护完整的 AI 模型生态系统。

参考资料:

相关论文:https://arxiv.org/pdf/2508.16204

GitHub 链接:https://github.com/SakanaAI/natural_niches

https://www.linkedin.com/in/yujin-tang-98b3ab5a/?originalSubdomain=jp

运营/排版:何晨龙

来源:DeepTech深科技一点号

相关推荐