摘要:人工智能领域,如同物理学曾经历的那样,一度渴望找到普适的“定律”。当 DeepMind 的研究者们在 2022 年揭示了大型语言模型(LLMs)的Chinchilla Scaling Laws (Hoffmann et al., 2022)[1]时,整个行业似
人工智能领域,如同物理学曾经历的那样,一度渴望找到普适的“定律”。当 DeepMind 的研究者们在 2022 年揭示了大型语言模型(LLMs)的 Chinchilla Scaling Laws (Hoffmann et al., 2022)[1]时,整个行业似乎找到了那把衡量算力、模型大小与数据量之间最优关系的“黄金标尺”。这一发现如同灯塔,不仅深刻影响了如GPT-4[2]和Llama 2[3]等后续众多模型的训练决策,更一度被奉为 AI 算力竞赛中的“能量守恒定律”。
然而,当 AI 的目光不再局限于冰冷的文字,开始拥抱图像、声音乃至更复杂的现实世界信号时,这座看似坚固的灯塔,其光芒是否还能穿透多模态的迷雾?
答案或许是否定的。来自索邦大学与苹果公司的研究者们在今年(严格来说是 2025 年 4 月的预印本)发表的一篇引人瞩目的论文 《Scaling Laws for Native Multimodal Models》(Shukor et al., 2025)[4](以下简称“原文”),通过对 457 个原生多模态模型(NMMs,即从零开始在所有模态上训练的模型)进行广泛的 Scaling Laws 研究,掷地有声地指出:多模态的加入,正在从根本上挑战甚至改写我们对 AI 规模效应的认知。尽管 NMMs 性能的提升同样遵循着与计算量相关的幂律法则,但其内部的最优平衡点、架构选择的效率以及数据策略的核心,已然发生了深刻的范式转移。
这场 AI 界的“定律”撼动,究竟意味着什么?它将如何重塑我们训练、部署乃至构想下一代人工智能的方式?这不仅关乎技术专家和投资人的决策,最终也将影响我们每个人未来与 AI 交互的方式。让我们深入这场风暴的核心,一探究竟。
乍看之下,NMMs 似乎仍在 Chinchilla 的引力范围内运行。Shukor 等人的研究发现,无论是采用早期融合(模型从一开始就处理原始多模态输入)还是晚期融合(类似 LLaVA,连接预训练模块)的 NMMs,其验证损失(L)随着总计算量(C)的增加而下降的速率(指数 c 约为 -0.049),与 GPT-3[5](c 约为 -0.048)等纯文本 LLMs 惊人地一致(参考原文 Table 3)。这意味着,投入更多算力,模型性能确实会变得更好,这似乎是条“铁律”。
但表面的相似,往往掩盖了内里的波涛汹涌。当我们把目光投向决定模型性能的另外两个关键要素——模型参数量(N)和训练数据量(D)时,分歧开始显现。Chinchilla 定律的核心推论之一是,为了在给定计算预算下达到最优性能,N 和 D 应该大致按等比例扩展。然而,Shukor 等人的研究(参考原文 Table 3)却为密集型 NMMs(特别是早期融合架构)描绘了一幅略有不同的蓝图:模型参数规模 N 对性能的贡献度(对应指数 a=0.526)似乎略微超过了训练数据量 D(对应指数 b=0.473)。
指标 (密集 NMM 早期融合)
N 指数 (a)
D 指数 (b)
结论
Shukor et al. (2025)
0.5260.473模型规模 N 贡献略大于数据量 D (a > b)
Chinchilla (参考)
≈0.34
≈0.28
N 和 D 贡献相对均衡 (或大致等比例增长)
表格说明:对比 Shukor 等人研究中密集型早期融合 NMM 的 Scaling 指数与 Chinchilla 定律的参考值。a 指数反映模型大小 N 对损失降低的贡献,b 指数反映数据量 D 的贡献。
这意味着什么?简单来说,在相同的计算“火力”下,要打造一个性能最优的 NMM,你可能需要一个比 Chinchilla 定律建议的更大一点点的模型,同时配上稍微少一点点的数据组合。
这种差异有多大?这看似微小的调整,在动辄千万美元的训练成本面前,可能直接关系到最终模型的性能上限和研发预算的有效性。遵循这些新的多模态缩放规律进行优化,其潜在回报是巨大的:模拟显示,对于大规模训练预算,单位性能训练成本有望节约高达 33.3% [探索 NMM Scaling Laws[6]]。显然,简单地将 LLM 的训练法则“复制粘贴”到多模态领域,可能已经不再明智。
多模态模型如何融合不同感官信息,一直是架构设计的核心。目前主流的做法,正如我们在 LLaVA[7]或Flamingo[8]等模型的成功所展示的那样,多采用“晚期融合”——将一个强大的预训练视觉编码器(如 CLIP ViT)的输出,“嫁接”到一个预训练 LLM 上。这种架构之所以能迅速占领市场,很大程度上是因为它允许团队“站在巨人的肩膀上”,便捷地利用现有 LLM 成果和庞大的预训练模型库[9],这在争分夺秒的商业竞争中无疑是巨大的诱惑,其背后的工程与战略考量[10]已被广泛讨论。但这看似明智的捷径,也可能让它们背负了长期的效率“包袱”。
Shukor 等人的研究则揭示了另一条路径的潜力。他们发现,当模型从零开始原生训练时,“早期融合”——即模型从一开始就统一处理文本 token 和图像 patch 等原始输入,几乎没有独立的单模态处理环节——展现出了惊人的效率优势。
架构对比 (基于原文 Fig 1, 5)
最优参数量 (N)
训练速度
显存占用
早期融合 (Early Fusion)更少更快更低晚期融合 (Late Fusion)
更慢
更高
表格说明:对比早期融合与晚期融合 NMMs 在达到计算最优时的资源效率。数据趋势来自 Shukor et al. (2025) 的 Fig 1 (右图) 和 Fig 5。
原文的 Fig 1 右图清晰地揭示了这一点:在相同的计算预算 C 下,达到最低损失(最优性能)的早期融合模型,其所需的参数量 N 显著低于晚期融合模型。这意味着早期融合拥有更高的“参数效率”——用更少的参数办成同样的事。这还没完,Fig 5 的数据显示,早期融合模型训练起来速度更快,消耗的显存也更少。
这背后可能的原因是,早期融合允许信息在模型的更底层、更早的阶段进行交互,从而更有效地学习跨模态的关联,避免了晚期融合中可能存在的特征空间“鸿沟”和信息传递损耗。
这种效率差异带来的实际价值不容小觑。想象一家公司要开发一款边缘 AI[11]产品,比如智能眼镜的 AI 助手,模型大小和响应速度是关键。采用早期融合架构,或许用一个 50 亿参数的模型就能达到晚期融合 70 亿参数模型的效果,这直接关系到芯片成本、功耗控制和用户能否获得流畅的交互体验。一个鲜明的例证是 Meta 最新发布的Chameleon 系列模型[12]。它采用了早期融合架构,并且技术报告显示[13],在同等规模下,其单卡吞吐量是晚期融合模型的 2.1 倍,收敛速度也快了 58%。
当然,晚期融合的“路径依赖”依然强大。它允许团队快速利用现有的、投入巨资预训练的 LLM。但 Shukor 等人的研究提醒我们,这种便利可能伴随着长期的效率“包袱”。选择早期融合,虽然可能意味着更彻底的重构,但它指向的是一条构建更原生、更高效、可能也更“智能”的多模态系统的新路径。这是否会改变未来基础模型的技术路线图?特别是对于那些没有历史包袱、寻求差异化竞争的初创公司而言,早期融合是否提供了一个难得的“换道超车”机会?
如果说早期融合只是对 Scaling Laws 进行了修正,那么混合专家(Mixture-of-Experts, MoE)架构的引入,则近乎一场“核爆”,彻底颠覆了游戏规则。
MoE 的核心思想并不复杂:将一个大模型拆分成多个相对较小的“专家”网络,并训练一个“路由器”来决定每个输入(token)应该由哪些专家来处理。这样,在推理时,只需要激活一小部分专家,就能达到甚至超越同等参数量密集模型的性能,同时大幅降低计算成本。Mistral 的 Mixtral 8x7B[14]模型就是 MoE 在 LLM 领域成功的典范。
Shukor 等人将 MoE 应用于早期融合 NMMs,结果令人震惊(见原文 Fig 9, 10)。在相同的推理成本(活跃参数量)下,MoE NMMs 的性能显著优于对应的密集模型,尤其是在中低计算量区间,优势更为明显。
但更具颠覆性的是 MoE 对 Scaling Laws 本身的改写。还记得密集模型中,模型大小 N 和数据量 D 的贡献度大致相当,甚至 N 略占优势吗?在 MoE NMMs 这里,情况发生了 180 度大转弯。原文 Table 3 的数据显示,对于稀疏 NMMs,增加训练数据量 D 对性能提升的贡献度(指数 b=0.656)远远超过了增加活跃参数量 N(指数 a=0.361)!
模型类型 (基于原文 Table 3)
N 指数 (a)
D 指数 (b)
结论
MoE NMM (早期融合)0.361
0.656数据量 D 贡献远大于模型规模 N (b >> a)Dense NMM (早期融合)
0.5260.473
模型规模 N 贡献略大于数据量 D (a > b)
表格说明:对比 MoE NMM 与密集 NMM 在 Scaling 指数上的显著差异。b 远大于 a 表明数据扩展对 MoE 模型性能提升的极端重要性。
这意味着什么?数据为王!对于 MoE NMMs 而言,想要让模型更强大,最有效的手段不再是(或者说远不止是)增加模型的活跃参数,而是疯狂地喂给它更多、更好、更多样化的多模态数据。
这一发现堪称训练范式的革命。它意味着资源的重心需要从算力-模型规模的军备竞赛,向数据获取、数据处理、数据质量的护城河构建迁移。这无疑对那些掌握海量原生多模态数据的巨头,如拥有 YouTube 和海量网页图文的 Google、坐拥 Instagram 和 Facebook 无尽图片视频的 Meta,构成了巨大的利好。正如一些分析所指出的[15],MoE NMMs 对数据的渴求,可能使得 AI 的竞争在本质上进一步演变成数据的竞争。
当然,MoE 也并非“免费午餐”。训练 MoE 模型本身就面临诸多挑战,例如训练不稳定、专家间的负载均衡、以及巨大的通信开销等问题,这些都在近期的研究中[16]有详细讨论。而将 MoE 应用于多模态场景,挑战更是指数级增加。不同模态的数据分布差异巨大(比如一段视频包含的视觉信息远超其对应文字描述),如何设计路由机制,确保专家既能处理特定模态又能有效协作,如何避免模态失衡导致的“专家饿死”或“专家撑死”?这些都是亟待解决的难题。例如,面对多模态场景下常见的专家负载失衡问题——当图像 token 远超文本时,部分专家可能“饿死”或“撑死”——Google 的 LIMoE 研究[17]就探索了通过熵正则化等手段强制分配多样性,以维持训练稳定。为了应对这些挑战,领先的 AI 实验室正在积极开发如Expert Choice Routing[18](专家选择路由)和动态容量缓冲[19]等创新技术。
尽管挑战重重,MoE 为多模态 Scaling Laws 指明的“数据优先”方向,无疑为我们理解和构建更强大的 AI 系统打开了全新的想象空间。
既然数据如此重要,那么下一个问题自然是:什么样的多模态数据组合才是最优的“炼金配方”?
Shukor 等人的研究也初步触及了这个问题。他们发现,NMMs 对不同类型数据的“消化效率”是不同的。从原文 Table 3 和 Fig 25 可以看到,模型在处理图文配对数据(Image-Caption)时,性能随计算量提升的速度(c 指数绝对值更大)似乎要快于处理图文交错的网页文档(Interleaved)和纯文本数据(Text-only)。这或许意味着,对于某些侧重图文理解的任务,加大图文对数据的比例可能更有效。
更有趣的是,改变不同类型数据的混合比例,会直接影响整体的 Scaling 曲线(见原文 Fig 4)。例如,当增加纯文本和交叉文档的比例时(从 45-45-10 变为 20-40-40),早期融合架构相对于晚期融合的优势似乎会扩大(见原文 Fig 15, 16)。
这些初步的发现指向了一个明确的结论:高效训练 NMMs,不能再搞“大水漫灌”式的数据投喂,而要走向“精准滴灌”的数据策略。
但这门“数据炼金术”的复杂性也远超想象。首先,如何定义不同模态数据的“等效计算量”?一分钟的视频,相当于多少文字,或者多少张图片?目前业界尚无统一标准,不同的研究[20]给出的换算比例可能相差数倍。其次,数据的质量、标注的准确性、内容的多样性、乃至数据来源的合规性,都可能比数据量本身更重要。最后,最优的数据配比很可能不是固定的,而是与目标任务(视觉问答 vs 图像生成)、模型架构(早期/晚期融合 vs MoE)、甚至训练阶段都息息相关。例如,Anthropic 在训练Claude 3[21]时就采用了渐进式策略,根据公开的最佳实践分享[22],他们在后期增加了视频数据和特定领域数据的比例。
目前,尽管 Google Gemini [Google AI Blog on Gemini[23]]、OpenAI GPT-4V [OpenAI GPT-4 Research[24]] 等顶尖模型都声称使用了海量的多模态数据进行训练,但具体的混合比例和策展策略仍然是各家的核心机密。探索并建立一套科学的多模态数据价值评估体系和动态混合策略,将是未来 NMMs 发展的关键胜负手。一些研究甚至开始探讨数据混合定律[25],试图量化不同领域数据的最佳配比。
Chinchilla Scaling Laws 无疑是 AI 发展史上的一座里程碑,它为大型语言模型的训练提供了宝贵的指导。但将其奉为放之四海而皆准的绝对真理,在多模态浪潮汹涌而来的今天,已显得刻舟求剑。
Shukor 等人的研究,连同我们补充的行业观察和案例,共同描绘了一幅更复杂、更动态、也更激动人心的 NMM Scaling 新图景:
平衡点漂移:NMMs 的最优 N/D 平衡点相较于 LLMs 发生了微妙偏移。
架构定成败:早期融合以其原生效率优势崭露头角,挑战着晚期融合的主流地位。
MoE 颠覆:稀疏性彻底改变了游戏规则,将数据推向了前所未有的核心位置。
数据炼金:模态组合与数据配比成为新的优化维度,需要科学的方法论指导。
这一切意味着什么?
对于 AGI 的探索者而言,通往通用智能的道路必然是多模态的。精准理解并掌握 NMMs 的 Scaling Laws,是构建能够真正理解和交互于复杂物理世界的智能系统的基石。正如 Yann LeCun反复强调的那样[26],仅仅依赖文本预测的自回归模型可能无法触及真正的智能,我们需要能够从多感官数据中学习世界模型的架构,而早期融合和 MoE 正是朝这个方向迈出的重要一步。同样,Ilya Sutskever也曾暗示[27],通过多模态扩展 Transformer 可能自然演化至 AGI,但其关键在于计算效率和数据策略的革新。
对于产业界的决策者(管理者、投资人、工程师)而言,这些新认知直接关系到真金白银的投入和战略方向的选择。是继续沿用晚期融合的“捷径”,还是拥抱早期融合的“原生效率”?是押注 MoE 的巨大潜力,并准备好应对其对数据的极致渴求,还是选择更成熟的密集模型?如何构建自己的数据护城河,并制定动态的数据混合策略?这些问题没有标准答案,但理解 Scaling Laws 的演变,无疑是做出明智决策的前提。这场由 Scaling Laws 演进驱动的竞争,正在重塑科技巨头、AI 实验室和初创公司之间的力量格局,这一点在近期的行业分析中[28]已有所体现。
未来已来,只是分布不均。多模态 Scaling Laws 的研究才刚刚开始,视频、音频、乃至更广泛的传感器数据将带来更多变量和复杂性,相关挑战已被广泛讨论[29]。但方向已经明确:告别单一、静态的法则,拥抱一个更精细、动态、数据驱动的多模态 Scaling 新纪元,这正是通往更强大、更通用人工智能的必由之路。
那么,你如何看待这些 NMM Scaling Laws 的新发现?它们对你所在的领域或研究方向有何启发?在你的实践中,是否也观察到了类似的现象或遇到了相关的挑战?欢迎在评论区留下你的洞见,与我们一同绘制多模态 Scaling 新时代的蓝图!
参考资料
[1]
Chinchilla Scaling Laws (Hoffmann et al., 2022):
[2]
GPT-4:
[3]
Llama 2:
[4]
《Scaling Laws for Native Multimodal Models》(Shukor et al., 2025):
[5]
GPT-3:
[6]
[探索 NMM Scaling Laws:
[7]
LLaVA:
[8]
Flamingo:
[9]
预训练模型库:
[10]
背后的工程与战略考量:
[11]
边缘 AI:
[12]
Chameleon 系列模型:
[13]
技术报告显示:
[14]
Mixtral 8x7B:
[15]
一些分析所指出的:
[16]
近期的研究中: https://openreview.net/forum?id=y1iU5czYpE
[17]
Google 的 LIMoE 研究:
[18]
Expert Choice Routing:
[19]
动态容量缓冲:
[20]
不同的研究:
[21]
Claude 3:
[22]
公开的最佳实践分享:
[23]
[Google AI Blog on Gemini:
[24]
[OpenAI GPT-4 Research:
[25]
数据混合定律:
[26]
反复强调的那样:
[27]
也曾暗示:
[28]
近期的行业分析中:
[29]
相关挑战已被广泛讨论:
来源:人工智能学家