谷歌团队再次证明Scaling Law的准确性,即使总通信量减少99%,仍能超越数据并行训练

B站影视 内地电影 2025-03-18 03:12 1

摘要:Scaling Law 由 OpenAI 团队于 2020 年正式提出,并在其论文《神经语言模型的扩展定律》(Scaling Laws for Neural Language Models)中进行了详细阐述。Scaling Law 揭示了模型性能与模型规模、数

排版:初嘉实

Scaling Law 由 OpenAI 团队于 2020 年正式提出,并在其论文《神经语言模型的扩展定律》(Scaling Laws for Neural Language Models)中进行了详细阐述。Scaling Law 揭示了模型性能与模型规模、数据量和计算资源之间的数学关系。但在这两年,由于实际应用局限性、理论解释不完善等原因,Scaling Law 遭到了一些质疑。而 Google 旗下两支团队的最新研究,似乎又给 Scaling Law 投上了一张支持票。

在大模型领域,数据并行训练(Data-Parallel)方法占据着核心地位,它是训练大模型的基础技术之一。然而,随着模型规模的不断增大,数据并行训练方法的通信开销和内存限制等缺点日益凸显。

为此,Google DeepMind 此前研发出一种名为 DiLoCo(分布式低通信优化,Distributed Low-Communication Optimization)的方法,其具备减少通信开销和提高扩展性等优势。

近日,来自 Google Research 和 Google DeepMind 的研究人员发现 DiLoCo 竟然具备更多优势。

研究中,他们研究了在固定计算预算之下训练大模型时 DiLoCo 的 Scaling Law 行为,借此揭示了 DiLoCo 一系列更通用的优点:包括其能够增加最佳 batch 大小、能够提高下游规模的泛化能力、能够在固定 token 预算之下改善评估损失。(注:评估损失,是指模型在验证集或测试集上计算出的损失值。)

研究人员发现随着模型尺寸的增大,DiLoCo 会呈现出可预测的稳健扩展。如果调整得当,DiLoCo 的模型规模扩展性优于数据并行训练方法,即使在小模型规模下 DiLoCo 也能胜过数据并行训练方法。

研究人员:Scaling Law 是准确的

而本次研究中,基于相关数据研究人员为数据并行训练方法和 DiLoCo 分别建立了评估损失和最优超参数的 Scaling Law。

借此证明,当 Scaling Law 扩展到更大的模型规模时,其具备更好的评估损失和最优超参数。

令人十分惊讶的是:许多情况下对于相同的 token 预算,在通信效率更高的 DiLoCo 上,这些 Scaling Law 预测会比数据并行训练方法产生更低的评估损失。

为了利用研究人员的 Scaling Law 来预测 DiLoCo 的超参数,他们分别在训练具有 40 亿参数和 100 亿参数的模型时加以测试。

事实证明,Scaling Law 是准确的。即使总通信量减少 99% 以上,DiLoCo 的表现也能优于数据并行训练。

对于研究中的每个实验,在不同带宽和不同延迟的网络下,研究人员都能实现理想的端到端 wall-clock 训练时间。(注:wall-clock time,指的是从任务开始到结束所经历的实际时间,包括所有等待时间和计算时间。)

研究人员的实验包括 M = 1 的 DiLoCo(即仅使用单个副本)。而在这些数据中一个令人惊讶的现象是:即使没有通信瓶颈,DiLoCo 也能改进训练效果。

由于 DiLoCo 实际上是另一种优化算法 Lookahead optimizer 的增强版本,因此它不会导致任何通信的减少。

然而,通过使用低频动量操作,无论在怎样的模型规模下,DiLoCo 在评估损失和对更大 batch 的容忍度上,都要优于数据并行训练方法。

值得注意的是,M=1 的 DiLoCo 在评估损失和训练时间方面都优于数据并行训练方法。

研究人员发现,M=1 的 DiLoCo 在所有模型尺度上都能实现较低的评估损失,并且能对更大的 batch 产生更好的鲁棒性,从而能够大大减少 wall-clock 训练时间。

研究中,研究人员分别通过数据并行训练方法和 DiLoCo 来开展模型训练。

在数据并行训练方法中,在每一步研究人员都会获取一个 batch 大小为 B 的数据。

然后,研究人员计算批次梯度(batch gradient),并使用学习率 γ 进行优化。

在比较数据并行方法和 DiLoCo 时,研究人员始终确保模型大小 N 和总 token 预算 D 保持相同。

为了计算某些留出集的评估损失 L,针对数据并行方法研究人员使用当前模型,针对 DiLoCo 研究人员使用最新的全局模型。(注:留出集,是指从原始数据集中特意保留的一部分数据,用于评估模型的泛化性能。)

在谷歌张量处理单元 TPUv5e 和 TPUv6e 上进行实验

在具体的实验方法上,研究人员使用 Chinchilla-style 的仅解码器 Transformer 架构。

同时,使用 QKLayerNorm 来降低对于学习率的敏感性。需要说明的是,QKLayerNorm 是一种改进的层归一化技术,主要用于 Transformer 架构中的自注意力机制。另外,研究人员还使用 z 损失正则化来提高训练稳定性。

本次研究使用的词汇量为 32,768:其中有 32,000 个词汇表内的单词,另外还有一些额外的标记用于表示句子开头和词汇表外的内容。

实验中,研究人员将多个序列打包到每个 batch 中,整个 batch 的最大序列长度为 2048。

这时,研究人员开始针对一系列的模型进行训练,这些模型的 transformer 层数、注意力头数量、QKV 维度和前馈层隐藏维度各不相同。

其中,QKV 维度是指查询(Query)、键(Key)和值(Value)向量的维度。这些向量是自注意力机制的核心组成部分,用于计算输入序列中不同位置之间的关系。

图 | 每个模型比例的架构细节(来源:arXiv)

在大多数实验中,研究人员全程使用 C4 数据集的训练集来训练模型。

此外,还计算了 3 项任务的下游零样本评估指标:HellaSwag、Piqa 和 Arc-Easy。在进行过度训练消融时,使用了 Dolma 数据集。

其还使用了一个改进版的 NanoDO,它利用 DrJAX 在副本之间并行化内部训练步骤,并将模型副本轴暴露出来以便进行显式编程。这对于 JAX 中更好的扩展性能至关重要,因为 DrJAX 提供了 jax.vmap 的丰富版本,能够提供有关 DiLoCo 副本的更明确的分片信息。

与此同时,研究人员使用 all-reduce 进行外部优化。all-reduce 是一种分布式计算中的通信操作,用于在多个 GPU 或多个 TPU 之间高效地聚合数据。

研究中,其始终使用 bfloat16 来表示模型权重和梯度。bfloat16 是一种 16 位浮点数格式,它由 Google 团队开发,它在保留 32 位浮点数动态范围的同时,能够减少存储和计算开销。

研究人员在谷歌张量处理单元 TPUv5e 和 TPUv6e 上进行了大部分实验,并在 TPUv-5 上进行了最大规模的实验。

对于每个实验,其还计算了一个理想化的 wall-clock 训练时间,并在这一时间中考虑了理想化的计算时间和通信时间。同时,其还专门测量了端到端的 wall-clock 时间。

其发现,更大的水平并行化例如通过将 batch 大小加倍,将能够减少 wall-clock 时间。

实验中,研究人员假设其模型正在跨多个数据中心开展训练。当在数据中心之内的时候,能够拥有一个高带宽网络。当跨数据中心的时候,则分别拥有高带宽、中带宽或低带宽的网络。

当通信时间处于理想状态的时候,研究人员始终将高带宽网络用于数据中心内的网络,以及将三种网络中的任意一种用于跨数据中心网络。

DiLoCo:能实现更自然的水平扩展

利用相关数据,研究人员推导出了 Scaling Law,从而能够预测较大模型的评估损失和最优超参数。

根据 Chinchilla Scaling Law,研究人员假设最优 token 预算由 D=20N 给出。

这意味着在模型大小固定的情况下,如果将 batch 大小 B 加倍,则训练步骤的数量将会减半。

实验中,研究人员通过使用 Scaling Law 设置的超参数来训练 4B 和 10B 模型来验证上述观点。

尽管下图展示的是“插值”区域的情况,同时这也是大量扫描的结果,但是这些发现从定性角度来看,同样适用于“外推”区域。这使得研究人员在 M = 1、2 时,能够使用 DiLoCo 将 40 亿参数和 100 亿参数量的模型训练得拥有更低的评估损失。

结果显示,DiLoCo 能够实现更自然的水平扩展性。无论在任何情况,token 预算 D 仅仅是 N 的函数。

这意味着当使用 4 倍大的 batch 时,训练步骤能够减少到原来的 1/4。

对于 DiLoCo 来说,这会产生相当好的性能,并且可以同时使用更多资源,从而减少模型总训练时间。

相比之下,数据并行训练方法似乎需要更多的串行训练。因为,训练时间的减少与通信的减少是相辅相成的。

为了展示这些效果,研究人员在下图中绘制了在不同带宽的网络下训练时的理想化 wall-clock 时间。

借此发现,DiLoCo 对更大 batch 的容忍度使其能够更快地实现与数据并行方法大致相当的损耗。

在下图中,研究人员绘制了不同过度训练量下数据并行方法和 DiLoCo 的理想训练时间(M = 2)。

其发现,DiLoCo 能够通过降低通信成本和利用更大的 batch 来加速过度训练,因此需要的串行训练步骤更少。

这表明 DiLoCo 对于过训练来说是一个巨大的福祉,因为这意味着可以通过横向可扩展性来摊销计算时间。(注:过训练,是指模型在训练过程中过度拟合训练数据,导致其在未见数据上的性能下降。)

与此同时,研究人员的结果表明,DiLoCo 和数据并行训练这两种方法通常都是有效的,尽管没有明确的赢家,但是 M 之间的残差存在显著差异。

尽管如此,研究人员发现平均而言,虽然独立拟合在预测损失和全局批量大小方面略优于联合拟合,但独立拟合在预测内部学习率方面要明显好得多。

总的来说,本次结果表明与数据并行方法一样,DiLoCo 可以随着模型大小的变化实现可预测的扩展,这使得在极大的尺度上调整超参数和训练模型变得更加简单。

此外,DiLoCo 相比数据并行方法可以带来显著优势,包括:使用单个模型副本时具备更优的评估损失,在任何模型副本数量下最优 batch 大小都能增大。对于模型规模、过训练和同步频率来说,这将产生更好的鲁棒性。

不过,眼下显然需要可用于大规模部署 DiLoCo 等方法的系统和软件,并能在真实的超大模型环境中实现其通信效率优势。

参考资料:

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问进入。

截止到2月28日 ”未来知识库”精选的100部前沿科技趋势报告

《核聚变,确保 21 世纪美国的主导地位的关键技术》

《世界知识产权组织:2025WIPO 技术趋势报告:交通运输的未来(145 页)》

《世界知识产权组织(WIPO):2024 年世界知识产权指标报告(194 页)》

《联合国环境规划署:2024 年保护地球报告(81 页)》

《联合国工发组织:2024 清洁技术创新能力建设框架研究报告(51 页)》

《凯捷:Applying TechnoVision 2025:未来科技趋势及应用愿景(17 页)》

《谷歌:2025 年 AI Agent 白皮书:AI 智能体时代来临(42 页)》

《富而德律师事务所:2024 年国际仲裁趋势年度回顾报告(41 页)》

《邓白氏:2024 年全球企业破产报告(27 页)》

《LLM 时代小模型的应用潜力与挑战 》(50 页)

《斯坦福 2025 斯坦福新兴技术评论十项关键技术及其政策影响分析报告》(英文版 191 页)

《英伟达:2025NVIDIA 自动驾驶安全报告(26 页)》

《微软 MICROSOFT (MSFT) 2024 年影响力摘要报告(23 页)》

《高德地图:2024 年中国主要城市交通分析报告(29 页)》

《德勤 & CAS:2025 锂离子电池回收行业报告 - 面向绿色未来的市场及创新趋势(36 页)》

《ABI Research:2025 生成式人工智能在语义和实时通信中的应用研究报告(20 页)》

《2025 年 3D 打印技术发展趋势、产业链及相关标的分析报告(45 页)》

《生成式基础模型的可信度 —— 指南、评估与展望》(231 页)

《量子信息科学与技术对国家安全的影响》(118 页)

《中国科学技术信息研究所:2024 科技期刊世界影响力指数(WJCI)报告(68 页)》

《思略特(Strategy&):2025 汽车行业的人工智能(AI)机遇研究报告(12 页)》

《赛默飞:2024 年中国生物科技行业调研报告:资本寒冬中生物科技企业的生产之道(18 页)》

《清华大学:2025 年 DeepSeek 与 AI 幻觉报告(38 页)》

《美国企业研究所(AEI):2025 创新未来电力系统研究报告:从愿景迈向行动(71 页)》

《超材料的智能设计研究进展》

《Ember:2030 年全球可再生能源装机容量目标研究报告(29 页)》

《量子信息科学与技术对国家安全的影响》

《英国人工智能安全研究所:2025 年国际人工智能安全报告 - 执行摘要(22 页)》

《世界海事大学:2024 海事数字化与脱碳研究报告:可持续未来(250 页)》

《艾睿铂(AlixPartners):2024 回溯过往锚定未来:大型科技公司如何推进人工智能愿景研究报告(18 页)》

《Wavestone :2025 数据与 AI 雷达:掌握数据与人工智能转型的 10 大挑战研究报告(30 页)》

《CSIS:2024 中美学术的再联结研究报告:在激烈竞争的时代增进相互理解(120 页)》

《MSC:2025 全球国防创新就绪度差距系列报告:突破制约国防创新的六大隐性障碍(第四版)(32 页)》

《2025 年 AI 编程发展前景及国内外 AI 编程应用发展现状分析报告(22 页)》

《中国核电 - 公司深度报告:世界核电看中国 - 250218(22 页)》

《医药生物行业:医疗器械行业全景图发展趋势及投资机会展望 - 250216(28 页)》

《皮尤研究中心:2024 美国社交媒体使用情况研究报告(英文版)(30 页)》

《科睿唯安:2025 基因编辑领域的领先创新者洞察报告 - 改变药物发现和开发范式的八大创新者(47 页)》

《经合组织(OECD):2025 年全球脆弱性报告(218 页)》

《计算机行业年度策略:AI 应用元年看好 Agent、豆包链及推理算力三大主线 - 250218(38 页)》

《国金证券研究所:从理想走向现实,全球人型机器人研究报告》

《深度解读 DeepSeek 原理与效应(附 PPT 下载)》

《兰德公司(RAND):2025 借鉴危机经验构建城市水安全韧性研究报告:五城案例分析(62 页)》

《凯捷(Capgemini):2025 行业创新洞察:电气化飞机推进系统研究报告(27 页)》

《国际能源署(IEA):2025 全球电力市场报告:至 2027 年的分析与预测(200 页)》

《Zenith:2025 年国际消费电子展(CES)趋势报告:AI 对消费科技、消费行为及传媒营销的变革性影响(17 页)》

《RBC 财富管理:全球透视 2025 年展望报告(33 页)》

《美国国防部和国家安全领域的十大新兴技术》(96 页)

《代理型人工智能全面指南》(45 页 ppt)

《麦肯锡 2025 人类工作中的超级代理。赋能人类解锁 AI 的全部潜力》(英文版 47 页)

《仲量联行(JLL):2025 美国制造业的复兴全面分析报告:未来制造业增长及工业需求前瞻(26 页)》

《未来的太空领域:影响美国战略优势的领域》

《Luminate:2024 年年终美国影视行业报告:数据及趋势洞察(40 页)》

《Anthropic:2025 年 AI 经济影响报告:AI 如何融入现代经济的各类实际任务(38 页)》

【ICLR2025】《LLMS 能否识别您的偏好?评估 LLMS 中的个性化偏好遵循能力》

《改进单智能体和多智能体深度强化学习方法》(219 页)

《美国安全与新兴技术中心:2025 中国学界对大语言模型的批判性思考通用人工智能 AGI 的多元路径探索研究报告》(英文版 29 页)

《世界经济论坛 & 麦肯锡:2025 以人才为核心:制造业持续变革的当务之急研究报告(40 页)》

《超越 ChatGPT 的 AI 智能体》(82 页 ppt)

《Harris Poll:2024 年汽车技术预测报告:消费者对先进汽车技术与功能的洞察(14 页)》

【新书】《人工智能智能体的应用》(527 页)

《哥伦比亚大学:超越 Chatgpt 的 AI agent 综述》

《欧盟标准组织 - 体验式网络智能(ENI)- 基于人工智能代理的下一代网络切片研究》

《中国科学院:2024 开放地球引擎(OGE)研究进展与应用报告(55 页)》

《中国工程院:2024 农业机器人现状与展望报告(70 页)》

《美国安全与新兴技术中心:2025 中国学界对大语言模型的批判性思考:通用人工智能 (AGI) 的多元路径探索研究报告(29 页)》

《罗兰贝格:2050 年全球趋势纲要报告之趋势五:技术与创新(2025 年版)(72 页)》

《理特咨询(ADL):2025 解锁聚变能源:驾驭聚变能商业化的机遇与挑战研究报告(20 页)》

《埃森哲:技术展望 2025—AI 自主宣言:可能无限信任惟先 - 摘要(12 页)》

《怡安(AON):2025 年气候和自然灾难洞察报告(109 页)》

《美国安全与新兴技术中心:2025 AI 翻车事故(AI incident):强制性报告制度的关键要素研究报告(32 页)》

《牛津经济研究院 2025 确保英国充分释放量子计算的经济潜力研究报告 》(英文版 64 页)

《欧洲创新委员会(EIC):2024 年科技报告(65 页)》

《大模型基础 完整版》

《国际人工智能安全报告》(300 页)

《怡安(AON):2025 年全球医疗趋势报告(19 页)》

《前瞻:2025 年脑机接口产业蓝皮书 —— 未来将至打造人机交互新范式(57 页)》

《联合国(United Nations):2024 技术与统计报告:从业者投资法指南(67 页)》

《经济学人智库(EIU):2025 全球展望报告:特朗普再次当选美国总统的全球影响(16 页)》

《大规模视觉 - 语言模型的基准、评估、应用与挑战》

《大规模安全:大模型安全的全面综述》

《Emplifi:2024 年 Q4 全球电商行业基准报告 - 社交媒体趋势洞察(37 页)》

《DeepMind:2025 生成式魂灵:预测人工智能来世的益处和风险研究报告(23 页)》

【AI4Science】《利用大型语言模型变革科学:关于人工智能辅助科学发现、实验、内容生成与评估的调研》

《世界银行:2025 极端天气高昂代价:气候变化背景下的马拉维金融韧性构建研究报告(76 页)》

《北京理工大学:2025 年中国能源经济指数研究及展望报告》

《Space Capital:2024 年第四季度太空投资报告(22 页)》

《NetDocuments:2025 年法律科技趋势报告(32 页)》

《CB Insights:2024 年度全球企业风险投资(CVC)状况报告:私募市场交易、投融资数据及分析(130 页)》

《Artlist:2025 年全球内容与创意趋势报告(59 页)》

《IBM 商业价值研究院:2024 投资人工智能伦理和治理必要性研究报告:AI 伦理前线五位高管的真实故事(24 页)》

《世界基准联盟(WBA):2025 塑造未来:对可持续发展目标(SDGs)影响最大的 2000 家公司研究报告(46 页)》

《清华大学:2025 年 DeepSeek 从入门到精通(104 页)》

《麦肯锡:2025 工作场所中的超级代理 (Superagency):赋能人类解锁人工智能的全部潜力(47 页)》

《凯捷(Capgemini):科技愿景 2025:关键新兴科技趋势探索(54 页)》

《硅谷银行(SVB):2025 年上半年全球创新经济展望报告(39 页)》

《BCG:2025 工业运营前沿技术:AI 智能体 (AI Agents) 的崛起白皮书(26 页)》

《DrakeStar:2024 年全球游戏与电竞行业报告(26 页)》

《理特咨询(ADL):2025 人工智能驱动的研究、开发与创新突破的新时代研究报告(80 页)》

《互联网安全中心(CIS):2024 年网络安全冬季报告:回顾与展望(30 页)》

《方舟投资(ARK Invest):Big Ideas 2025 - 年度投研报告(148 页)》

《DeepSeek:2024 年 DeepSeek-V2 模型技术报告:经济、高效的混合专家语言模型(52 页)》

《CB Insights:2024 年度全球风险投资状况回顾报告:私募市场交易、投融资和退出数据及分析(273 页)》

《全国智标委:2025 城市生命线数字化标准体系研究报告(105 页)》

《经合组织(OECD):2024 年全球政府创新趋势报告:促进以人为本的公共服务(46 页)》

《DeepSeek_R1 技术报告》

《摩根斯坦利报告 —DeepSeek 对于科技和更广义经济的含义是什么?》

《李飞飞最新 S1 模型的论文:s1 Simple test-time scaling》

《世界经济论坛 -《全球经济未来:2030 年的生产力》报告》

《2035 年技术融合估计:量子互联网、人机接口、机器学习系统、隐形机器人、增材制造》

《百页大语言模型新书》(209 页 pdf)

《量子技术和网络安全:技术、治理和政策挑战》(107 页)

《大语言模型中的对齐伪造》(137 页)

《2035 年技术融合估计:量子互联网、人机接口、机器学习系统、隐形机器人、增材制造》(美陆军 232 页)

《美国防部 CDAO:人工智能模型的测试与评估》(66 页 slides)

《自动驾驶的世界模型综述》

《Questel2024 深度学习领域专利全景报告》(英文版 34 页)

《深度解析 Palantir》(20250122_204934.pdf)

上下滑动查看更多

来源:人工智能学家

相关推荐