全新GPU高速互联设计,为大模型训练降本增效

B站影视 日本电影 2025-05-19 14:28 2

摘要:以交换机为中心的HBD(如NVIDIA NVL-72)成本高昂、不易扩展规模;以GPU为中心的HBD(如 Google TPUv3和Tesla Dojo)存在严重的故障传播问题;TPUv4等交换机-GPU混合HBD采用折中方案,但在成本和容错方面仍然不甚理想。

InfiniteHBD团队 投稿

随着大模型的参数规模不断扩大,分布式训练已成为人工智能发展的中心技术路径。

如此一来,高带宽域的设计对提升大模型训练效率至关重要

然而,现有的HBD架构在可扩展性、成本和容错能力等方面存在根本性限制

以交换机为中心的HBD(如NVIDIA NVL-72)成本高昂、不易扩展规模;以GPU为中心的HBD(如 Google TPUv3和Tesla Dojo)存在严重的故障传播问题;TPUv4等交换机-GPU混合HBD采用折中方案,但在成本和容错方面仍然不甚理想。

为解决上述问题,北京大学、阶跃星辰和曦智科技的研究团队提出了InfiniteHBD,这是一种以光交换模组为中心的高带宽域架构

InfiniteHBD通过将低成本光交换(OCS,Optical Circuit Switching)能力嵌入每个光电转换模组,实现了数据中心规模的低成本可扩展性和节点级故障隔离能力。

InfiniteHBD的单位成本仅为NVL-72的31%,GPU浪费率接近零(比NVL-72和TPUv4低一个数量级以上),且与NVIDIA DGX(每节点8个GPU)相比,MFU最高提升3.37 倍。

该项目论文已被SIGCOMM 2025接收。

大模型的分布式训练涉及多种并行策略,每种策略对应不同的通信需求。

数据并行(DP,Data Parallelism)、流水线并行(PP,Pipeline Parallelism)、上下文并行(CP,Context Parallelism)和序列并行(SP,Sequence Parallelism)等策略通信开销较低,通常可通过传统数据中心网络(如Fat-Tree或Rail-Optimized架构)提供的200–800 Gbps带宽完成。

而张量并行和专家并行则通信密集,需依赖高带宽域(HBD,High-Bandwidth Domain)提供Tbps级带宽支持,因此HBD成为影响训练效率的关键因素。

现有用于大模型训练的HBD架构,可根据其提供连接的关键组件分为三类。

第一类是以交换机为中心的HBD,如NVIDIA的DGX和GB200 NVL系列。

这类架构通过交换机(如NVLink Switch)互连GPU,能够实现高性能的任意节点通信(any-to-any communication)

然而,以交换机为中心的HBD存在几个明显的局限

大量使用高带宽交换机和链路,导致互连成本大幅上升,限制了系统的扩展能力,并引发严重的资源碎片化。例如,在NVL-36上运行TP-16作业时,即使无故障发生,仍有约1/9的GPU无法利用,造成资源浪费。存在交换机级的故障爆炸半径问题,即单个交换机故障可能导致其下所有GPU的带宽受损,显著影响整体训练性能。

第二类是以GPU为中心的HBD架构,如SiP-Ring、Google TPUv3和Tesla Dojo。

这类架构通常构建Ring或Mesh拓扑的GPU间直连,显著降低了互连成本并提升了扩展性。

但与此同时,它们也面临HBD级别的故障爆炸半径问题:单个节点故障会导致相邻一组节点的带宽降级,并且破坏整个拓扑结构。

例如,在SiP-Ring中,任一GPU故障都会中断环形连接,将原本的环状拓扑退化为一条线性拓扑,严重影响通信性能。

第三类是交换机-GPU混合型HBD架构,这类设计结合了GPU间直连和交换机链路。

一个典型代表是TPUv4,它将TPU组织成4×4×4的立方体结构,并通过光交换机(OCS)互连各个立方体,支持规模扩展至4096个TPU。

TPUv4在互连成本与扩展性之间取得了一定平衡,同时能够将节点故障隔离在各自的立方体内部。

然而,TPUv4仍存在一些显著不足:

由于OCS交换机故障,仍可能出现交换机级别的故障爆炸半径问题。

立方体级故障爆炸半径,即立方体内任一节点故障,可能导致整个立方体通信性能下降,影响训练效率。

如下图所示表格中所总结的,现有的HBD架构在可扩展性、互连成本、容错性和碎片化方面存在根本性的限制。

为了指导更优的设计,研究人员分析了现有训练工作负载,并总结出理想HBD应具备的三大关键属性

随着集群规模和模型规模的扩大,最大化MFU(Model FLOPs Utilization)所需的最优TP组大小也不断增长。这凸显了HBD需要支持大规模、动态可重配置TP大小的重要性。因此,理想的HBD应兼具低成本、高扩展性和灵活重构能力。由于EP存在负载不均的问题,MoE模型在采用大规模纯TP训练时,依然能够相比EP保持较高的效率。这表明,只需针对TP的Ring-AllReduce通信进行优化,便可覆盖大部分主流训练场景,同时大幅简化拓扑设计的复杂性。此外,HBD还应具备出色的容错能力和高GPU资源利用率,确保在节点故障情况下训练任务依然能够高效运行。

基于以上分析,研究团队提出设计一种面向大规模训练、支持动态重构、低成本且高容错的HBD架构,专门针对TP Ring-AllReduce通信进行优化,助力下一代大模型训练。

通过在光电转换模组中嵌入OCS能力,InfiniteHBD实现了动态可重构的点对多点连接,具备节点级故障隔离和低资源碎片化的能力,在可扩展性和成本上全面优于现有方案。

InfiniteHBD的设计包含三项关键创新:

OCSTrx将基于MZI(Mach-Zehnder Interferometer)交换矩阵的OCS集成进商用QSFP-DD 800Gbps光电转换模组。

硅光子技术大幅简化了器件结构,降低了成本和功耗,显著提升了InfiniteHBD的性价比和规模可扩展性。

每个OCSTrx连接两块GPU,并提供三种通信路径:

回环路径实现现节点内GPU间直连(Path3)。外部链路分别连接到不同的外部节点(Path1&2)。

所有路径采用时分复用设计,同一时刻仅激活一条通信路径,独占所有GPU带宽,且切换延迟低于1ms,实现了动态故障切换和灵活拓扑构建。

通过OCSTrx,节点可以与所有K跳以内的节点直接互连。

在2-Hop Ring中,节点N3连接至N1、N2、N4和N5。

节点内拓扑通过激活回环路径,可在任意位置动态构建任意大小的GPU粒度环,灵活支持大规模、可变尺寸的TP组。

例如,N1和N2通过OCSTrx的不同路径激活,在N1和N2的GPU1-4之间形成一个完整环路。

节点间容错:当某节点故障时,邻居节点动态激活备用路径,快速绕过故障节点,实现节点级故障隔离。

例如,若N2故障,N1和N3的外部路径自动连接,GPU通信环路得以修复。

TP的节点放置方案直接影响数据中心网络(DCN网络,如Roce网络)中的并行通信流量(如DP流量)。

不合理的 TP 分布会导致大量的跨架顶式交换机(ToR,Top of Rack)通信,增加网络拥塞风险。

部署阶段:在集群布线时优化DCN流量局部性,例如在Fat-Tree架构中,布线确保TP组内通信尽量在同一ToR内完成,减少高层交换机负载。运行时阶段:根据作业规模、并行策略、实时故障模式和DCN流量模式,动态计算最优TP放置方案,在最大化GPU利用率的同时,最小化跨ToR流量。

在大规模仿真中,该项目采用配备4颗NVIDIA H100 GPU的节点作为仿真选型。

对比评估的HBD架构包括:

Big-Switch(理想模型,所有节点通过一台大型交换机互连)InfiniteHBD K-Hop Ring(K=2和K=3配置下的InfiniteHBD)NVL-36/72/576TPUv4SiP-Ring

所有HBD架构的单GPU带宽均设置为6.4Tbps,数据中心网络(DCN)采用传统Fat-Tree拓扑,每颗GPU配备400 Gbps带宽。

故障弹性评估基于两种故障模式进行:

一是采集自真实10000 GPU规模生产环境的348天的故障追踪数据,二是基于故障概率模型生成的仿真数据。

首先,研究人员评估了不同HBD架构的故障弹性表现。

具体来说,将“浪费的GPU”定义为因故障扩散或资源碎片化而无法参与计算的健康GPU。

GPU浪费率成为衡量HBD故障弹性的重要指标。

下图展示了基于生产环境故障追踪数据,不同TP规模下各HBD架构随时间变化的GPU浪费率。

下图则基于故障概率模型。

它描绘了在不同节点故障率下,各HBD架构GPU浪费率的变化趋势。

在两种故障模式下,InfiniteHBD均实现了近乎零的GPU浪费率,较NVL-36、NVL-72、TPUv4和SiP-Ring低一个数量级。

尽管NVL-576因其更大规模的HBD设计表现出一定程度的故障弹性,但其互连成本极高,几乎无法接受。

接下来,研究者进行了模型训练性能的端到端评估,探索了在Llama3.1-405B和GPT-MoE 1.1T训练中最大化MFU的最优并行策略,进一步验证了前文动机部分提出的关键观点。

在Llama3.1实验中,结果表明,训练过程中需要采用TP-16、TP-32、TP-64甚至更大规模的TP组。

与传统的8-GPU HBD架构(如NVIDIA DGX系统)相比,InfiniteHBD最高可将MFU提升至3.37倍。

在GPT-MoE实验中,结果显示,训练MoE模型时,最优的并行策略并不依赖专家并行,通过采用大规模TP同样可以实现高效训练。

整体实验结果表明,InfiniteHBD能够有效满足大规模LLM训练对计算效率与通信性能的双重需求。

随后,团队评估了HBD-DCN编排算法在通信效率优化方面的效果。

Baseline方法为一种贪婪算法,即随机选择节点,并采用第一个满足作业需求的排列方案

如下图(a)所示,优化算法在不同集群规模下表现稳定,跨ToR流量几乎无明显波动,表明其对集群规模变化不敏感。

下图(b)展示了作业规模比(Job Scale Ratio,作业占集群总计算资源的比例)对跨ToR流量的影响(节点故障率固定为5%)

Baseline方法始终维持约10%的跨ToR流量,而优化算法即便在作业规模比达90%时,仍将跨ToR流量降低5.8倍,显示出优异的高负载优化能力。

下图(c)进一步分析了节点故障对算法性能的影响(作业规模比固定为85%)

随着故障率上升,基线方法的跨ToR流量线性增长,而优化算法在节点故障率低于7%时,持续保持近乎零的跨ToR流量,展现了出色的韧性和容错性。

最后,团队还分析了不同HBD架构的互连成本与能耗。

结果表明,InfiniteHBD在这两方面均具有明显优势,其互连成本仅为NVL-72的31%、TPUv4的63%,同时在能耗方面也处于最低水平,仅为NVL-72的75%,并且与TPUv4持平。

团队介绍

一作寿晨宸,北京大学信息科学技术学院本科生,当前主要研究方向为机器学习系统和人工智能基础设施。

刘古月,本项目通讯作者之一。

她北京大学计算机学院助理教授、博士生导师,国家级青年人才。曾任卡耐基梅隆大学博士后,获乔治华盛顿大学博士学位。长期担任 SIGCOMM、NSDI、ASPLOS 专家组成员,并为首位 SIGCOMM Artifact 委员会亚洲共同主席。

在推动高带宽互连技术发展的过程中,作者团队与多方合作伙伴紧密合作。

阶跃星辰:阶跃星辰是行业领先的通用大模型创业公司,坚定探索实现通用人工智能的道路。公司于2023年4月成立,聚集人工智能领域的顶尖人才,已对外发布Step系列通用大模型矩阵,覆盖了从语言、多模态到推理的全面能力。

曦智科技:曦智科技成立于2017年,是全球领先的光电混合算力提供商。公司秉持“驭光突破算力边界”的愿景,致力于在算力需求大爆发的时代,通过光电混合算力新范式,为客户提供一系列算力提升解决方案,共建更智能、更可持续的世界。

据悉围绕OCS在高带宽互连领域的应用,上海智能算力科技有限公司已经在筹备相关的集群建设,推动该领域的应用和实践。作者团队感谢上海智能算力科技有限公司对于科技创新和探索的支持。

arXiv地址:

刘古月个人主页:

— 完 —

来源:量子位

相关推荐