如何利用跨区域网络将分布式数据中心连接成大型 AI 工厂

B站影视 港台电影 2025-09-26 18:00 1

摘要:AI 技术日益复杂,训练与推理领域的新进展对数据中心提出了更高的要求。随着数据中心算力的迅速提升,数据中心基础设施逐渐受到了和算法和模型无关的基础物理条件的限制,如电力供应、散热能力以及空间限制等,制约了 AI 工厂的物理扩展。为了持续增长,在构建新的数据中心

AI 技术日益复杂,训练与推理领域的新进展对数据中心提出了更高的要求。随着数据中心算力的迅速提升,数据中心基础设施逐渐受到了和算法和模型无关的基础物理条件的限制,如电力供应、散热能力以及空间限制等,制约了 AI 工厂的物理扩展。为了持续增长,在构建新的数据中心时,需要考虑通过远程互连技术将这些计算资源池化在一起,实现协同服务于单一训练任务或分离式推理工作负载。

传统上,当采用基于通用商业芯片构建的远程互连以太网来连接多个数据中心时,首要目标是确保数据能够准确送达目的地。由于传输距离较长,延迟较高,导致网络拥塞的概率显著增加,其后果可能很严重。

为缓解这一挑战并防止丢包,通用以太网供应商采用了深度数据包缓存作为解决方案,以此来吸收网络流量的大规模突发,并已部署了这种方案。这种深度缓冲交换机虽适用于远程服务提供商和电信应用,却在 AI 应用中出现了问题。

特别是,基于深度缓冲交换机的高延迟是其天然的弊病,此外,当缓冲被填满时,就必须进行排空。对于 AI 工作负载而言,这种情况发生的不可预测性,会导致大量的网络抖动或数据传输波动。高延迟和这种网络突发流量吸收技术带来的不确定性,会影响训练和分离式推理的性能,因为这些任务本质上是同步的,需要网络提供稳定且可预期的传输表现。

本文介绍了面向跨区域网络的 NVIDIA Spectrum-XGS 以太网技术是如何实现不同数据中心之间的互连,并提供满足 AI 应用所需的高性能。

什么是跨区域网络?

跨区域网络是一种新型的 AI 计算网络互连架构,可被视为一个新维度,独立于现有的纵向扩展和横向扩展网络。借助于跨区域网络的 Spectrum-XGS 以太网,不同规模和不同距离的多个数据中心能够被整合为一个统一的大型 AI 工厂,首次实现了在跨地域的多个独立的数据中心之间运行大规模单 AI 训练与推理任务所需的网络高性能。

图 1. AI 所需的三种网络类型是纵向扩展、横向扩展和跨区域扩展

NVIDIA Spectrum-XGS 以太网

如何实现跨区域网络扩展?

NVIDIA Spectrum-XGS 以太网是 NVIDIA Spectrum-X 以太网网络平台的一项新技术。它采用了同样的 Spectrum-X 以太网交换机和 ConnectX-8 SuperNIC 硬件组合,以及和数据中心内横向扩展网络相同的软件栈与通信库。

借助 Spectrum-XGS 以太网,AI 工厂之间可实现长距离连接,如 500 米以上的连接,这意味着实现园区内不同建筑之间的连接,或者跨越数十乃至数百英里,实现跨城市、跨州乃至跨国之间的连接。为了支持这种跨区域扩展的连接需求,保障高效带宽与性能隔离的算法也必须持续发展。

距离感知算法在跨区域网络扩展中

的作用是什么?

长距离传输数据面临的主要挑战之一是延迟的增加,即使数据以光的形式在光纤中传播也是如此。数据在玻璃纤维中每传输 1 米需要 5 纳秒,意味着每传输 1 公里需要 5 微秒。尽管这些数值看似微小,但在 GPU 之间的通信中,每微秒都至关重要。

Spectrum-XGS 以太网采用了改进的基于遥测技术的拥塞控制与动态路由算法,专门根据通信设备之间的距离进行了优化。在每次连接建立时,网络会知道相互连接的两台设备是在数据中心内,还是跨越数据中心。

这有助于交换机确定动态路由负载均衡的最佳策略,并通知 SuperNIC 调整面向拥塞控制的数据注入速率。在网络层面,这使得 Spectrum-XGS 以太网能够高效处理通信,并避免额外延迟。

Spectrum-XGS 以太网技术在跨区域网络方面具有多项显著优势,包括:

集成、统一的网络架构: Spectrum-X 以太网横向扩展和 Spectrum-XGS 以太网跨区域扩展均基于相同的硬件、软件和通信库。可以工作负载和网络操作的统一管理,这是通用以太网无法实现的。基于遥测的端到端拥塞控制: 统一架构还支持全局网络可视化。借助来自数据中心内外网络的全面遥测数据,无需深度缓冲交换即可实现基于遥测的拥塞控制。智能、自动调节负载均衡: Spectrum-X 以太网 AI 网络具有距离感知和 NVIDIA 集合通信库(NCCL)-感知功能,能够感知和补偿由位置而导致的不同网络流量模式,并动态调整临界值和限制,以确保最高的网络性能。更大限度地降低跨区域工作负载的延迟: Spectrum-XGS 以太网专为提供可预测的结果而进行了优化,这使网络能够感知和补偿远距离传输的数据流,最大限度地减少延迟损失,且不存在深度缓冲带来的抖动风险。弹性跨区域扩展能力: 由于相同的硬件被用于横向扩展和跨区域扩展,因此可以重新分配网络资源以支持数据中心内或数据中心间的流量。通用的浅缓冲以太网交换机无法被用于远程连接。

NVIDIA Spectrum-XGS 以太网

有哪些性能优势?

为展示 NVIDIA Spectrum-XGS 以太网对跨区域扩展性能的影响,NVIDIA 工程师在相距 10 公里的多点之间运行了 NCCL 测试,并将其结果与通用以太网进行了对比。如图 2 所示,性能优势十分显著:

图 2. 与通用以太网相比,NVIDIA Spectrum-XGS 以太网可将性能提升高达 1.9 倍

相较通用以太网,NVIDIA Spectrum-XGS 以太网可提供高达 1.9 倍的 NCCL All-Reduce 带宽,特别是对于大消息,性能提升尤为显著,而这正是 AI 训练工作负载中的典型场景。NCCL 性能的提升有助于缩短 AI 应用的任务完成时间。

跨区域网络如何提高

AI 工厂的投资回报率?

NVIDIA Spectrum-XGS 以太网增强了 AI 基础设施的灵活性。该技术使数据中心能够在任意距离下实现高效通信,且不牺牲性能,从而构建出可在横向扩展架构与跨区域网络扩展之间共享的通用平台。基于 Spectrum-XGS 以太网的多个以太网数据中心能够被轻松整合为一个统一的整体,突破了地理位置的限制。

基于 Spectrum-XGS 构建的以太网数据中心能够被无缝整合为单一系统运行,无论相距多远。这使得关键任务型 AI 基础设施可以高效池化数据中心资源,持续为复杂 AI 工作负载提供价值。

如需深入了解支持 NVIDIA Spectrum-X 以太网的技术创新,敬请参阅 NVIDIA Spectrum-X 网络平台架构:

来源:NVIDIA英伟达中国

相关推荐