摘要:生成式 AI、大语言模型和高性能计算呈指数级增长,这对数据中心基础设施提出了前所未有的要求。传统服务器架构难以满足现代加速计算在功率密度、散热需求和快速迭代周期方面的要求。
生成式 AI、大语言模型和高性能计算呈指数级增长,这对数据中心基础设施提出了前所未有的要求。传统服务器架构难以满足现代加速计算在功率密度、散热需求和快速迭代周期方面的要求。
本文介绍了 NVIDIA MGX 的优势,这是一种用于加速计算的模块化参考架构,它正在重新定义企业和云服务提供商构建可扩展 AI 工厂的方式。
为何模块化架构如今至关重要?
借助 NVIDIA MGX,合作伙伴可以像搭积木那样设计多种系统,从而节省开发成本并缩短产品上市时间。NVIDIA MGX 支持多代产品以及数百种 GPU、DPU、CPU、存储和网络的组合方案,适用于 AI、HPC 和数字孪生等领域。
当前推动 NVIDIA MGX 广泛应用的三大趋势包括:
功率密度与散热:现代 AI 计算的高要求促使功率密度不断提高,并推动液冷基础设施越来越普及。例如,NVIDIA Blackwell GPU 需要单机架功率最高可达 120 千瓦的全机架级解决方案,来满足由此产生的多项技术要求。MGX 通过液冷汇流排和歧管来满足这些需求,即使在 1400A 的负载下仍能将冷却液温差控制在 15°C 以内,从而能够在不影响性能或可靠性的情况下实现高密度的机架级部署。异构工作负载支持:企业需要在同一数据中心内管理日益多样化的工作负载,包括使用 72-GPU NVIDIA GB200 NVL72 集群的 AI 后训练、需要测试时扩展的推理任务以及数字孪生模拟。MGX 的模块化混搭兼容性使企业能够针对特定工作负载定制基础设施,而且无需重新设计整个机架。供应链敏捷性:MGX 支持在工厂内预集成约 80% 的组件,包括汇流排、冷板和电源线束。这简化了构建过程,使 ODM 厂商能够将部署周期从 12 个月缩短到 90 天以内。基于这些趋势,像 MGX 这样标准化且稳定的架构能够确保可靠、兼容的服务器部署,使之在不牺牲互操作性的前提下,满足不断发展的性能需求。这种稳定性对企业实现基础设施投资的前瞻性布局至关重要,同时还保留了适应新兴工作负载和技术的灵活性。
庞大的 MGX 生态系统让企业可以灵活地选购多样化的组件并避免供应商锁定,这能够最大限度地降低投资风险、缩短交货时间并减少不确定性。由于合作伙伴能够自由地在广泛的认证组件中进行选择,MGX 使组织在优化其数据中心构建时能够降低成本、提高性能和供应链弹性。
基于标准的模块化 MGX 设计简化了集成过程,消除了对定制解决方案的需求,从而实现了快速、成本可控的部署和更具灵活性的扩展。这种方法不仅加快了上市时间,还简化了后续维护和升级,使企业能够根据需求增长和技术发展情况高效地扩展 AI 工厂。
MGX 机架系统内部构造
NVIDIA MGX 机架系统围绕两大核心模块构建:计算托盘和 NVLink 交换机托盘。每个计算托盘都配备了强大的 CPU 和 GPU 组合,例如 NVIDIA Grace CPU 与 NVIDIA Blackwell GPU 的搭配。它们为 AI 训练、推理和模拟工作负载提供核心加速计算性能。NVLink 交换机托盘则提供高速、低延迟的互连结构,将这些计算托盘连接在一起,实现 GPU 到 GPU 的无缝通信和整个机架的高效扩展。
然而,完整的 MGX 机架系统还远不止计算和交换机托盘。为了满足现代 AI 工厂对规模和效率的运行要求,该系统还依赖强大的机械、电气和管道(冷却)基础设施,包括:
机械组件:模块化 MGX 机架本身为高密度数据中心部署提供了所需的结构完整性和可维护性。电源架支架将电源架固定在机架内,而滑轨则便于机架式设备的安装和维护。电气组件:在电力输送与连接方面,MGX 54V 汇流排和 MGX 1400A 汇流排在整个机架内高效地分配电力,支持 HPC 负载。33 kW 电源架为系统提供充足的电力,而 MGX 电源线束可以灵活地连接电源架和汇流排。MGX 高速电缆保障高速数据传输,确保计算托盘和交换机托盘之间保持最优的通信。管道或冷却组件:MGX 冷板为 GPU 提供高效液冷,维持其最佳运行温度。MGX 44RU 歧管用于管理机架内的冷却液分配。MGX NVQD(NVIDIA 快换接头)和 MGX UQD(通用快换接头)等快换接头实现液冷管线的快速安全连接,简化维护并最大限度地减少停机时间。这种模块化方法可以显著节省时间,因为标准组件可以在工厂预安装,并通过即插即用的电源和冷却装置在现场集成。
NVIDIA GB200 NVL72 和 GB300 NVL72 系统中的 MGX 组件是基础架构,用于管理功率密度和热负载,使这些液冷机架级平台能够提供前所未有的 AI 性能。通过将先进的液冷 MGX 架构集成到 Blackwell 计算节点中,NVIDIA 满足了 GB200 NVL72 的单机架 120 千瓦的能耗需求,而 GB300 NVL72 的 72 个 Blackwell Ultra GPU 则需要更高的散热协调能力,以实现其高达 50 倍的 AI 推理输出提升。
这种设计理念需要机械工程团队(优化冷却液分配)、电源专家(高效电压调节)与制造合作伙伴(实现前端可维护性)之间的紧密协作。所有这些都通过 NVIDIA 的芯片级 NVLink 互连技术统一起来,该技术将 36 个 Grace CPU 和 72-144 个 GPU 绑定到一个统一的计算域中。这种联合设计的解决方案比前代 NVIDIA Hopper 集群的能效提升了 25 倍,展现了 MGX 的系统集成如何将原始算力转化为可扩展的 AI 基础设施。
变革 AI 工厂的设计与部署
NVIDIA MGX 为整个数据中心生态系统带来了切实的好处。
对于系统制造商来说,通过共享参考设计,MGX 使每个平台的研发成本降低了 200 万至 400 万美元,并使团队能够一次性认证整个 NVIDIA 软件栈,其中包括 NVIDIA CUDA-X、NVIDIA AI Enterprise 和 NVIDIA Omniverse。
对于数据中心运营商来说,能够使用一致的电源和冷却接口,实现从 8-GPU 节点无缝扩展到 144-GPU 机架,同时由于电源效率高达 94% 且冷却管道系统可重复使用,总体拥有成本降低了 50%。
对于 AI 工作负载来说,MGX 使各组织能够利用 NVLink 交换机在 72-GPU 的统一的计算域上训练参数量高达 1.8 万亿的模型,并在 72 节点机架上部署延迟波动小于 5 毫秒的推理集群。
开始使用
NVIDIA MGX 不仅仅是一项机架标准,更是 AI 工厂时代的基础。随着 200 多家生态系统合作伙伴已采用 MGX 组件,企业由此获得了通往未来 exascale 级 AI 的路径。随着 NVIDIA Blackwell、NVIDIA Rubin 等不断突破计算边界,MGX 模块化架构确保了 AI 工厂能够随着芯片创新的不断发展,并通过模块化升级路径来保护数据中心投资。
开始使用 NVIDIA MGX 请访问:https://www.nvidia.cn/data-center/products/mgx/?sessionid=1129456152。更多信息,请收看 NVIDIA 创始人兼首席执行官黄仁勋的 COMPUTEX 2025 主题演讲。
来源:NVIDIA英伟达中国