英伟达猛攻AI基建:新光交换机剑指数百万GPU!

B站影视 电影资讯 2025-03-19 17:00 1

摘要:一年一度的“AI界春晚”英伟达GTC大会本周盛大开幕,今日,面向AI时代的新型基础设施,英伟达发布两款新品,一款聚焦网络,推光电一体化封装网络交换机,为更大规模的AI工厂铺路,一款聚焦企业存储,构建AI数据平台,旨在提高AI智能体工作流程的性能和准确性。

作者 | ZeR0
编辑 | 漠影

智东西圣何塞3月18日报道,在扩展AI基础设施版图这件事上,英伟达已经是Next Level了。

一年一度的“AI界春晚”英伟达GTC大会本周盛大开幕,今日,面向AI时代的新型基础设施,英伟达发布两款新品,一款聚焦网络,推光电一体化封装网络交换机,为更大规模的AI工厂铺路,一款聚焦企业存储,构建AI数据平台,旨在提高AI智能体工作流程的性能和准确性。

英伟达将超大规模新型数据中心定义为AI工厂。随着AI工厂规模持续扩大,AI网络基础设施也需要迭代升级,而将硅光直接集成到交换机中是一项行之有效的策略。

数据是AI时代的原材料。英伟达通过与全球领先的存储企业合作,打造在混合数据中心部署和扩展AI智能体所需的新型企业基础设施,来更高效地挖掘存储在企业系统中的数据价值。

英伟达今日宣布推出光电一体化封装网络交换机NVIDIA Spectrum-X Photonics和Quantum-X,使AI工厂能够跨区域连接数百万GPU级别,同时大幅降低能耗和运营成本。

每端口1.6Tb/s的英伟达硅光交换机,创新地集成了光器件,激光器数量减少至1/4,与传统方法相比,能源效率提高到3.5倍,信号完整性提高到63倍,大规模组网可靠性提高到10倍,部署速度提高到1.3倍。

NVIDIA Quantum-X Photonics InfiniBand交换机预计将在今年晚些时候上市,领先的基础设施和系统供应商将在2026年推出Spectrum-X Photonics以太网交换机。

与传统以太网相比,Spectrum-X以太网网络平台可为多租户、超大规模AI工厂提供卓越的性能和1.6倍的带宽密度。

Spectrum-X光交换机具有多种配置,包括128个800Gb/s端口或512个200Gb/s端口,总带宽可达到100Tb/s,以及512个800Gb/s或2048个200Gb/s 端口,总吞吐量可达400Tb/s。

NVIDIA Quantum-X光交换机提供144个基于200Gb/s SerDes的800Gb/s InfiniBand端口,并采用液冷设计对板载硅光器件进行高效散热。其AI计算网的速度是上一代产品的2倍,扩展性是上一代产品的5倍。

在英伟达创始人兼CEO黄仁勋GTC主题演讲期间播放的视频中,Quantum-X光交换机的带宽达到115.2Tb/s。

内置有交换机管理模块,采用液冷散热。

Quantum-X光学封装里有Quantum-X800 ASIC芯片、6个光学子组件和18个硅光引擎。

Quantum-X800 ASIC的总吞吐量达到28.8Tb/s,采用台积电4N工艺,拥有1070亿颗晶体管,网络内自带3.6 TFLOPS FP8 SHARP算力。

324个光学连接器串联起这一系统,总计有36个激光输入和288个数据连接,内置光纤管理功能。

其中,光子组件是可拆卸的,每个组件拥有3个硅光引擎,总吞吐量为4.8Tb/s。

每个硅光芯片引擎拥有200GB/s的微光调制器,总吞吐量为1.6Tb/s,可实现3.5倍节能。

硅光引擎采用台积电N6工艺,拥有2.2亿颗晶体管、1000个集成的光学器件。

这一系统还拥有多平面数据连接器,拥有1152个单模光纤。

外置光源有8个集成激光系统,具备自动温度检测和波长、能耗稳定功能。

上述部件的总和,便是下图这一拥有4460亿颗晶体管的庞大系统,吞吐量达到115Tb/s。

英伟达的硅光生态系统伙伴包括台积电、富士康、Browave、Coherent、Corning Incorporated、Fabrinet、Lumentum、SENKO、SPIL、Sumitomo Electric Industries、TFC Communication,共同发明与合作,打造集成硅、光工艺和供应链。

台积电董事长兼CEO魏哲家分享说,台积电的硅光解决方案结合了其先进的芯片工艺和台积电SoIC 3D芯片封装的优势,帮助英伟达充分发挥AI工厂的能力,助力AI工厂扩展到100万块GPU甚至更多。

英伟达光技术将推动新一代先进AI工厂的大规模增长,并和Coherent、Eoptolink、Fabrinet、Innolight等业界领先企业的可插拔光模块技术共同推动这一发展。

英伟达今日还推出了NVIDIA AI数据平台,这是一项可自定义的参考设计,可被存储提供商用于构建搭载专用AI查询智能体的全新AI基础设施,满足AI推理工作负载的严苛要求。

这些AI智能体利用英伟达加速计算、网络、软件,针对复杂查询进行推理并快速生成准确响应,可助力企业应用NVIDIA AI Enterprise软件平台(包括全新英伟达Llama Nemotron推理模型的NVIDIA NIM微服务)以及全新的NVIDIA AI-Q蓝图,近乎实时地生成数据洞察。

AI数据平台存储基础设施利用英伟达AI-Q蓝图开发,可进行推理并连接企业数据的AI智能体系统,能够将专有企业知识(包括内部文档、客户记录、特定领域的信息)无缝集成到AI工作流中,提供更准确、更贴合情景的响应。

它可以快速访问海量数据并处理各类数据,包括有多个来源的结构化、半结构化和非结构化数据,包括文本、PDF、图像、视频。

AI-Q蓝图利用NVIDIA NeMo Retriever微服务,可将英伟达GPU上的数据提取和检索速度加快高达15倍。

AI数据平台的核心功能是相当于一个智能AI路由器,通过高速、低延迟网络进行负载平衡和交换提示和键值(KV)缓存,以提高推理速度和准确性。

存储提供商可借助英伟达Blackwell GPU、BlueField DPU、Spectrum-X网络、 NVIDIA Dynamo开源推理库,来优化基础设施,为AI查询智能体提供强劲支持。

AI数据平台优化了GPU、节点和大语言模型内存管理之间的AI工作负载分配,利用智能路由、负载平衡、高级缓存来加速数据处理,并实现可扩展的复杂AI工作流程,因此AI智能体可以更高效、更低延迟地分析和处理大量业务知识。

英伟达Blackwell GPU、BlueField DPU、Spectrum-X网络组合在一起提供了一款加速引擎,可加快AI查询智能体访问存储在企业系统中的数据。

BlueField DPU的性能比基于CPU的存储性能提升最高可达1.6倍,而功耗又比其降低可达 50%,每瓦性能提高3倍以上。与传统以太网相比,Spectrum-X通过采用动态路由和优化的拥塞控制,可将AI存储流量提速最高达48%。

DDN、戴尔、HPE、日立、IBM、NetApp、Nutanix、Pure Storage、VAST Data、WEKA等领先数据平台和存储提供商均选择与英伟达合作,打造可定制化的AI数据平台,充分运用企业数据进行推理并响应复杂查询。

英伟达认证的存储合作伙伴正与英伟达共同打造定制化AI数据平台。经英伟达认证的存储提供商计划从本月开始提供使用NVIDIA AI数据平台构建的解决方案。

从面向网络和存储的两项发布,可以看出英伟达对AI基础设施趋势的多点布局和精准卡位。英伟达多年打磨的丰富网络产品组合,使其在加速AI智能体连接数据的生态中占据中心位。

对共封装光学技术的布局则更是意在长远,理论上大规模实现硅光通信的融合在节省能耗和成本方面的优势显著,不过这项前沿技术在实际落地中的成熟度还有待验证,业界也仍在探索如何以更低成本和更高可靠性制造相应的光学器件。

如今提升AI性能和效率的关键因素已远远超出算力范畴。英伟达的前瞻布局正使之不断扩大在AI基础设施的领先优势,与垂直行业龙头企业的合作又进一步加深了其护城河。

来源:智东西

相关推荐