摘要:当AI大模型训练还在为算力不足、周期过长发愁时,华为用两款超节点产品撕开了算力瓶颈的口子。2025年9月18日全联接大会上,Atlas 950与Atlas 960的发布不只是硬件上新,更靠灵衢互联协议实现了“万卡超节点,一台计算机”的突破,把传统AI算力集群的
当AI大模型训练还在为算力不足、周期过长发愁时,华为用两款超节点产品撕开了算力瓶颈的口子。2025年9月18日全联接大会上,Atlas 950与Atlas 960的发布不只是硬件上新,更靠灵衢互联协议实现了“万卡超节点,一台计算机”的突破,把传统AI算力集群的技术范式彻底改写。
先看Atlas 950,它是华为瞄准2026年AI算力需求的旗舰,能装八千一百九十二张昇腾卡,得用一百二十八个计算柜和三十二个互联柜,占差不多一千平方米空间。性能上更是亮眼:FP8算力达八EFLOPS,FP4算力十六EFLOPS,比传统架构快十七倍;内存有一千一百五十二TB,是英伟达同期产品NVL144的十五倍;互联带宽冲到十六PB每秒,不仅超全球互联网峰值带宽十倍,还是NVL144的六十二倍,计划2026年第四季度上市。能有这表现,多亏灵衢协议的跨柜全光互联,解决了大规模超节点长距离、高可靠、大带宽、低时延的难题;UB-Mesh组网技术还能从六十四卡线性扩展到八千一百九十二卡,既保性能又控成本;“以通信换内存”的AF分离设计,更让Decode推理吞吐提升百分之五十以上。
Atlas 960则是面向2027年的升级款,昇腾卡数量涨到一万五千四百八十八张,计算柜和互联柜也加到一百七十六个和四十四个,占地约二千二百平方米。性能提升更是跨越式的:FP8算力三十EFLOPS,FP4算力六十EFLOPS,比Atlas 950分别快三倍和四倍以上;内存飙到四千四百六十TB,能满足更大模型的海量内存需求;互联带宽也提至三十四PB每秒,数据交换更高效,计划2027年第四季度上市。它还优化了跨柜全光互联技术,可靠性和效率再升级,支持更多精度格式适配不同场景,更引入华为自研的HiF4格式,在四比特精度上做到“业界最优”。从Atlas 950到960,卡规模提升百分之八十九,算力性能提升高达百分之二百七十五,内存容量提升百分之二百八十七,明显是走“跨越式发展”的路子,而非小修小补。
撑起这两款产品的核心,是灵衢互联协议这个“神经中枢”。物理层上,它从物理层到传输层加了高可靠机制,光路能实现百纳秒级故障切换,光互联可靠性提升一百倍,传输距离还超二百米;协议层突破多端口聚合技术,做到TB级带宽和二点一微秒时延,比传统技术时延降低约百分之三十;组网也灵活,Rack内用2D-FullMesh组网,Rack间靠一层UB Switch互连,轻松从六十四卡扩展到八千一百九十二卡;更关键的是它开放,灵衢二点零技术规范已对外公开,灵衢一点零还通过了三百多套Atlas 900超节点的验证,邀请产业伙伴一起建生态。
灵衢协议的价值还不止于技术,更在重塑AI算力基础设施生态。华为承诺2025年底前完成昇腾CANN编译器开源,把灵衢组件代码放进openEuler社区,优先支持PyTorch、vLLM等主流框架;灵衢二点零规范涵盖协议架构、硬件设计和操作系统组件,全开源让产业链伙伴能据此开发NPU模组、液冷刀片、AI标卡等产品;九月底还会开源共享内存能力Share Memory,让超节点里所有片上内存能池化共享,比传统以太网的通信时延大幅降低。现在基于灵衢协议的Atlas 900超节点已部署三百多套,服务互联网、电力、制造等二十多个行业,华为每年还投一千五百P算力和三万开发板,和全球开发者一起建昇腾开源生态,碎片化的算力基础设施问题正被逐步解决。
超节点的算力,离不开昇腾芯片这个“引擎”。昇腾950系列分两款:950PR面向推理Prefill阶段和电商、内容平台这类推荐业务,用自研低成本HBM(HiBL一点零)降成本,2026年第一季度推出;950DT则聚焦Decode阶段和训练场景,更看重算力,搭着HiZQ二点零HBM,内存一百四十四GB,互联带宽二TB每秒,支持FP8、HiF8等低精度格式,兼顾精度和效率,2026年第四季度上市。后续还有昇腾960,2027年第四季度推出,各项指标比950翻倍,还支持HiF4格式;昇腾970计划2028年第四季度来,FP8、FP4算力和互联带宽比960翻倍,内存访问带宽至少提一点五倍。芯片技术也有巧思,HiF8数据格式捐给了全球计算联盟(GCC),相同精度下能覆盖更大数值范围,接近FP16还不溢出,比BF16省百分之五十到百分之七十五显存,矩阵乘算力还能提二到八倍;架构上把Attention和FFN分离部署,Attention阶段能存更多KV-Cache,支持更大BatchSize和更长Sequence,FFN阶段又能充分发挥算力,下一代产品还会支持SIMD+SIMT双编程方式,适配更多场景。
当超节点组成集群,算力更是惊人。Atlas 950 SuperCluster用六十四个Atlas 950超节点,整合五万二千多张昇腾950DT,FP8总算力达五百二十四EFLOPS,规模和算力都超过当前全球最大的xAI Colossus集群,支持UBoE和RoCE协议,UBoE组网不仅静态时延低、可靠性高,还能省约百分之十三的交换机和百分之二十六的光模块,2026年第四季度和Atlas 950同步上市。Atlas 960 SuperCluster更厉害,直接做到百万卡级,是全球首个这规模的AI算力集群,FP8算力二ZFLOPS、FP4算力四ZFLOPS,能扛最复杂的AI大模型训练,2027年第四季度上市,还能用UBoE接以太Switch或OCS变拓扑,成了AI走向AGI(通用人工智能)的重要基础。
对比英伟达NVL144,Atlas 950优势很明显:卡规模是对方的五十六点八倍,能同时处理更大规模并行任务;FP8总算力是六点七倍,给大模型训练提供更足算力;内存是十五倍,处理大规模嵌入表和长上下文场景更轻松;互联带宽是六十二倍,大幅减少通信瓶颈,两者还差不多时间上市。定位上也不同,NVL144侧重高端AI研究和大企业应用,Atlas 950则瞄准大规模部署和产业级场景,靠系统级效率弥补单芯片性能差距,走出了差异化路线。
这种差异化背后是华为清晰的战略:架构上坚持“一年一代、算力翻倍”,靠超节点从“单卡性能竞争”转向“系统级效率突围”,避开半导体工艺限制;生态上走“硬件开放+软件开源”,每年投一百五十亿生态费用、一千五百P算力和一万五千人力;技术路线更是看到2028年,用“芯片-架构-生态”三层体系,帮中国AI产业握稳技术主权。
实际应用中,超节点的价值也很实在。大模型训练能把万亿参数模型的周期从数月缩到数天,还支持十万token以上的长文本处理、大规模视频生成;推荐系统能搭PB级嵌入表混合架构,迁移不用改代码,互联网企业还能组合Atlas 950和TaiShan 950通用超节点;金融领域更能靠它替代传统数据库,搭配GaussDB多写架构性能提二点九倍,虚拟化场景内存利用率高百分之二十,Spark大数据处理快百分之三十。
对整个AI产业来说,这不仅是算力升级,更是模式变革。算力供给从“单卡竞争”到“系统效率突围”,打破“规模越大效率越低”的怪圈;生态上靠灵衢协议统一标准,解决碎片化问题,还吸引中国电信等加入;更给中国AI产业传递信心——就算有外部挑战,也能造出自主可控的算力基础设施。
未来,超节点会成AI基础设施主流,互联技术会成竞争焦点,低精度格式、内存池化、光互联会持续创新,开放生态也会成行业标配。AI研发企业可借超节点优化模型,云服务商要提前规划升级,传统企业能借机转型,投资机构也能关注光通信等产业链机会。
华为这两款超节点,不只是一次技术突破,更是重构了AI算力规则。等2026、2027年它们落地,AI算力会进入更充裕、高效、开放的时代,为人工智能从感知智能迈向认知智能、甚至AGI,打下坚实的算力基础。
来源:悠闲的治水大禹