摘要:5月12日中美双方发布联合声明,决定大幅下降关税。紧随其后的5月14日,美国政府亮出了瞄准中国AI的“獠牙”,美国商务部工业与安全局(BIS)突然宣布,即日起在全球范围内禁用中国先进集成电路。
过去几天,中美经贸关系发生着极速变化。而变化的主基调是,美国希望从贸易战的短期冲撞,重新回到长期进行,同时也更加残酷的科技绞杀上。
5月12日中美双方发布联合声明,决定大幅下降关税。紧随其后的5月14日,美国政府亮出了瞄准中国AI的“獠牙”,美国商务部工业与安全局(BIS)突然宣布,即日起在全球范围内禁用中国先进集成电路。
美国出招绝非无的放矢,就在一个月前,华为发布了CloudMatrix384 超节点,该技术通过384张卡构建超节点集群,超级云服务器,最高提供300Pflops的算力规模。这意味着,美国通过N卡禁售来限制中国AI算力发展的技术围堵,或将被彻底打破。
从DeepSeek的算法层突破,到CloudMatrix384的算力层突围,中国AI正以系统性创新,弥补单芯片制程差距,美国发现其“卡脖子”逻辑正在失效。
接下来,美国必然会进一步打压中国AI的任何生存空间,更证明了模型自主与算力自强的重要性。昇腾云算力就是出路,就是防线。
5月16日,华为云AI峰会中,华为云副总裁黄瑾又进一步披露了更多CloudMatrix 384 超节点的创新技术细节。CloudMatrix 384 超节点持续壮大,把“杀不死你的必会让你更强大”写进现实。
过去的8年里,单卡硬件的算力增长了40倍,但是节点内的总线带宽只增长了9倍,跨节点的网络带宽只增长了4倍。集群网络通信成为当前大模型训练和推理的最大挑战,也是科技竞逐的焦点之一。
514美国禁令的恐惧根源,或许就在于昇腾的架构创新,破解了网络带宽拓展比单卡算力增长更滞后的技术难题,使CloudMatrix384 实现了集群稳定性,中国AI的算力长城,正在CloudMatrix384的基石上崛起。
具体来说,CloudMatrix 384 超节点实现了MatrixLink超节点网络服务。这项技术能够通过扩展训练集群实现大模型的训推性能提升20%,从而在网络侧满足最为苛刻的模型推训需求。
突破了内外部通信瓶颈的CloudMatrix 384,实现了AI算力资源的集约式高效利用,以及超大规模AI训练集群可云上获取,支撑昇腾AI云服务以更高的算力利用率、更高的算力可用度、更高的吞吐率以及更低的成本,为千行百业智能化提供充沛且普惠的云上AI算力服务,从而为中国AI算力争取到了长足的领先空间与发展窗口。
更值得一提的是,当产业从万卡向十万卡集群演进,超节点修筑AI算力长城的脚步也并未停下。华为云AI峰会上,华为云公布了CloudMatrix 384 超节点的创新技术优势。
昇腾云和CloudMatrix 384 超节点,实现了MoE亲和、以网强算、以存强算、长稳可靠、朝推夜训、即开即用六大科技创新,这些创新如同“技术砖石”,稳固支撑AI 产业发展更进一步,成为AI时代理想的基础设施。
为什么这么说?这就要提到各行各业的AI训推需求,要求云上算力,竖起三道重要的防线:
一是算力充沛的性能防线。
正如杰文斯悖论所说的,Deepseek虽然降低了单个模型对算力的需求,但随着应用AI的用户越来越多,算力资源的总需求量非但没有减少,反而进一步增加了。这一背景下,国产AI算力面临双重困境,一是单卡性能落后英伟达最新产品,二是多卡集群会“打群架”,堆卡但不增效。而提升算力集群的资源利用率,需要存储(存力)、网络(运力)的共同做功,来适配最新的计算架构。
简单来说,在DeepSeek的推动下,MoE已经成为主流大模型共同追求的实践路径,所谓MoE架构,就是从GPT4这样的少量大专家的超大规模参数模型,变成了大量小专家的模式,在每张卡上都部署多个小专家。但传统架构下,MoE模型容易因为专家负载不均、AllToAll通信延迟等,导致算力浪费,降低资源利用率。
CloudMatrix 384 超节点的分布式推理平台可以说是专为MoE大模型而生,具有MoE亲和的技术特性。对比一卡多专家的“小作坊模式”,超节点通过高速互联总线,降低跨机通信损耗,从而实现一卡一专家高效分布式推理,单卡的MoE计算和通信效率都大幅提升。通过联接力打破单点算力的性能制约,最大限度地释放算力共振的能力,也体现了超节点以网强算的技术优势。
除了网络通讯,显存容量不高也会制约MoE模型的开发。大模型推理的不同阶段,对计算/访存的资源需求其实并不一致,比如prefill阶段需要高算力,而decode阶段需要高防存,但传统“存算绑定”的模式不够灵活,就限制了资源利用和性能吞吐。
解决MoE模型的“存力”难题,华为云首创了EMS弹性内存存储,通过内存池化技术,实现显存和算力解绑。一方面,用EMS替代NPU中的显存,可使得首Token时延降低,最高降幅可达80%;另一方面,当NPU的显存不足时,EMS独立扩容,不必再通过堆NPU以获得更多内存。同时,EMS还支持算力卸载,这也使得系统吞吐量提升100%。
提高运力以网强算、提高存力以存强算,合力提高综合计算性能,从而为各行各业应用Deepseek等MoE模型,提供澎湃算力,正是CloudMatrix 384 所筑起的性能防线。
二是算力可靠的稳定防线。
解决了性能问题,接下来还解决多卡集群“打群架”的可靠性问题。千卡乃至万卡级算力集群的运维挑战,已经成为算力的关键瓶颈。集群规模增大,故障频发,导致训练中断,模型开发团队不得不频繁执行检查点checkpoint保存操作,这不仅延长了大模型训练周期,还会导致计算资源浪费,开发成本增高。
构建高可靠性的智能运维体系,已成为云上算力长城的必要职责。对此,华为开发了昇腾云脑运维“1-3-10”标准,即1分钟感知、3分钟定界、10分钟内恢复,从而具备了保障长稳大模型训练的能力。
也意味着,中国AI有了更具韧性的算力基础设施。
三是算力普惠的成本防线。
DeepSeek到来之后,AI推理侧的任务激增,而训练侧的算力需求则在下降。对于云服务商来说,针对用户访问的潮汐特征(日间推理峰值远远大于夜间),做好算力资源的动态平衡,可以进一步优化资源利用效率,避免算力闲置,这样能够实现综合成本最优,最终让成本优势变成价格优势、普惠能力,为行业和用户提供像“水电”一样实时、普惠、灵活的算力。
目前,华为云已经在全国三大枢纽数据中心——乌兰察布、贵安和芜湖完成了超节点规模布局,支持百TB级的带宽互联,10毫秒时延圈覆盖全国19个城市群,让行业用户不需要自建数据中心,可以像水电气一样,第一时间享受到即开即用的AI算力资源。
同时,华为云通过“训推共池”“灵活调度”两大技术,实现朝推夜训,白天进行模型推理,晚上闲时进行模型训练,实现了全国超节点算力资源的“错峰用电”,算力资源利用率可提升30%以上。
通过性能、稳定、普惠的三道防线,华为云CloudMatrix 384 超节点可以更好地守护各行各业的智能化需求,成为中国AI巍然挺立的坚实基础设施。
正如长城的出现,守护了古代中国的国土安全。超节点通过多项技术特征的加持,让以卡为单位的分散式AI算力,走向了集中式AI计算底座,成为真正意义上的下一代AI基础设施,一座坚固的云上算力长城。
更宏观的角度来看,超节点技术不仅仅是一项工程性创新,它还彻底改变了芯片制造领域的技术对垒格局。
英伟达最新推出了基于第五代NVLink技术的NVL72,并且将其局限在自身生态当中,客观上构成了对中国AI算力的发展制约。但实际上,我们真正需要的不是芯片本身,而是算力。通过重新定义AI基础设施,超节点技术为AI算力的供给提供了前所未有的澎湃动力,进而突破了被芯片制程锁死的AI进程。
在当前国际博弈的大背景下,超节点的出现,正是中国应对挑战、把握AI机遇的有力证明。
除了超节点之外,华为云还在大模型、AI生态等领域进行了持续升级,持续迭代的盘古大模型,已经在30多个行业、400多个场景中应用,在制造、金融、政务、医疗、制药、汽车、气象等七个行业保持市场规模领先。
在算力底座、资源调度、推理服务及集群可靠四个方面,华为云全面升级昇腾AI云服务,协助客户进行模型的开发、训练、托管和应用。目前,昇腾AI云服务已适配包含DeepSeek在内的160多个第三方大模型,并面向政府、金融、互联网、零售等行业服务600多家创新先锋企业。
就像美国的贸易冲击,掀不翻中国经济的汪洋大海,美国的一纸禁令,也禁不了昇腾这座云上AI算力长城。
当山姆·奥特曼在国会参议院建议要加大AI基础设施投入的时候,昇腾AI云服务已经通过超节点的建设,以及更多技术、产品、资源的汇集,为接下来的中国AI应用大爆发做好了准备——下一代AI基础设施,就是中国AI走向强大的内因。
2025年5月16日,被制裁整整六年的华为依旧在茁壮生长,并且在这些年里拿出了MetaERP、数据库、软硬件工具链等等核心技术突破。如今超节点的加入,让这六年中所有的故事都更加熠熠生辉。
华为的故事在反复提醒着一件事:我们除了强大,无路可走。
曾几何时,先进AI算力必然来自西方,被认为是一个“铁律”。但CloudMatrix 384 超节点的突破,不仅证明了中国可以有自主化的可靠AI算力基础设施,更证明了中国AI算力可以实现系统性领先,甚至可以改变企业用户的AI算力获取方式,给全球AI一个更好的算力选择。
近几个月,所有国际新闻都在提醒我们,只有当自身足够强大,能够给自己和他人提供选择,我们才有话语权,才有交流和谈判的空间,才能为多元、开放与平等添加一份保障。
从这个意义来说,CloudMatrix 384 超节点就如同AI世界中的长城。它伫立在那里,确保了全球AI的自由勃发与平等成长。
巍巍昆仑,翼翼长城。一些源于中国文化的智慧,一些来自中国科技的态度,此刻正无言流淌在奔腾的AI算力中,相信它们很快会被世界读懂。
来源:脑极体一点号