摘要:关税刚刚达成初步协议,转头就加强科技管控。根据路透社报道,美国参议员上周五提出一项新法案,要求对出口受限的人工智能芯片实施位置验证机制,旨在阻止中国获得先进半导体技术。
文|白 鸽
编|王一粟
一则新闻又开炸AI圈。
最新消息显示,美国BIS执法部门宣布加强对海外AI芯片的出口管制措施,其中有对中国国产算力芯片不利的条款。
关税刚刚达成初步协议,转头就加强科技管控。根据路透社报道,美国参议员上周五提出一项新法案,要求对出口受限的人工智能芯片实施位置验证机制,旨在阻止中国获得先进半导体技术。
这项名为《芯片安全法案》的提案将给与美国商务部授权,要求出口受控的AI芯片及其集成产品配备位置追踪系统,以监测这些产品是否被转移、走私或用于未经授权的用途。
不过,后续BIS又更改了口径,对中国AI芯片的限制又从某一款单独的AI芯片扩大到其他所有先进计算芯片。
至此,幻想需要被彻底放弃了:在AI这个未来科技的胜负手上,将会是一场没有终点的长跑比赛。
而想坐在谈判桌上,必须拥有筹码:自主创新的科技实力。
超节点是AI浪潮中,算力架构的一次重大创新。这个概念虽然源自英伟达,但中国厂商却做了更多颠覆式的创新。
创新源于改变。
迈入2025年,AI大模型推理的需求更加旺盛,对算力提出了更多要求。如果仅仅是通过算力的堆叠,并不能够满足推理需求。
当前行业面临着“三高一低”挑战——即如何实现更高的算力利用率、更高的算力可用度、更高的吞吐率以及更低的处理时延。
事实上,DeepSeek低价质优的背后,就是通过使用MoE架构,保证模型容量的前提下降低计算成本。
MoE架构是一种通过动态组合多个子模型(专家)来提升模型性能的大规模机器学习框架,其核心特点是稀疏激活机制,即在用户输入问题时,仅激活与输入数据最相关的专家进行思考回答,生成最终结果。
如DeepSeek-R1的参数量是671B,但因为采用稀疏架构,实际上每次只激活其中32B的参数,加上DeepSeek的思维链优化等技术,就可以实现近似于ChatGPT-4o和o1的推理能力。
而传统的Dense架构则是全科天才需要处理所有问题,虽然能力强大,但是当问题变多时就会显得效率十分低下,而且其消耗的资源也远超“普通专家”。
但是,MoE模型通过门控网络动态选择激活的专家,这就导致不同GPU节点间需要频繁交换数据(如专家参数、中间计算结果),而传统的点对点通信模式(如单机8卡互联)在MoE训练中容易因通信带宽不足或延迟过高导致GPU资源闲置。
而想要解决这一问题,超节点技术似乎成为了当前的最优解。
一般来说,构建一个超大规模的GPU集群,往往有两种方式,一种是通过增加单节点的资源数量,向上扩展,即Scale Up,在每台服务器中多塞几块GPU,一个服务器成为一个节点;另一种Scale Out是通过网络将多台服务器(节点)连接起来。
而当这些设备处于同一个HBD(High Bandwidth Domain,超带宽域)的时候,英伟达对这种以超大带宽互联16卡以上GPU-GPU的Scale Up系统,称为超节点。
那为什么说,超节点是解决MoE架构通信问题的最优解?
背后原因在于,超节点作为Scale Up的当前最优解,通过内部高速总线互连,能够有效支撑并行计算任务,加速GPU之间的参数交换和数据同步,缩短大模型的训练周期。
近期,华为云正式发布了CloudMatrix 384超节点,其在性能倍增的同时,也进行了技术创新,包括对MoE亲和、以网强算、以存强算、长稳可靠、朝推夜训、即开即用等6大方面。
其中,华为云CloudMatrix 384超节点通过超高带宽Scale-Up网络实现从“传统以太网”向“共享总线网络”演进,用对等架构替代传统以CPU为中心的主从架构,将资源互联带宽提升了10倍以上,实现CPU、NPU、内存等多样资源全对等连接。
这背后核心技术就是华为云创新的以网强算MatrixLink服务,其是将单层网络升级为两层高速网络:一层是超节点内部的ScaleUp总线网络,确保超节点内384卡全对等高速无阻塞互联,卡间超大带宽2.8TB,纳秒级时延,另一层则是跨超节点间的ScaleOut网络,可支持微秒级时延,资源弹性扩展,最大支持128k组网规模。
“基于全局拓扑感知的智能调度算法,对于流量冲突,可规划最佳流量路径,确保无阻塞交换。同时,可支持光模块故障的快速识别、隔离与流量快速调度,保障客户任务长稳运行。”华为云副总裁黄瑾说道。
具体来说,传统单机最多带8个专家,类似一个小办公室只能坐8人,而MoE需要成百上千专家,超节点则可以把多个机柜计算卡连成“超级办公室”,专家数量随需求扩展,可支持千亿参数大模型。
而针对MoE模型里专家可能“冷热不均”:有的专家被频繁调用,有的闲置情况。华为昇腾AI云服务利用超节点和动态资源分配机制相结合,使算力利用率平均提高了50%,能够充分满足AI业务的高并发与弹性需求特性。
事实上,除底层硬件层面网络带宽的创新外,华为昇腾AI云服务此次升级的分布式推理平台,也能够基于对MoE架构天然的亲和推理能力,提高集群的吞吐性能。
经过实测,硅基流动在基于华为昇腾AI云服务打造的超节点算力服务集群上,其计算吞吐量已经超越业界最好GPU的集群吞吐性能,单卡可以达到1920Token/秒。
另外,在DeepSeek推理模型里面,由于其对专家模型的动态选择能力,也需要进行Prefill(大模型推理的首个阶段)和Decode(大模型推理输入-输出结果的过程)负载配比,通过动态的均衡和自动负载均衡,来实现整个系统最佳推理的吞吐。
通过超节点,华为昇腾AI云服务不仅优化了训练与推理效率,还降低了硬件成本,也成为支撑MoE模型从实验室走向工业落地的关键。
相比于大模型预训练的集中式调度,“大量的AI推理应用,往往是短时间、短期间的潮汐式应用。”中国电信大模型首席专家、大模型团队负责人刘敬谦此前曾说道。
如某电商平台在大促期间,大模型客服推理算力需求瞬时可提升500%,这就需要在分钟级内完成跨集群资源调度。
因此,推理的算力部署要靠近用户,保证算力延时要在5-10毫秒范围内的同时,还要能够支持算力资源的高效灵活调度,才能够满足潮汐式应用需求。
这里有两个关键词,一个是算力充足,一个是灵活高效。
要想算力充足,不光是砸钱买英伟达的卡这么简单,就算OpenAI这样的新贵也不能放肆挥霍。这就需要从几个维度去想办法:
提升单体架构的算力把多元化的算力都用起来,CPU、NPU、GPU、内存一起上超节点就完美地同时解决了这俩问题。
就像上面提到,超节点是从架构上的设计,提升了单体架构的算力。比如,华为云的CloudMatrix 384超节点基于高带宽互联技术,在一台服务器中集成了384张算力卡。同时,通过分布式擎天架构实现CPU、NPU、GPU、内存等多样资源统一抽象、池化,突破单体算力瓶颈,使算力规模提升50倍,达300PFlops。
事实上,在传统的方案中,因为显存和算力绑定,往往客户为了获取更多的内存,就必须大规模购买NPU,造成NPU算力资源的极大浪费。
基于此,华为云推出了业界首创的EMS弹性内存存储,通过内存池化技术,一方面可以支持以存强算,即用EMS替代NPU中的显存,缓存并复用历史KV计算结果,可以使首Token时延降低,有场景可降低到80%。
另一方面,当NPU的显存不足时,往往企业会通过购买更多NPU的方式进行扩容,但通过EMS的分布式内存存储,基于将内存虚拟化的技术,就可以补充显存空间,减少企业购买NPU的数量。
此外,“EMS还支持算力卸载,即将原来需要在NPU中进行的KV计算卸载到CPU和EMS中,从而使得系统吞吐量提升100%。”黄瑾如此说道。
当前,做超节点方案的厂商并不少,但华为云CloudMatrix 384超节点有一些自有的特点,比如在节点间重要的通信上,华为就用了光通信,而非业界主流的铜缆电互联。
通信起家的华为,比英伟达在通信上更有话语权。它能做到更高的卡间互联带宽、更高的扩展性、更低的延迟和功耗,为大模型训练、科学计算等高性能计算场景提供了强大支撑。
经实测,华为云数据显示,基于华为云的CloudMatrix 384超节点的软硬件协调,在一个超节点上通过高效网络互联技术,MFU(Model Flops Utilization,模型浮点运算利用率)可实现高达55%的利用率,同时还能够保证超节点万卡集群上,万亿模型训练超40天不中断。
底层的算力资源池已经有了,而想要高效灵活地调度这些资源池,则离不开云服务体系。
一方面,华为昇腾AI云服务通过瑶光智慧云脑,可提供NPU、GPU、CPU、内存等资源按需组合,通过匹配最优算力组合,实现百亿到万亿级模型训练所需的资源。此外,还可实现多个大模型在一个超节点资源池内调度,让超节点整体资源利用率更高。
值得一提的是,此次昇腾AI云服务在资源调度上,还实现了容器级的Serverless技术,及卡级别的Serverless技术,能够实现卡级别和容器级别的资源调度,使资源利用率提升50%以上。
所谓Serverless通常指无服务器架构,用户不需要管理服务器,平台自动处理基础设施。而容器级的Serverless是指基于容器技术的Serverless 解决方案,如 AWS Fargate、阿里云函数计算支持容器等。
一般在大模型的部署应用中,可以将大模型封装为容器镜像,并通过 Serverless 容器实现弹性推理,这样就可以在低负载时仅保留1个实例维持热启动,节省资源,在峰值时秒级扩容多个实例,分摊推理压力。
如某客服大模型使用Serverless容器后,推理成本降低30%,并发处理能力提升5倍;某电商促销活动中,容器级Serverless平台在10秒内扩容2000个容器实例,处理峰值达10万QPS的商品推荐请求。
在行业人士看来,容器级Serverless技术通过 “去基础设施化” 重构了应用部署模式,让容器技术从 “需要专业团队运维的重资产” 变为 “即开即用的算力资源”。
同时,未来在云服务体系中,容器级Serverless也将向 “全域算力调度” 演进,实现中心云、边缘节点、端设备的容器实例统一管理,推动 “算力即服务(CaaS)” 的终极形态,即用户无需关心算力在哪里、如何运行,只需按需获取容器化的计算能力。
可以看到,容器Serverless技术进一步降低了企业用算力的门槛,尤其对中小企业而言,用上大模型将更加容易。
有了充足的底层算力资源,还能够灵活高效的进行调配,但对于很多企业来说,还是希望能够更充分的进行算力的利用,避免算力出现闲置问题。
为了解决企业的顾虑,华为云还创新地推出了朝推夜训模式,即通过训推共池和灵活调度,白天进行模型推理,晚上闲时进行模型训练,大幅提升超节点算力资源利用率。
其核心原理在于将训练推理作业共用一个专属资源池,支撑提前划分训练、推理逻辑子池,通过逻辑子池动态配合调整,实现训推资源时分复用,节点在训练和推理任务间切换
从底层算力资源的扩张,到以云服务的形式对算力资源进行灵活调配,再到充分保证企业对算力资源的利用率,可以看到,华为云正在构建全方位体系化的AI算力供给能力。
而面向未来,除了对算力资源的调配和利用之外,如何保证算力资源更加稳定的供给,也将成为关键。
“我们一年花费在云端算力上的费用,大概十几亿元。”Momenta创始人曹旭东曾透露。
智能驾驶的数据量非常庞大,且对数据的实时性要求非常高,毕竟这涉及到驾驶安全问题。而随着端到端大模型的上车,对算力资源的需求更加庞大。
但端侧的算力供给,远远不能够达到智能驾驶的需求,基于云-边-端的混合架构,则成为了智能驾驶算力应用最常见的方式。而这背后,对算力服务支持的稳定性和可靠性也就要求更加严格。
这就需要算力服务商,具备对大模型故障的强感知能力。
华为云最近把这种感知能力提升到了一个新标准——针对超大规模集群的故障感知提出了1-3-10标准。即不管是千卡集群,还是万卡集群,亦或是10万卡集群,华为昇腾AI云服务能够实现1分钟感知故障、3分钟故障定界、10分钟故障恢复。
能做到如此快速的故障恢复,源于背后昇腾云脑的最新升级,其可实现全栈故障感知、诊断与快速自动恢复。
其中,在故障感知方面,通过静默故障感知技术和算法,主动探测硬件进行功能或性能测试,根据测试结果及时发现并隔离性能衰减的“慢节点”,基于变化趋势,预测硬件的潜在故障风险,提前进行隔离或更换。硬件故障感知率从40%提升至90%。
同时,昇腾云脑的全栈故障知识库已经覆盖95%常见场景,可一键故障诊断准确率可达到80%,大大缩短网络故障诊断时效。配合 “三层快恢技术” ,实现万卡集群故障10分钟恢复的效果。
通过昇腾云脑,华为云则能够快速感知故障并进行修复,能够保证大模型长期稳定地运行。
事实上,除了汽车行业外,许多其他行业的人也都能感受到:“大模型的发展太快了。”
今年春节期间,DeepSeek第一次爆火,距今过去100多天,而在此期间,各种更新迭代的大模型产品、Agent智能体产品,更是日新月异。
然而,相比于日新月异的大模型,作为底层基础设施,数据中心交付周期却相对比较漫长,从立项到建设完成,往往至少需要一年半载的时间,而此时大模型早已经更新迭代好几批了,芯片也早就不是最新的。
也正因此,在中国智算中心建设周期中,有很多小型智算集群和数据中心,建完就出现闲置,原因就在于其已经不能够满足当下最新大模型的算力需求了。
那么,在日新月异的大模型更新迭代背景之下,国内大模型企业想要能够使用最新的算力基础设施,云的方式则成为了最优解,且对于行业用户而言,用云的性价比远远大于自建数据中心。
一方面,数据中心建设成本高,自建费时费力,且芯片更新换代快,自建IDC将会大大增加企业的建设成本;另外,数据中心的运维难度高,整体架构更复杂,涉及到更多运维工具。
另外,更为重要的一点是,数据中心非常容易出现问题,导致各种故障,如果没有积累深厚的系统化运维能力,很难实现数据中心的长稳智能运维。
毕竟,运维一个数据中心的时间长达10-15年,在漫长的运维过程中如何保障数据中心的可靠运行是每个基础设施管理者首要的责任。
反观中国的云厂商,无论在软硬件技术上,几乎都是全球顶流的水平了。
比如华为云,仅在中国就已经完成了全国三大云核心枢纽布局,即贵州贵安、内蒙古乌兰察布、安徽芜湖,具备3大枢纽DC,百TB带宽互联,万公里光纤骨干网,覆盖19大城市圈。
目前,这三大数据中心均已上线了超节点,“在全国主要的流量城市中,基本上在10毫秒内就可以访问到这个超节点。”黄瑾说道,现在企业想要申请使用,分钟级就可以开通。
当然,在庞大的数据中心运维中,华为云也形成了体系化的能力,帮助超节点长稳智能地运维,能更好地帮助客户的业务稳定高效地运行。
综合来看,中国AI产业的基础设施已经绝对拥有了软硬件自主创新的能力,这种内循环的能力,会让我们变得更加强大。
无端的科技战,并不能够阻挡中国AI产业的崛起,反而是成为了一种催化剂,让主动拥抱国产算力的企业和机构变得更多。
一朵更加稳定的云,才能够为AI大模型走向落地,提供更加稳定的国产AI算力支持,帮助中国AI走得更高更远。
未来,面向智能世界,华为云将致力于做好行业数字化的“云底座”和“使能器”,加速千行万业智能化。
来源:光锥智能