华为紧随阿里利用软件激活“沉睡”的算力,AI效率革命正悄然发生

B站影视 韩国电影 2025-11-18 16:47 1

摘要:AI应用时代,算力如同电力一样重要,但价格高昂的GPU/NPU等算力资源在大多数数据中心中并未得到有效利用。行业数据显示,智算中心平均算力使用率仅为30%,大量计算资源在“沉睡”。

AI应用时代,算力如同电力一样重要,但价格高昂的GPU/NPU等算力资源在大多数数据中心中并未得到有效利用。行业数据显示,智算中心平均算力使用率仅为30%,大量计算资源在“沉睡”。

预期在11月21日,华为将发布一项AI算力突破技术,旨在通过软件层面的深度优化,将GPU/NPU等硬件利用率从行业普遍的30%-40%提升至70%。

而这并非个例,早在10月,阿里云就在SOSP 2025大会上发布了Aegaeon计算池化解决方案。两家科技巨头相继发力,预示着AI竞争正从硬件算力堆砌转向软件优化效率的新战场。

华为这项即将发布的技术,核心在于通过软件创新实现对异构计算资源的统一调度

它能够兼容包括英伟达、昇腾及其他第三方芯片在内的多种算力平台,屏蔽底层硬件差异,为AI模型的训练与推理提供更加高效且稳定的运行环境。

从本质上讲,这项技术是通过软件手段“ masking GPU performance differences”(屏蔽GPU性能差异),让不同类型的AI芯片可以在同一个集群中协同工作,最大化利用整个计算集群的资源。

在当前国际高性能芯片供应存在不确定性的背景下,这种能兼容多种算力平台的软件技术,为国内AI产业发展提供了更多选择空间。

阿里云的Aegaeon解决方案则从另一个角度解决算力浪费问题——它专注于GPU共享技术,特别适用于具有突发性或不可预测性的大型语言模型推理场景。

传统模式下,通常采用一个模型独占一个GPU的部署方式,导致大量算力闲置。

Aegaeon的创新在于实现了Token级别的GPU虚拟化,在每次生成下一个token后,动态决定是否切换当前执行的模型,允许单个GPU同时为多个不同模型提供服务。

通过组件复用、显存精细化管理等全栈技术创新,Aegaeon将模型切换开销降低了97%,支持在亚秒级时间内完成模型切换。

华为与阿里云的两项技术,虽然实现路径不同,但都瞄准了同一个目标——提高AI算力利用率

技术特征华为异构算力调度技术阿里云Aegaeon技术焦点异构算力统一调度Token级GPU虚拟化主要场景训练与推理推理阶段,尤其大型语言模型核心创新屏蔽硬件差异,统一资源控制极细粒度资源调度与共享兼容性多平台(英伟达、昇腾等)主要针对GPU公布时间2025年11月21日(预计)2025年10月

从应用场景看,华为技术更偏向底层基础设施层面的统一调度,而阿里云则更专注于推理阶段的效率优化。

值得一提的是,阿里云Aegaeon已在实际测试中展现显著效果——在服务数十个720亿参数大模型时,将英伟达H20 GPU使用量从1192个减少至213个,降幅高达82%

AI模型训练与推理的成本之高,已是不争的事实。根据NBIS发布的“AI集群的经济学”白皮书,使用3000块GPU训练模型每天要花费14.4万美元,但GPU的平均利用率仅为45%-55%。这意味着近一半的计算能力处于闲置状态。

算力利用率的提升直接关系到AI应用的经济可行性。以华为声称的将利用率从35%提升至70%来计算,相当于同等算力需求下硬件投入减半

对于动辄使用成千上万张GPU的大型模型服务商,这种成本节约意味着数百万甚至上千万美元的节省。

AI算力成本的降低,也将加速AI技术在各行各业的普及。特别是对算力预算有限的中小企业,效率提升带来的成本降低,可能正是他们能否用上先进AI技术的关键。

过去几年,AI发展重点集中在提升硬件算力,业界追逐更高的FLOPS(每秒浮点运算次数)和更大的芯片。但单纯堆砌硬件已面临边际效益递减的困境。

华为和阿里云的最新技术动向表明,业界已认识到软件优化与硬件创新同等重要。通过软件技术释放硬件潜力,正成为AI计算演进的重要方向。

华为云基于CloudMatrix384的昇腾AI云服务已经展示出软硬件协同设计的价值——通过将384颗昇腾NPU和192颗鲲鹏CPU通过全新高速网络MatrixLink全对等互联,形成一台超级“AI服务器”,将算力有效使用率提升50%以上

随着大模型技术从训练走向推理,从集中式走向边缘部署,算力效率的重要性只会越来越突出。未来的AI竞争,将不仅是算力规模的竞争,更是算力效率的竞争

软件定义的算力,智能调度的资源,将让AI基础设施从“堆硬件”的粗放模式走向“精耕细作”的集约模式。

这场由软件驱动的算力效率革命,将决定AI技术普及的速度和广度,也将决定哪些企业能在激烈的AI竞争中脱颖而出。

数据来源注释

本文中引用的数据来源于公开报道,包括:华为技术公告、阿里云在SOSP 2025大会上公布的Aegaeon测试结果、NBIS白皮书“AI集群的经济学”、华为云CloudMatrix384技术说明以及《科技日报》关于算力利用率的报道。

来源:随便聊聊一点号

相关推荐