深度揭秘华为昇腾超节点!不盲目自信也不妄自菲薄

B站影视 内地电影 2025-06-20 16:47 1

摘要:刚刚,华为联合硅基流动悄悄发了一篇论文,把自家的昇腾超节点CloudMatrix 384狠狠“安利”了一把。

刚刚,华为联合硅基流动悄悄发了一篇论文,把自家的昇腾超节点CloudMatrix 384狠狠“安利”了一把。

这篇论文有两大看点:

1、详细介绍了CloudMatrix384超节点的硬件架构:910C芯片、节点板卡、尤其是UB架构。

2、针对像DeepSeek这样数千亿参数、MoE架构、超长上下文的推理需求,如何用软硬协同的“菊花宝典”来搞定。

这份「菊花宝典」,包含CloudMatrix 384超节点硬件和CloudMatrix-Infer推理优化方案。

首先看硬件

华为 CloudMatrix 384 将 384 颗 昇腾 910C NPU、192 颗鲲鹏 CPU 封装进单一“超节点”,通过 UB(Unified Bus)高带宽、低时延总线实现全互联,使计算、内存、网络资源可池化、等价访问并独立伸缩。

具体的架构长这样↓

包含三个平面:①UB平面完成超节点Scale-up;②RDMA平面,提供多个超节点Scale-out;③VPC平面,南北向通信,连接到数据中心网络。

1、昇腾910C芯片参数

910C为双die封装,每die算力达到376TFLOPS@FP16或1054TFLOPS@INT8。(比较遗憾的是,910系列不支持FP8,也不支持现在N卡和A卡都在狂带节奏的FP4/FP6,期待下一代可以)

板载128GB HBM3显存,带宽3.2TB/s。

每die提供7 × 224 Gbps UB 通道 + 200 Gbps RDMA 通道,既能 scale-up 又能 scale-out。

2、昇腾910C子节点

整个超节点由48个910C子节点组成。

每个子节点板载8张昇腾910C芯片+4张鲲鹏CPU+7张UB交换芯片,并集成一张擎天DPU卡,负责节点级资源管理和南北向网络连接。

3、UB统一总线架构首次揭秘

超级节点横跨了16个机架,其中12个计算机架(含48个昇腾910C节点)、4个通信机架,通信机架其实就是所谓的UB统一总线。

这很像典型的Spine-Leaf两层脊叶架构,一层Leaf集成在每个910C节点机上,二层Spine搁在4个通信机架里面。

每个L1端口对应16条上行链路(16×28GB/s),确保整个超级节点网络无阻塞。

UB 架构的本质,是把传统“CPU-GPU-交换机多层异构系统”压缩进一个机柜内部的单级互连域,交付“近芯片级带宽 + 微秒级延迟 + 统一寻址”的算力池。

大家可以看看菊厂给出的节点内和跨节点通信的带宽/时延对比:跨die带宽接近die内带宽,单跳时延接近1微秒。

菊厂不愧是做通信出身的,这UB做得真NB,大模型推理的三个主要瓶颈(带宽、延迟、内存可用性),UB都提供了显著改进。

正是因为UB的存在,CloudMartix才可以放弃传统Scale out的做法,用Scale up的理念攒一台大家伙,来搞定计算墙、显存墙、通信墙。

当然,“一菊独放不是春,百菊齐放春满园”,就像下图一样,CloudMatrix的远景是先Scale-UP,再Scale-Out,组成一片超级“大菊园”。

再看软件部分

配套软件上,华为有自己的“菊版CUDA”,这就是CANN,包括驱动、运行时和库三层架构。

同时,为了实现在更大规模的云环境中部署 CloudMatrix384,菊厂提供了一套“Matrix全家桶”,包括 MatrixResource、MatrixLink、MatrixCompute 和 MatrixContainer。

下图给出了一个16.5万张卡组成的超大集群的示范,以及在这样的云平台上,全家桶各自的位置。

为了更好的跑DeepSeek这样的大参数、MoE、长上下文模型,菊厂专门提出了CloudMartrix-Infer推理优化方案。

本质上讲,这是一个多层级的软件优化技术,简要概括下。

1、PDC 解耦(Prefill-Decode-Caching):
Prefill:16 × NPU 实例(EP32)专管长输入串、首 token 生成。
Decode:160 × NPU 实例(EP320)追求极低 TPOT 的自回归生成。
Caching:所有 NPU 通过 UB 总线直连一片分布式 DRAM 池,历史 KV + 模型权重都放这儿,谁需要谁 DMA 取。
2、LEP 大规模专家并行
让 DeepSeek-R1 的 320 个专家“一人一核”地摊到 320 个 NPU die 上,通信靠 UB,MoE 延迟不再是瓶颈。
3、硬件友好的优化包
Ascend-native算子 + 微批管线并发,通信与计算重叠。
INT8 五件套量化:混合精度、自适应尺度搜索、离群点抑制、高效INT8 GEMM、块级剪裁与误差补偿。(弥补昇腾芯片不支持FP8的短板,)

所有这些优化手段,在论文中都有超长篇幅的图文介绍,详细到足以让你相信,这是菊厂真干成了。

实战效果如何

用这套软硬协同的“菊花宝典”,进行满血版DeepSeek推理实战,是一种怎样的体验?

论文中给出了详细的数据,以及与N记H100/H800对比。(注意不是比H200更不是B200)

1、Prefill预填充阶段:

在同样16384×4096 的重载场景里,华为单卡吞吐达到6688tps,并拿到全场最佳算力利用率(4.45tok/s/TPFOPS)。

2、Decode解码阶段:

在TPOT=50ms的级别下,华为吞吐达到每卡1943tps。同样获得了最高的算力利用率(1.29tok/s/TFlops)。

而且华为并没有使用更大的Batch Size堆吞吐,仍然拿到了高效输出。

总体来讲,这波实战华为客观的展示了自身的能力,起到了双重袪魅效果:

①昇腾的确很能打,在单卡通用硬件算力不如H100的前提下,凭超节点互联 + 架构级优化,实现整体性能反超。

②昇腾没有坊间吃瓜群众吹得那么能打,一顿操作猛如虎,也只是能跟H100掰掰手腕。

华为通过这波操作,验证了“超节点+软硬协同”在 LLM 时代的工程可行性与性能上限,为后续万亿参数、大稀疏推理平台提供了可实战的“菊花宝典”。

总之,这篇论文来得非常及时,让我们可以既不盲目自信,也不妄自菲薄。

来源:特大号

相关推荐