摘要：刚刚，华为联合硅基流动悄悄发了一篇论文，把自家的昇腾超节点CloudMatrix 384狠狠“安利”了一把。

刚刚，华为联合硅基流动悄悄发了一篇论文，把自家的昇腾超节点CloudMatrix 384狠狠“安利”了一把。

这篇论文有两大看点：

1、详细介绍了CloudMatrix384超节点的硬件架构：910C芯片、节点板卡、尤其是UB架构。

2、针对像DeepSeek这样数千亿参数、MoE架构、超长上下文的推理需求，如何用软硬协同的“菊花宝典”来搞定。

这份「菊花宝典」，包含CloudMatrix 384超节点硬件和CloudMatrix-Infer推理优化方案。

首先看硬件

华为 CloudMatrix 384 将 384 颗昇腾 910C NPU、192 颗鲲鹏 CPU 封装进单一“超节点”，通过 UB（Unified Bus）高带宽、低时延总线实现全互联，使计算、内存、网络资源可池化、等价访问并独立伸缩。

具体的架构长这样↓

包含三个平面：①UB平面完成超节点Scale-up；②RDMA平面，提供多个超节点Scale-out；③VPC平面，南北向通信，连接到数据中心网络。

1、昇腾910C芯片参数

910C为双die封装，每die算力达到376TFLOPS@FP16或1054TFLOPS@INT8。（比较遗憾的是，910系列不支持FP8，也不支持现在N卡和A卡都在狂带节奏的FP4/FP6，期待下一代可以）

板载128GB HBM3显存，带宽3.2TB/s。

每die提供7 × 224 Gbps UB 通道 + 200 Gbps RDMA 通道，既能 scale-up 又能 scale-out。

2、昇腾910C子节点

整个超节点由48个910C子节点组成。

每个子节点板载8张昇腾910C芯片+4张鲲鹏CPU+7张UB交换芯片，并集成一张擎天DPU卡，负责节点级资源管理和南北向网络连接。

3、UB统一总线架构首次揭秘

超级节点横跨了16个机架，其中12个计算机架（含48个昇腾910C节点）、4个通信机架，通信机架其实就是所谓的UB统一总线。

这很像典型的Spine-Leaf两层脊叶架构，一层Leaf集成在每个910C节点机上，二层Spine搁在4个通信机架里面。

每个L1端口对应16条上行链路（16×28GB/s），确保整个超级节点网络无阻塞。

UB 架构的本质，是把传统“CPU-GPU-交换机多层异构系统”压缩进一个机柜内部的单级互连域，交付“近芯片级带宽 + 微秒级延迟 + 统一寻址”的算力池。

大家可以看看菊厂给出的节点内和跨节点通信的带宽/时延对比：跨die带宽接近die内带宽，单跳时延接近1微秒。

菊厂不愧是做通信出身的，这UB做得真NB，大模型推理的三个主要瓶颈（带宽、延迟、内存可用性），UB都提供了显著改进。

正是因为UB的存在，CloudMartix才可以放弃传统Scale out的做法，用Scale up的理念攒一台大家伙，来搞定计算墙、显存墙、通信墙。

当然，“一菊独放不是春，百菊齐放春满园”，就像下图一样，CloudMatrix的远景是先Scale-UP，再Scale-Out，组成一片超级“大菊园”。

再看软件部分

配套软件上，华为有自己的“菊版CUDA”，这就是CANN，包括驱动、运行时和库三层架构。

同时，为了实现在更大规模的云环境中部署 CloudMatrix384，菊厂提供了一套“Matrix全家桶”，包括 MatrixResource、MatrixLink、MatrixCompute 和 MatrixContainer。

下图给出了一个16.5万张卡组成的超大集群的示范，以及在这样的云平台上，全家桶各自的位置。

为了更好的跑DeepSeek这样的大参数、MoE、长上下文模型，菊厂专门提出了CloudMartrix-Infer推理优化方案。

本质上讲，这是一个多层级的软件优化技术，简要概括下。

1、PDC 解耦（Prefill-Decode-Caching）：
Prefill：16 × NPU 实例（EP32）专管长输入串、首 token 生成。
Decode：160 × NPU 实例（EP320）追求极低 TPOT 的自回归生成。
Caching：所有 NPU 通过 UB 总线直连一片分布式 DRAM 池，历史 KV + 模型权重都放这儿，谁需要谁 DMA 取。
2、LEP 大规模专家并行
让 DeepSeek-R1 的 320 个专家“一人一核”地摊到 320 个 NPU die 上，通信靠 UB，MoE 延迟不再是瓶颈。
3、硬件友好的优化包
Ascend-native算子 + 微批管线并发，通信与计算重叠。
INT8 五件套量化：混合精度、自适应尺度搜索、离群点抑制、高效INT8 GEMM、块级剪裁与误差补偿。（弥补昇腾芯片不支持FP8的短板，）

所有这些优化手段，在论文中都有超长篇幅的图文介绍，详细到足以让你相信，这是菊厂真干成了。