摘要:第二十届中国IDC产业年度大典(IDCC2025)暨数字基础设施科技展(DITExpo) 以“重塑算力 破界而生”为主题,将于2025年12月10-11日在北京首钢国际会展中心1号馆举办。欢迎报名参会,与数万算力产业从业者深入探讨产业关键领域的技术突破与商业模
第二十届中国IDC产业年度大典(IDCC2025)暨数字基础设施科技展(DITExpo) 以“重塑算力 破界而生”为主题,将于2025年12月10-11日在北京首钢国际会展中心1号馆举办。欢迎报名参会,与数万算力产业从业者深入探讨产业关键领域的技术突破与商业模式创新。
这几天关于国产数据中心芯片有很多市场讨论,本文将综合2025年下半年以来各方消息从中国芯片供应角度为大家带来市场情况分析,由于当前大量国产芯片已经推出了最新版本,以下数据仅供参考。
中国AI芯片供应商格局及性能
与美国芯片供应主要由NVIDIA主导、许多领先 CSP 开发自有 ASIC 不同,中国 AI 芯片竞争格局同样更加分散,可分为四个群体,在芯片性能和服务不同类型客户方面存在显著差异:
以总处理性能 (TPP) 作为评估单芯片性能的指标,发现Ascend 910C处于中国芯片性能的顶端,约为H100性能的 65%,尽管实际计算能力受到许多 AI 芯片用户与CUDA基础设施兼容性的限制。
第二梯队包括 Hygon BW1000 (DCU3)、Ascend 910B 和 Cambricon Siyuan 590,性能与 NVIDIA A100 大致相当 随着 CloudMatrix 384 的推出,对于训练场景具有比较明确的竞争力
对于推理应用,许多中国芯片已经获得了一定份额,特别是凭借有吸引力的定价。值得注意的是,中国AI 芯片供应商在过去几年一直积极投资新 AI 芯片型号的研发,考虑到出口限制,预计本土AI芯片相比全球领先企业的芯片将变得越来越有竞争力。在供应方面,竞争格局也非常复杂。不过,除了全球 GPGPU 供应商外,Huawei Ascend、Cambricon 和 Hygon 被视为一级中国供应商。
据估计,Nvidia 在 2024 年中国 AI 芯片市场占 66% 市场份额,Huawei 占 23%。机构对2025 年预测表示,预计即使 H20 重新开放,Nvidia 的份额也将降至 54%,因为中国本土供应几乎比去年翻倍——当然,今年的环境与机构预测有了较大差异,国产化的占比进一步提升。
中国AI芯片市场预计在 2025 年翻倍,Nvidia 和 Huawei 等主要供应商销量近乎翻倍,同时出现更多小型企业以及 CSP 自研 ASIC。
即使最优秀的中国 AI 芯片仍远落后于全球主要供应商,使得在 GPGPU 上训练与 NV 相当的大语言模型 (LLM) 变得困难。中国芯片目前依然更专注于推理优化以及小语言模型 (SLM) 微调和后训练,但 Ascend 910C 应该可能在一些基础模型训练任务中发挥作用。
"总处理性能" ('TPP') 是 2 × 'MacTOPS' × '操作位长度',汇总集成电路上所有处理单元。3A090.a:(1) '总处理性能' 4800 或以上,或 (2) '总处理性能' 1600 或以上且'性能密度' 5.92 或以上。3A090.b:(1) '总处理性能' 2400 或以上且少于 4800,'性能密度' 1.6 或以上且少于 5.92;或 (2) '总处理性能' 1600 或以上,'性能密度' 3.2 或以上且少于 5.92。
Ascend、Cambricon 和 Hygon 视为中国一级 AI 芯片企业。
接下来,重点阐述 GPGPU/ASIC 市场中全球和中国企业在架构、计算、存储、集群和软件维度的结构性和功能性差异。
架构
全球主要 GPGPU 企业采用自主开发的尖端架构,针对高性能计算 (HPC) 的通用性进行优化。例如:NVIDIA 的 Ampere、Hopper 和 Blackwell 架构,专为 AI 训练、科学模拟和图形渲染等任务设计。AMD 的 RDNA (用于独立 GPU) 和 CNDA (用于数据中心 GPU),强调效率和可扩展性。这些架构优先考虑广泛适用性和技术领先地位。而中国 GPGPU/ASIC 企业则倾向于专注于针对细分市场或监管要求定制的特定应用架构。
计算精度和算力
全球主要供应商通常支持广泛的精度格式 (FP64、FP32、FP16、BF16、FP8、FP4、INT8),支持多样化的 HPC 工作负载。NVIDIA 的 FP16 计算能力范围从 300-2000 TFLOPS (如 H200、B200)。AMD 的 FP16 能力跨越 300-1300 TFLOPS (如 Instinct MI250X/MI300X)。这种多功能性支持分子建模和实时分析等复杂任务。而中国企业主要支持 FP16、BF16 和 INT8,对 FP8/FP32 的支持有限。他们的 FP16/BF16 计算能力通常在 100-300 TFLOPS 范围内 (如 Huawei Ascend 910、Cambricon MLU270)。
存储和内存带宽
全球主要供应商采用多级缓存架构和高带宽内存 (HBM) 技术 (如 HBM2e、HBM3、HBM3e) 来最大化数据吞吐量。例如,NVIDIA H100 GPU 通过 80GB HBM3 实现 3 TB/s 内存带宽,B300 通过 144GB HBM3E 实现 8TB/s 带宽。AMD Instinct MI250X 通过 HBM2E 提供 3.2 TB/s 带宽,MI300X 通过 192GB HBM3 提供 5.3TB/s 带宽。这些配置减少了大规模 AI 训练等数据密集型工作流程的延迟。而中国企业使用更简单的缓存层次结构和较低带宽内存 (如 HBM2、GDDR6)。
集群和互连能力
全球主要供应商通过高速互连在大规模集群性能方面表现出色。NVIDIA NVLink 最新实现提供 1.8 TB/s 带宽 (如 GB200/GB300 NVL72 形态)。AMD Infinity Fabric 支持 896 GB/s 的 GPU 间通信 (如 Instinct MI300X)。这些技术支持百亿亿次超级计算等任务的可扩展数据中心。而中国企业提供中等集群性能 (200-400 GB/s),在大规模优化方面受限。值得注意的例外包括 Huawei CloudMatrix 384:一个 384-GPU 集群,采用自主开发的统一总线用于 AI 工作负载。大多数中国解决方案在跨节点可扩展性方面仍然受限。
软件生态系统
全球主要供应商提供成熟的开源软件栈,拥有广泛的开发者支持,如 NVIDIA CUDA,GPU 编程的事实标准,拥有 cuDNN 和 TensorRT 等库。以及 AMD ROCm,面向 HPC 和 AI 的开放生态系统,得到 PyTorch 和 TensorFlow 等框架支持。这些生态系统确保企业用户能够快速部署和优化。中国企业开发专有软件栈。
总之,中国芯片厂商专注于特定应用优化和成本效益解决方案,通常优先考虑细分市场或监管对接,关于中国智算中心发展、中国芯片厂商以及中国算力产业深度发展现状分析,欢迎关注12月10日到11日在北京首钢国际会展中心1号馆举办的以“重塑算力 破界而生”为主题的第二十届中国IDC产业年度大典(IDCC2025)暨数字基础设施科技展(DITExpo) ,届时将有超过12场主题平行论坛联合举办。
【会议合作】李女士
【联系邮箱】linda.li@idcquan.com
来源:中国IDC圈
