摘要:在2025年华为全连接大会 上,华为发布了多款重磅芯片新品,包括昇腾950系列、960以及970等AI芯片,并公布了未来三年的昇腾AI芯片产品路线图。
中国 的 算力 芯片 领域 , 正 在 悄然 发生 变化 。
在2025年华为全连接大会 上,华为发布了多款重磅芯片新品,包括昇腾950系列、960以及970等AI芯片,并公布了未来三年的昇腾AI芯片产品路线图。
其中,950系列采用了两个不同的后缀——PR(Prefill Recommendation,预填充与推荐)、DT(Decoder Training,推理解码与训练) 。
传统AI芯片在处理大模型推理时面临资源争抢问题 , 而在互联网平台企业中,其推荐算法推理模型所需的内存容量也 巨大 。 如何在算力、内存容量和内存带宽之间取得平衡,是提升投入产出比的关键。
华为的 “ P/D分离 ” 设计 就是 尝试 通过为不同应用场景配置不同的算力、内存容量和带宽来 实现这一目标 。
这种设计 正 是 针对中国AI市场面临的现实挑战:能够运行DeepSeek满血版几乎成为国内衡量AI计算系统的试金石 。 然而 , 要 承载 671B的参数,仅仅是采用不同版本 M emory 这一项的成本差异就可达数万美金。
可以说, 中国AI产业的市场化需求,倒逼了国产芯片的产品创新。
从 产品角度看,发布会 上 的 这一 最大看点 , 也 是 一个强烈的行业信号 :
1 ) 以 DeepSeek 为代表 的 应用 与 基础 模型 产业方 , 在 持续不断 且 深度 推动 着 中国 AI 芯片 的 发展 ; 更进一步 , 受益于 中国 庞大 的 数据中心 基础设施 规模 与 未来 需求 , “华为-海光-其他”的生态格局基本形成 ;
2 ) 时代 亟需 一个具备技术背景、但又对市场应用娴熟于心 、同时又具有平衡取舍之道的产品经理 人才梯队 ;
3 ) AI产业的繁荣与领先,是AI芯片突破与创新的前提。
从近期华为主动发出的信号,以及 作者 作为 多年 从业者 获得 的 行业 信息 ,华为的产能约束基本上得到了 缓解 。
数据中心的三大基石是计算、通信(网络互连)和存储,这是分析算力系统必须牢记的前提。 在AI算力系统中,影响计算性能的,也可以划分为三个部分,设计算力值、计算(算力)核之间高速互联以及存储带宽。
在 《 软银投资20亿,英特尔成为全球高端制造业最大变数 》 中 , 笔者 曾经 提到 算力的大小和工艺制程强相关,而这种高端工艺制程的主要体现就是Fab的高端产能与先进封装。
为华为提供类CoWoS封装的企业,今年已经出现产能盈余并向外释放,说明在7nm节点附近,华为的需求已基本得到满足。
再来看高速互联。
WAIC期间,超节点是AI基建的重头戏。其中 , 华为的CloudMatrix384 成为 了 亮点 , 它 的显著特征是其点对点、全互联、超高带宽的网络,通过 UB 协议连接所有的 NPU 和 CPU。
CloudMatrix384通过Ultra-High-Performance Networking实现了 CPU、NPU、内存、网卡(NICs)以及其他资源的完全点对点解耦与池化,其点对点硬件架构,包含用于超节点内扩展的超高带宽统一总线(UB)、用于超节点间通信的 RDMA ,以及用于与数据中心网络集成的虚拟专有云(VPC)。 这再次证明,通信技术本就是华为的核心优势。
再来看内存带宽。
华为本来在通信领域有深厚积累,可以说高速互联技术是华为的“老本行”。
再来看内存带宽。
这次的发布会上,华为发布了950、960、970系列产品,其中最为引人注目的950系列推出了两个版本,从应用上看这标志着PD分离在硬件层面的解偶,但从结果来看,内存带宽也跟了上来。
计算、高速互联与存储带宽这些硬件上都有了大的突破,产能问题得到解决的华为,需要攻克的下一个堡垒就是产品的生态了。
2022年,当业内开始注意到CUDA生态之于英伟达的意义时,构建生态似乎成了老生常谈。
生态的本质是生意。
intel建构了X86生态,英伟达建构了CUDA生态,哪怕苹果、小米、腾讯都有各自的生态。其共同点,正是依附于这一生态中的每一家企业、机构、开发者,都可以在其中找到自己的生态位、并在其中商业变现、进而获利。
总不能指望,当一家企业举起了生态大旗,就有许多企业不求回报地进行资源的投入。无利不起早,才是商业世界的常态。
具有生意(潜力)是生态建立的基础。
那么,传统的华为可能就面临着(也在进行着)模式的转变,从封闭到开放,从肥水不流外人田到利益共享。Intel和英伟达作为带头大哥走过的路,华为也要走一遍。
这条路上华为并不孤独,因为还有,海光。
地缘政治的风险里,孕育了自主可控的机遇。作为技术国产化成功的典范,海光凭借X86架构的优势,其CPU在信创领域和国产化市场中所向披靡。随着资本的积累日渐丰盈,其技术实力与产品涉足领域也与日俱增。除了CPU之外,AI算力芯片、RAID Controller、高速网络芯片也日渐成熟,在数据中心的重要芯片上,海光在一步步地攻城略地。
2025年5月下旬,海光宣布将会合并曙光。而在更早,这两家兄弟公司已经在生态层面开始协同,重新对旗下各家企业进行定位,通过让渡市场的措施,实现同国内服务器厂商和其他产业链上企业的合作,构建系统层面的生态。
可以说,“华为-海光-其他”的格局基本形成。
基于这个观察,可以进一步推演:
华为会在不久的将来做出选择,到底是IDM还是Fabless模式。当然,不论做何选择,他应该还是会继续保持对产能的强力控制;
合并后的海光下一步,就是入股高端产能,在当下的中国,也就意味着Fab大概率是SMIC或者华虹。从商业实操方面看,华虹可能性更大。至于OSAT,通富微电本来就和海光有着千丝万缕的关系。
上文提到, 本次发布的950系列之所以受到关注,核心就在于其PR和DT两个不同型号,这正是业界探索已久的“P/D分离”。
这又是一个类似于DeepSeek发布时的解码游戏。
为了解释清楚这个概念,需要看一下大模型的演进路程和中国AI算力面临的 实际 挑战。
大模型的参数量是从Billion(十亿)级别起跳,百亿千亿是常态,直至 万亿 级 规模 。这些参数需要容量非常大的空间进行存储,且由于计算时需要极高速访问这些存储器,就需要极高的带宽。这就催生出了HBM这种既有大容量又有高带宽的新型存储器。
在进行计算时,算力的大小也决定着计算的效率,因此一 颗 AI芯片的目标设计算力也会做 得 尽量大。
然而,很少有产品经理在设计中深入思考算力与存储带宽的最佳配比关系。 毕竟,除了英伟达和Broadcom为大平台订制的AI芯片之外,能用起来已经是了不起的存在了。
但是,一个现实问题是,HBM的成本实在是太贵了,单GB容量的HBM是DDR的近乎10倍、甚至更高。对于中国的AI芯片公司来说,不仅成本压力大,而且想要获得足够的产能、甚至是稳定的供应都是一个挑战。
一个优秀的产品经理、架构师,之所以称为合格、优秀,就是要会优化、取舍,Trade-Off。做好优化与取舍的前提,是要对应用场景有深刻的理解与洞察。
在AI的应用场景中, 对 资源 需求 最高 的 的,除了模型的训练过程,一个是大家耳熟能详的 大语言 模型,一个是每一家互联网公司的主要利润来源 —— 推荐算法 。
在大模型推理中,常用以下两项指标评估性能:
TTFT(Time-To-First-Token):首 token 的生成时间,也就是从用户输入完毕到大模型回复的第一个字(母)所花费的时间,主要衡量 Prefill 阶段性能,这是一种计算密集型任务,对并行能力要求高,但是对内存带宽相对可以低一点;
TPOT(Time-Per-Output-Token):生成每个 token 的时间,也就是用户直接感受到的回复速度,主要衡量 Decode 阶段性能,这一阶段对内存容量和内存带宽的要求更高。
当 Prefill 和 Decode 在同一块AI芯片上运行时,由于两阶段的计算特性差异,会导致 TTFT 和 TPOT 之间的资源争抢。若优先处理 Prefill 阶段以降低TTFT,Decode 阶段的性能(TPOT)可能下降。若选择提升 TPOT,则会增加 Prefill 请求的等待时间,导致 TTFT 上升。
这次华为的两个型号,采用不同的内存容量和内存带宽, 应该 是采取了PD分离 思路 ,正是为了打破这一矛盾。
可以运行DeepSeek满血版,几乎成为国内衡量一个AI计算系统的试金石。
然而 , 要放得下671B的参数,仅仅是采取不同版本HBM这一项的成本差异就可达数万美金。而在互联网平台企业中,其推荐算法推理模型所需的内存容量也颇为巨大。如果可以在算力、内存容量和内存带宽间取得优化、取舍与平衡,投入产出比(ROI)就会提高。
时代呼唤专业的AI芯片产品经理。
事实上,在国内的芯片企业中, 真正 具备 产品经理 经理 能力 的 人才 非常稀缺。在曾经芯片主要还是由外企垄断的时代,一家芯片企业的Product Marketing 或 Product Line Manager是产品线的核心 管理 岗位, 一般 是由在总部的极少数人担任 , 随着 中国 市场 的 需求 和 美国 出现了 一定程度 的 不同 , 才 有 中国大陆人 逐步 跻身 这一岗位 。
而在中文语境下, “ 市场经理 ” 常被理解为负责市场传播(Marcom)或市场推广(Business Development)的角色。 在 今天 的 国内 AI 芯片 企业 中 , 目前 仍然 是 研发 岗 在 定义 产品 。
从DeepSeek的满血版提出的要求, 到 FP8数据精度的国产化需求 ,直至这次P/D分离,隐隐中可以看到模型应用提出需求进而驱动产品定义这一趋势在中国已然发生。 那么 理所应当地 , 一个 具备 技术背景 、 但 又 对 市场应用 娴熟于心 、 同时 又 具有 平衡取舍 之道 的 产品经理 , 将 成为 下一阶段 定义 和 推动 算力 芯片 和 系统 发展 的 主导 力量 。
这个趋势,是AI芯片与AI系统专业化、精细化的开端 , 是 产品运营 上 了 新台阶 的 标志 。
这个趋势,是“需求决定供给”这一经济学规律在AI的中国市场中的再次体现。
03AI 产业 是 战略高地 ,
AI 芯片 与 AI 产业 可 互相促进
正因为此,我们必须旗帜鲜明地说: 不能为了发展AI芯片,而 拖累 放缓了AI产业的发展。
AI产业的繁荣与领先,是AI芯片突破与创新的前提。
AGI 和 可控核聚变 是人类文明 当前 面对的两座生产力高峰。在当前的地缘格局下,大国的竞争围绕这两座高峰而展开。而企业之间的竞争,都在力图确保自己一直能留在牌桌上,不被时代甩在后面。
正如在战争一样,不能仅凭着热血 和 口号 , 但使用落后的武器装备去攻占战略高地,我们应该利用一切可以获得的优势资源去确保战争的胜利。
在通讯行业、在电力行业、在大基建行业,正是由于我们市场规模大、终端产业繁荣,一步步 倒 逼 上游的技术突破与产品创新,最终在全行业上下游实现各环节的突破。
在AI产业的竞争中, 首先要确保在竞争中留在牌桌上、甚至成为其中最为领先的佼佼者。 正如这一次次的案例说明、也正如经济学规律所揭示的一样,只要AI产业我们处于世界领先水平,其所引领的趋势、提供的丰富场景和明确需求、以及最重要的资本与人才、行业know-how积累,最终都会推动我们的AI芯片、算力系统取得突破,这只是个时间问题。
不过,网络上有句流传很广的话:成年人不做选择,我都要。
作为一个超大规模经济体的中国,在行业丰富度、产业协同度和资本积累程度上,当前基本具备“都要”的实力 。也就是说,在市场化经营的情况下,既有着使用世界顶级算力设施去冲顶的基础与必要性,也有着扶持AI国产算力所需要的资源 与 意愿 。
努力奋斗的目的,正是为了可以争取更多的选择空间, 于 个人、 于 国家,皆如是。
经过各领域 国人 同胞们多年不懈的奋斗与多方面积累, 我们 身处 产业变革与飞速发展的时代, 这 是理性者的福音,是魄力者的机遇,更是每一个普通奋斗者可能的逆袭之路。
来源:晚晚的星河日记一点号