摘要:近期,英伟达发布了其新一代 Rubin CPX,一款专为海量上下文处理的 GPU,能够使 AI 系统能够以突破性的速度和效率处理数百万个令牌的软件编码和生成视频。
文章转载自「调研纪要」
近期,英伟达发布了其新一代 Rubin CPX,一款专为海量上下文处理的 GPU,能够使 AI 系统能够以突破性的速度和效率处理数百万个令牌的软件编码和生成视频。
性能方面,Rubin CPX 拥有 30 petaflops(NVFP4)算力、128 GB GDDR7 显存及硬件级编解码引擎,把长序列注意力加速提升 3 倍,单卡即可在 1 s 内完成百万 token 级推理。
英伟达 CEO 黄仁勋表示,Rubin CPX 是首款专为百万级 token 处理而构建的 CUDA GPU。
正如 RTX 革命性地改变了图形和物理 AI,Rubin CPX 是首款专为大规模上下文 AI 而构建的 CUDA GPU,模型可以同时进行数百万个知识 token 的推理。
Rubin CPX 的核心创新是什么?为什么市场这么关注 Rubin CPX?对产业链有哪些利好?这篇文章进行了详细地梳理。
R ubin CPX 是什么 ?
Rubin CPX 于2025年9月9日发布,是首款专为海量上下文AI处理(如百万token推理)设计的CUDA GPU。CPX算力达30PFLOPS (NVFP4精度),配备128GB GDDR7内存, 能处理百万 tokens 量级的代码和生成式视频,猜测是应对推理时代被 ASIC 抢份额而做出的最好折中方案。
运作原理与架构创新
1)AI 推理其实分两步:
- 预填充(prefill):把你输入的一大段提示词一次性吞下去,算完第一层草稿。算力吃得很紧,内存带宽却闲着。
- 解码(decode):后面一个词一个词地往外蹦,每次都要把之前的结果读回来再算。内存带宽吃紧,算力反而闲着。
2)过去两步都用同一颗 GPU(比如 H100、B200),可以简单理解为总有一半在休息。Rubin CPX的 新方案就是 把最贵的 HBM 砍掉,换上便宜大碗的 GDDR7,算力继续拉满而成本打折。
- 算力:20 PFLOPS(稠密),和 R200 一个量级。
- 内存:128 GB GDDR7,带宽只有 2 TB/s(R200 的 HBM 是 20.5 TB/s)。
- 功耗:单芯片 800 W,带内存 880 W。
- 接口:没有 NVLink,只用 PCIe Gen6 对外通信。
3)英伟达在 Rubin 架构的分工策略:
- 用 Rubin CPX(GDDR)承担便宜的“批量算力活”(pre-fill);
- 用 Rubin HBM GPU 专门负责“带宽敏感的生成环节”(decode)。
成本能省多少?
- 芯片成本:一颗 CPX 只要 R200 的 1/4 价钱,却给出 80% 的算力。
- 内存成本:GDDR7 每 GB 价比 HBM 低 5 倍。
- 网络成本:省掉 NVLink 后,每 GPU 再省 ~8000 美元。
- 整机 TCO:在预填重的场景(长提示词、大 batch)下,每小时浪费成本从 0.6 美元降到 0.06 美元,直接打 1 折。
Rubin CPX 好在哪?性能表现如何?
50倍投资回报 (GB200 回报率为10倍) : 买它的公司,每投入1块钱产生50块的tokens受益,所以初创公司正在探索怎么用它。
在此芯片的导入下,Vera Rubin同时集成了 Vera CPU 和Rubin GPU和CPX,从分工而言,Rubin GPU与CPX负责分工处理上下文的复杂逻辑运算和生成阶段的高效数据吞吐,如此优化设计使算力利用率实现质的飞跃。搭载Rubin CPX的Rubin机架在处理大上下文窗口时的性能,能比当前旗舰机架GB300 NVL72高出最多6.5倍。
能甩开 AMD、谷歌、AWS 这些竞争 对手吗 ?
- AMD:刚把 MI300 机架凑到 72 GPU,带宽追到 20.5 TB/s,结果英伟达换个思路又领先了。AMD 内部没大推理量,再追要 2027。
- 谷歌 TPU:pod 大、网络便宜,但缺 pref-only 芯片,也得补作业。
- AWS TrAInium:喜欢用自己的 EFA 网卡,托盘塞不下,只能再外挂一个“侧车机架”,上市时间被拖。
- meta/微软/OpenAI:有内部 workload,可以自研 pref 芯片,但等流片出来至少 18 个月。
而英伟达还有后手:思路就是 把一颗通用大芯片拆成两颗专用小芯片,每颗都做到极致。 prefill 专用芯片有了,下一步再搞一颗 decode 专用芯片,算力砍半,HBM 拉满,再把成本往下砍一半。
单颗芯片长什么样?
新芯片 Rubin CPX 没有 HBM,配 128GB 的 GDDR7,显然是推理用,不是训练用,FP4 精度算力 30PFLOPS,相较于 Rubin 的正常 GPU 是 50PFLOPS
做机柜长什么样?
一个机柜中集成144个Rubin CPX GPU、144个Rubin GPU和36个Vera CPU。该平台可提供:8EFLOPS(NVFP4精度),是GB300 NVL72的7.5倍;100TB 高速内存;1.7PB/s 内存带宽。
- 仍然用的是 GB300 NVL72 的机架方案,Oberon 方案,也就是上 9 个下 9 个 compute tray,共 18 个,每个有 4 个 Rubin 芯片(共 8 个 Die)和 2 个 Vera CPU,所以总共是 72 个 Rubin GPU,144 个 Die,叫 NVL 144
- 每个 compute tray 有 8 个 Rubin CPX,8 个 CX-9 网卡,如果按照 CX-7 400G,CX-8 800G 来推导,那就是 1.6T,8 个就是 12.8Tb/s, 一个托盘就等于 1/4 个博通 Tomahawk 5 交换机的吞吐量
- 两个版本,除了正常的单机架版本外,还有双机架版本,纯放 18 个 VR CPX 的 compute tray 在旁边,猜测这个版本是给原来已经做了的直接搭配上去的
猜测大概多少钱?
Rubin X 现在还不清楚多少钱,简单做一下预测:
- GDDR7:$10/GB,128GB,就是 1,280 美金
- Die:前道后道(应该不是 cowos,类似游戏显卡直接焊在 PCB 上)按照 1,000 美金算
- 其他:按照 500 来算
BOM 成本共 2,780 美金,一般毛利率在 80%,所以估算可能是 14,000 左右
利好什么?
最直接的是PCB:1)凭空多出来 cpx 下面的 PCB 2)Rubin 模组和 cpx 之间,可以叫做正交中板 44 层,取代内部铜线,现在的价值量还算不清,但很明显更多,材料也更多,或许是专家讲的 M9+二代布+四代铜,玩家还不确实是谁,选已经在 NV 体系下的更好。
光模块:144 CPX一层compute tray框图上画了八颗CX9,和几个月前的GTX上的demo相比翻倍(如果真用这么多)
液冷电源:功耗变成 350kw,自然散热和电源多了
组装:无论是单 rack 还是 dual rack,组装都更麻烦了,价值量提升
考虑CPX和Rubin GPU之间协作需要高速带宽互联,CPX芯片需要通过一张Midplane板子与Rubin GPU连接,方案预计为40层+高多层,且高速传输效率的要求下更加需要M9材料应用。此外,CPX芯片同样需要PCB用以承接,根据当前英伟达方案来看,预计CPX芯片的应用带来PCB新增量,方案当前暂定为HDI。
昨晚已有文章梳理:《 关于NV Rubin系列PCB 》
midplane取代内部线缆:
- 我们判断英伟达将从 Rubin VR200 开始在参考设计中采用midplane。不同于 GB200——其中 CX7 直接放置在 Bianca 板之上,并用线缆连接 BlueField 与 OSFP cages,而VR200 用midplane取代tray内部线缆,以连接 Bianca board、CX9 与 BlueField。
- VR200 的compute tray midplane将作为在 Kyber 大规模采用前的测试。就 VR200 而言,我们预计每个 NVL144 需要 18 个midplane(每个compute tray一个),且我们供应链反馈显示midplane将用44L PTH PCB,采用台光的 896K3 M9 CCL;按每 GPU 计价值量 150~170 美元。
- 英伟达 Rubin 的 PCB spec 尚未最终确定,但采用 896K2(low-DK 2+HVLP 4)的switch与采用升级版 M8 的compute tray的可能性较大。叠加全新的 midplane ,我们预计英伟达每 GPU 的 PCB 价值量将从GB200 的约 400 美元提升至 VR200 的约 900 美元,并预测英伟达 PCB 的 TAM 将在 2025–2027 年达到人民币 131/289/707 亿元。
光模块1.6T需求有望提升: CX-9配比较高,4个rubin+8个 CPX使用了8个CX-9,显著冲击大家此前对1.6T端口数量的预期。
1)回顾Nvidia 机柜式架构,每一代机柜scale out总带宽提升的核心是带GPU die带宽的提升。
①GB200 72个CX7,1个B200有2个die,单die带宽 200G;
②GB300 72个CX8,1个B300有2个die,每个die带宽为 400G;
③Rubin NVL144,一个托盘4个rubin,每个有2个die,对应4个CX-9,每个die带宽为800G;
④Rubin Ultra NVL576,实际上是144个Rubin Ultra GPU,每个有4个GPU die,576个die,对应288个CX-9,每个die 800G。
注:从Rubin开始NVL计数法用die数量计算,之前是用卡个数计算。
2)市场关注的点是8个CX-9到底是什么配置下才有,还是都有。
-我们认为4 Rubin+8 CPX 对应8个CX-9是合理的。具体计算如下:1)由于CPX是单die,所以一个4 Rubin+8 CPX托盘实际上有16个die,每个die按rubin代际应该是800G,因此是8个CX-9;
- 至于纯8个CPX Tray,和纯4 Rubin Compute Tray,也对应8个CX-9,我们猜测这是dual rack架构,类似2*NVL36,每个CPX Tray和Rubin Tray有一半的端口/网卡进行scale out互联,对外scale out的合计也是16/2=8个CX-9端口,带宽也很高。我们认为本次展示的VR144与此前GTC大会的VR144端口数量和前面板形态都有变化。
3)我们认为显现出几个趋势:
①推理的步骤分卡解耦使得单托盘GPU数量增加,增加的GPU都会带来新增带宽。如果未来ASIC或者其他GPU厂商也推出解耦方案,那样会非常利好光模块。
②打破了只有训练才需要高端光模块的惯性思维。可想该机柜方案推广成功,2027年1.6T光模块用量可能非常可观。
③由于单卡die数量不一样,光模块个数:卡可能会非线性增长。如果按GPU计算,三层组网架构,不考虑铜做第一层,GB200是1:3 800G,GB300是1:6 800G,VR144可能是1:6 1.6T,VR CPX 144平均为1:4 1.6T(12张卡,接入带宽为12.8T)。
4)今早电话会要点:
- Rubin nvl144的光模块配比较GB300翻倍,本质是rubin gpu输出到scale out的带宽翻倍。我们认为一个compute tray是8个cx9网卡,但26年的cx9网卡可能是800G而不是1.6T的,所以较GB300的一个tray数量翻倍而单个带宽不变,这样的话800G和网络侧的1.6T用量都翻倍。等CX9的1.6T完整版出来后,到时视3.2T是否ready,再来评估,但总体都是非常利好的
- 上调26年1.6T全市场的需求至1500w,注意这是从需求端看。从供给端看,1.6T仍有一些物料瓶颈,需求能否兑现需跟踪上市公司备货情况。但总体来说26年1.6T的量仍大超市场预期。27年下半年3.2T才逐渐起量,所以我们预估1.6T 在4000-5000w,弥补了网络侧3.2T的市场,增量来自rubin及云厂商的asic
- 光模块龙头理应更高估值。Oracle海啸级订单进一步确认了AI硬件需求的持续性、scale up打开了旭创新易盛的市场空间,rubin光模块配比翻倍再次增大了未来数年光模块市场容量,未来5年复合增速有望到50%量级。我们认为光模块应该值得更高估值,万亿市值的投资框架正在逐步建立。
从电源液冷的角度看,Rubin cpx 整机功耗从180-200kw升级到350kw,其实电源和液冷的本质也是追求摩尔定律。单位面积下的计算和传输功耗越来越大,而同时由于计算集群的变大,总功耗也变大,由此产生了高功率的电源和液冷。因此,电源和液冷是功率和功率密度升级下的通胀产物。
Rubin CPX预计整机功耗由180-200kw提升至350kw,将催动供电架构加速往直流化、高压化趋势演进:
- 单机功率在130kw左右时(对应GB200/GB300芯片),仍可用传统的UPS供电架构(380V AC-380V AC);
- 单机功率提升至150-250kw之间时(对应Rubin系列),一次侧电源有必要由UPS转向800V HVDC(380V AC-800V HVDC),二次侧(柜内电源)由传统的220V-50V升级为800V-50V;
- 单机柜功率高于250kw时(对应Feynman系列),除了一次侧电源转向800V HVDC架构外,二次侧电源(柜内电源)将升级为板载电源降压(在载板上实现800V-12V)。
近期头部企业均有不同程度积极变化、把 调研的一些变化 更新如下:
首先,无论是海外如gogole、meta(26Q1)还是国内阿里巴拿马2.0(25Q4),我们都看到了产业加速。
- 中恒电气:国内HVDC绝对龙头,有十年以上成熟项目出货经验、卡位优势显著(绑定头部客户);目前海外已有HK项目应用,今年重点看东南亚突破、明年看北美市场。
- 科士达:已有北美UPS功率模块代工合作、绑定北美头部HVDC电源供应商,预计年内出HVDC功率模块样机、26H2放量。
- 盛弘股份:与北美头部HVDC电源供应商对接中,预计年内完成HVDC功率模块样机开发、26H2放量。
- 通合科技:中台HVDC核心模块代工,模块成本占比约40%-50%(非之前市场预期的20%-30%)。
- 铜冠铜箔:从9月起,不仅hvlp2代,3代部分客户开始起量;4代已有小批量订单,测试批量订单的稳定性。
- 江南新材:不仅是铜粉铜球市占率第一,下游验证明年对铜粉需求或100%增速,而国内仅公司有扩产,1)涨价期权加深;2)液冷主要看CM和AVC订单。
- 铂科新材:1)cpx功率翻倍;2)那一片,面积没变,功率翻倍——大概率切换芯感模组。
Mistral AI高效的AI模型,加上ASML的光刻机制造实力,可能会在AI和芯片领域找到全新的突破口。
来源:晚晚的星河日记一点号