英伟达还能走多远

B站影视 2025-01-08 16:01 2

摘要:英伟达是对算力追求有执着,而不是对人工智能有执着。算力与人工智能之间的强绑定,过去从学术界的角度来看,是一个偶然事件,但之后从产业界商业化兑现的角度来看,却是一个必然事件。英伟达自2020年收购迈洛思Mellanox,进而部署芯片算力的同时,也前瞻性布局集群算

英伟达是对算力追求有执着,而不是对人工智能有执着。算力与人工智能之间的强绑定,过去从学术界的角度来看,是一个偶然事件,但之后从产业界商业化兑现的角度来看,却是一个必然事件。英伟达自2020年收购迈洛思Mellanox,进而部署芯片算力的同时,也前瞻性布局集群算力,如其所愿等来了人工智能需求的崛起。

1

博通:手握大量SerdesIP,恰逢AI网络时机来临

2024年,全球商用以太网交换机芯片的市场格局,博通一家占据了接近70%的市场份额,Marvell则占据了约20%,英伟达等其他公司则占剩余的部分。究其缘由,是因为博通拥有大量近乎市场垄断的Serdes IP,进而是数据中心网络领域的绝对领导者,其得益于博通在过往数十年之中对以太网生态的技术经验积累。

此次定制芯片ASIC市场需求的崛起很大程度上有反应在博通的股价增长层面上,市场对AI时代的预期增长点,已从对芯片算力单纯追求的同时,开始转向对网络连接重要性的预期提升。此次第三财季的博通营收方面,AI相关的业务同比增长2倍,其中AI定制加速器同比增长3.5倍,以太网交换机芯片(主力产品是Tomahawk5 与 Jericho3-AI)则同比增长4倍,AI网络连接的价值贡献正式开始上升。


这种变化主要是由于超大规模AI集群对网络带宽和低延迟的需求增加,进而行业集群规模持续扩大的趋势之下,网络连接成为释放AI集群性能潜力的关键因素。具体进一步分析来看,网络连接的价值量占比在规模较小的AI集群中,如10万个XPU,其价值占比大约为XPU总价值5%-10%。与此同时,当AI集群规模扩大到50万到100万个XPU时,这一比例会显著上升至15%-20%的价值占比。2025年北美四大超级云厂商资本开支预计提升1000亿美元至3150亿美元,同比增加46%,同比增速保持高位运行,算力需求市场保持乐观,进而建立更大规模的AI集群也是目前海外超级云厂商共同的布局趋势。


现阶段英伟达的专有网络连接NVLink+InfiniBand,已成为软件生态护城河CUDA之外的硬件护城河。目前行业寻求突破英伟达芯片算力的垄断,也正是从其硬件护城河开始,叠加此次全球推理业务需求的首次崛起,定制芯片ASIC份额持续扩大的加持之下,为行业突围英伟达垄断提供了极佳的时间窗口。

2024年第三季度,UALink 1.0技术标准发布,该技术已实现在单个集群中连接多达1024个AI加速器。UALink联盟的创始成员包括博通、AMD、思科、谷歌、英特尔、Meta和微软等,该联盟的成立是为了挑战英伟达的专有NVLink技术,为可扩展的AI加速器互连创建一个全行业的开放标准,使不同厂商的加速器能够无缝集成。UALink联盟的成立标志着行业对高性能、低延迟互连技术需求的增加,联盟汇聚的力量有望打破英伟达在该市场的主导地位。


在此之前,行业曾推出CXL协议,旨在挑战NVLink技术,只是目前仍未能完全达到NVLink在GPU间直接连接的性能水平,但其开放性和多功能性使其在异构计算和大规模数据中心环境中具有广阔的应用前景,市场空间超百亿美元,特别是在内存扩展、资源池化方面的应用。


此次英伟达GB200 NVL72的极大创新之处在于,相对于上一代H系列的经典8 GPUNVLink互联方案而言,很大程度上扩展了NVLink所支持的并行计算规模进而提供36个CPU+72个Blackwell GPU的整套互联方案,算力直达1EFLOPS,即便数台也足以支撑GPT4等超一万亿参数量的大语言模型训练。

很显然,在NVLink的助力之下,英伟达的超节点算力现阶段已经遥遥领先于全行业。具体进一步分析来看,与相同数量的H100 GPU相比,GB200 NVL72可为超万亿参数量大型语言模型提供4倍的训练性能,30倍的推理性能。一方面实现了NVL72在无论是训练端还是推理端所表现出来的性价比,皆创有史以来最佳水平的同时,其推理性能现阶段的表现甚至是其训练性能的七倍以上,更加完美地契合了2025年起算力推理端需求的崛起。


究其缘由,出现推理性能如此大幅度领先于训练性能的主要分析还是在于,NVLink的存在,绕过了传统PCIe总线的带宽限制和延迟问题,进而实现了GPU之间双向带宽高达1.8TB/s。这样一对比速率,本质上就是1.8TB/s,与PCIe 6.0协议的128GB/s的巨大区别,而这些领先参数正是基于NVLink架构所实现的。与此同时,叠加英伟达专有的CPU与GPU互连技术,即,NVLink Chip-2-Chip,旨在实现内存一致性的数据传输,进而得益于此,应用程序可以一致地访问巨大的统一内存空间,而这是前所未有的技术实现。相对于训练端而言,推理端更受益于内存带宽GB/s的大幅度提升,进而英伟达的推理场景性能才有了如此巨大幅度的提升。


博通拥有大量的SerdesIP,进而行业之中只要涉及网络传输领域相关的芯片,皆是博通的市场份额。从以太网交换机芯片开始、网卡芯片、光模块芯片、甚至是基于Serdes IP再造任何一款网络协议芯片也是完全可以做到的,而这些网络连接技术的积累,正好是接下来挑战英伟达专有网络的基础。

英伟达的网络连接NVLink,以及其通信总线InfiniBand,其底层高速数据传输也同样是受益于Serdes技术的发展,目前行业发展阶段已来到了224G Serdes节点。此次定制芯片ASIC市场需求预期的崛起,主因是全球人工智能算法发展的现阶段,行业对基于Transformer架构及其算法变种的认可度已经成为主流,底层计算中由张量运算为主的算法确定性逐渐增强,进而推高了行业面向张量运算ASIC体系发展的价值量。


未来三年,推理业务需求崛起所带来的定制芯片ASIC价值增量,将会是数倍于博通现阶段半导体业务的全年营收,进而预计会逐步渗透至英伟达GPU的市场份额。


从技术扩散的角度看芯片,硬件层面的技术壁垒的逐渐消除是技术迭代的必然结果,芯片的真正壁垒来源于其背后的软件生态。例如,高通、英特尔、AMD等公司在服务器和手机芯片市场的竞争力大部分归功于它们所构建的软件生态。这正是为什么尽管英伟达曾努力颠覆X86系统,但受限于大量软件基于X86架构,其努力并未成功。


因此,芯片的竞争实际上是软件生态的竞争,这也正是目前行业选择从网络硬件NVLink+InfiniBand突围英伟达垄断的核心原因。不难发现,现阶段行业的两大联盟,UALink、超以太网联盟UEC,其突围方向分别对标NVLink、InfiniBand,而这两大联盟的领头羊正是博通。


在差不多20年前,芯片发展史上就曾出现过,产品技术的迭代成功突围了硬件层面的技术壁垒,即,定制芯片ASIC取代通用芯片GPU的过程。

早年行业算力较低,并行计算较弱的 CPU 得以也能够参与早期的比特币挖矿,进而成为当时最主要的算力来源。2010年起,随着比特币持续走高,挖矿算力需求快速提升,同时由于比特币采用 SHA256 哈希算法适合并行计算,因此在2010年至2012年期间,GPU算力逐渐取代芯片CPU,进而成为当时最主要的算力来源。2012年后期比特币继续全球暴涨,挖矿算力需求进一步增长,高性价比定制芯片ASIC开始出现在市场。


我们认为哈希算法的确定性以及行业对下游算力需求的乐观预期,共同造就了挖矿行业ASIC芯片快速取代通用芯片GPU的历史进程,至此全球挖矿算力需求绝大部分市场皆由定制芯片ASIC所占领。从挖矿时代定制芯片ASIC的异军突起,进而取代通用芯片GPU成为挖矿主力,再到如今AI算力芯片ASIC的重出江湖,博通带头行业联盟率先从网络硬件NVLink+InfiniBand突围英伟达垄断,历史似乎又准备开始重演。


与此同时,通信总线是整个AI集群的灵魂,InfiniBand以太网的总线之争,其实也正是人工智能的生态之争。目前AI产业的发展路线正在从以训练为主转向训推并重,以太网高适配性及经济性优势预测将随着推理业务侧的需求崛起被进一步放大。

从不同市场来看,目前InfiniBand在全球超算TOP100市场占据60%以上份额,主要是由于InfiniBand的技术优势非常适用于超大规模的高性能智算中心,同时InfiniBand架构有先发优势,其早在2000年就发布了InfiniBand架构规范,领先于RoCE以太网长达十年之久。


2014年,RoCE v2面世,RoCE以太网与InfiniBand的性能差距开始缩小,进而以太网凭借着成熟且开放的生态链,在智算中心市场开始迎来反攻。目前在全球超算TOP500市场中,RoCE以太网占据近50%市场份额,并于2016年超过InfiniBand。很显然,RoCE以太网在中低端市场更占优势,主要是得益于其具备成本优势和高兼容性的生态优势。


未来趋势上来看,RoCE以太网、InfiniBand,两者将逐步分化形成互补格局,但2025年起推理业务侧的需求崛起,AI后端网络基于以太网部署预计将开始成为行业首选。根据博通方面2024年的相关表态,目前全球部署的8个最大的AI集群之中,有7个使用博通的以太网解决方案,预计2025年开始所有超大规模的GPU集群,将大概率基于以太网部署,进而RoCE以太网在中高端市场的份额将进一步渗透。


目前10万卡集群正在成为北美超级云厂商的标配,此规模的AI集群用FP8训练GPT4超万亿参数量的大模型,时间上只需要四天。行业构建一个包含10万张H100加速卡的集群,目前使用InfiniBand组网的总成本约为40亿美元,以太网成本相较InfiniBand降低约5亿美元,主要是由于InfiniBand的网络技术体系是封闭的,其网络设备并不兼容现有以太网的网络设备,需要专用的InfiniBand网卡、InfiniBand交换机,进而组网成本最高。同时英伟达自2020年收购迈洛思Mellanox,目前几乎占据了整个InfiniBand市场。

2

三年后的AI算力ASICGPU平分天下

此次博通方面的相关表态,其预测到2027年AI相关业务收入将达到600-900亿美元的服务可触及市场SAM这一预测是基于博通现有的三大客户,即,谷歌、Meta、字节跳动的收入机会。这一数字远高于市场预期,其意味着从2024年到2027年,博通的AI收入预计将实现每年翻倍。在此之前,博通的AI业务收入,就已经从2023财年的38亿美元,增长到2024财年的122亿美元,特别是其从谷歌TPU项目中获得了显著的收入增长,2024财年中所贡献的收入将达到80亿美元。

博通作为谷歌TPU的核心合作伙伴,自2016年起便参与了TPU的设计与制造工作,还提供芯片封装、内存、连通性和光学等关键技术,帮助谷歌实现了TPU的持续迭代。正如上述所分析,定制芯片ASIC需求的崛起,其实最关键的不仅是博通有出色的芯片设计基础,而是博通具备基于Serdes IP再造任何一款优秀的网络协议芯片进而实现媲美英伟达专有网络的能力预期。具体进一步分析来看,谷歌要从目前80亿美元的收入贡献,进而增长至2027年的300亿美元TPU采购,可行性预期还是非常高的。首先预计在2025年,谷歌TPU采购将超120亿美元,主要是即将推出的TPU v6芯片相关。2026年起,TPU v7芯片计划开始量产,TPU v7芯片预计将有两个版本:v7p、v7e。在这其中,v7p版本仍交由博通负责设计,而v7e版本则由谷歌内部团队负责设计ASIC die,同时联发科负责设计I/O die。产能方面,v7e版本的全生命周期预计会有约200万颗产量,这表明其在市场上的应用规模较大,预计将会给联发科带来超60亿美元的收入贡献。

博通作为Meta自研AI芯片的核心合作伙伴,与Meta在MTIA芯片方面的合作主要集中在定制化ASIC芯片的设计与开发上。目前已共同设计了Meta的第一代和第二代AI训练加速处理器,并预计将在2024年下半年至2025年加快研发Meta下一代AI芯片MTIA 3。具体进一步分析来看,博通在与Meta的合作中不仅提供芯片设计,还参与了芯片的制造、测试和封装等环节。这种深度合作使得博通有望在未来三年内从Meta的订单中获得显著的收入增长。预计在2025年,Meta的MTIA芯片将为博通带来20-30亿美元的收入贡献。同时博通CEO预计Meta的MTIA芯片需求将在未来三年增长10倍,这将进一步显著提升博通的收入。目前Meta的训练任务主要依赖GPU算力集群,拥有等效60万卡H100的算力。

字节跳动与博通合作开发定制化的AI芯片,旨在确保高端AI芯片的稳定供应,预计将在2026年上市。目前在美国芯片制裁压力之下,为应对美国的出口管制,通过定制芯片ASIC合作开发的方式符合美国的出口规定,并交由台积电5nm制程工艺制造。字节跳动在2022年美国出台限制政策前后采购了大量英伟达芯片,同时字节跳动也采购了大量博通的Tomahawk 5nm高性能交换芯片以及专为AI计算集群设计的Bailly交换机,进而能够极大推动现阶段的超大规模AI集群的建设。值得关注的是,字节跳动预计将在2026年给博通带来超200亿美元的收入贡献,届时合作的定制芯片ASIC出货量预计将高达百万卡。这与博通CEO此次的表态相谋和,即,计划到2027年在单一网络架构上部署每个客户高达100万卡XPU集群,自此博通网络连接领域的行业优势,届时将大放异彩。

来源:新财富杂志

相关推荐