博通,悄然称霸

B站影视 内地电影 2025-06-28 13:15 1

摘要:在人工智能基础设施的讨论中,GPU(图形处理器) 往往是焦点。不过,尽管 GPU 是这一领域的关键组成部分,但真正让我们能够大规模训练和运行数万亿参数模型的,是互连架构。

在人工智能基础设施的讨论中,GPU(图形处理器) 往往是焦点。不过,尽管 GPU 是这一领域的关键组成部分,但真正让我们能够大规模训练和运行数万亿参数模型的,是互连架构。

这些互连架构涵盖多个层面,无论是封装内部的裸片间通信、系统内芯片间的连接,还是能支持数十万加速器协同工作的系统间网络,都属于其范畴。

研发和集成这些互连架构绝非易事。可以说,这正是英伟达(Nvidia)如今能成为行业巨头的重要原因之一。然而,过去几年里,博通(Broadcom)一直在默默研发各类技术,其覆盖范围极广,从面向大规模扩展的以太网架构,到芯片封装内部的互连技术,无一不包。

与英伟达不同的是,博通专注于商用芯片领域。它会向任何企业出售芯片及知识产权,而且在很多情况下,你可能根本意识不到博通在其中发挥了作用。事实上,目前已有充分证据表明,谷歌的 TPU(张量处理器)大量采用了博通的知识产权。另有传闻称,苹果也在使用博通的设计方案研发用于人工智能的服务器芯片。

这种模式对超大规模数据中心运营商来说尤其具有吸引力,因为这意味着它们可以将精力集中在开发差异化的逻辑部分,而不必在如何将所有组件整合起来这类基础问题上重复劳动。

源于交换技术

提到博通,你首先想到的可能是它收购 VMware 引发的巨额定价争议。如果不是这样,那你或许会将它与以太网交换技术联系在一起。

虽然 Meta、xAI、甲骨文等公司部署的 GPU 数量之多常常登上新闻头条,但你可能想不到,要将这些 GPU 连接起来需要多少交换机。一个包含 12.8 万个加速器的集群,仅计算架构就可能需要 5000 台甚至更多的交换机,而用于存储、管理或 API 访问的交换机数量则可能更多。

为满足这一需求,博通一直在推出高基数交换机。2022 年,它率先推出了 51.2Tbps 的 Tomahawk 5 芯片;最近,又发布了 102.4Tbps 的 Tomahawk 6(TH6),该芯片可配备 1024 个 100Gbps 的串并转换器(SerDes)或 512 个 200Gbps 的串并转换器,用户可按需选择。

交换机的端口越多,基数就越高,在连接相同数量的终端时所需的交换机数量就越少。据我们计算,用 200Gbps 的速率连接前文例子中相同数量的 GPU,仅需要 750 台 TH6 交换机。

当然,由于采用的是以太网技术,客户并不受限于单一供应商。今年早些时候的 GTC 大会上,英伟达就宣布推出了自己的 102.4Tbps 以太网交换机。我们预计,Marvell和思科(Cisco)也将很快推出性能相当的交换机。

面向扩展的以太网

以太网最常见的应用场景是构成现代数据中心骨干的大规模扩展架构。但博通也将 Tomahawk 6 等交换机定位为实现机架级架构的捷径。

如果你对此不太了解,简单来说,这种面向扩展的架构能提供高速的芯片间连接,可支持 8 至 72 个 GPU,预计到 2027 年,支持 576 个 GPU 的设计也将问世。虽然通过简单的芯片间网状结构就能实现最多 8 个加速器的小型连接,但像英伟达的 NVL72 或 AMD 的 Helios 参考设计那样的大型配置,则需要交换机的支持。

英伟达已经推出了 NVLink 交换机,而且行业内多数企业也认可了作为开放替代方案的 Ultra Accelerator Link(UALink),但该规范目前仍处于初级阶段。其首个版本于今年 4 月才发布,专用的 UALink 交换硬件尚未面市。

博通是该技术的早期支持者,但在过去几个月里,它的名字从 UALink 联盟网站上消失了,转而开始推广自己的面向扩展的以太网(SUE)栈 —— 该栈旨在与现有交换机配合使用。

对于这类面向扩展的网络,像 UALink 这样精简的专用协议固然有其优势,但以太网不仅能完成任务,而且目前已经可以投入使用。

事实上,英特尔已经在其 Gaudi 系统中,将以太网同时用于面向扩展和大规模扩展的网络。而 AMD 则计划从明年开始,在其第一代机架级系统中通过以太网来传输 UALink 协议。

为更大、更高效的网络铺路

除了传统的以太网交换技术,博通还一直在投资共封装光学器件(CPO)—— 早在 2021 年推出 Humboldt 时就已涉足这一领域。

简而言之,CPO 技术是将通常存在于可插拔收发器中的激光器、数字信号处理器和重定时器集成到与交换机 ASIC(专用集成电路)相同的封装内。

尽管网络设备供应商在很长一段时间内都不愿采用 CPO 技术,但该技术确实有诸多优势。尤其是减少了可插拔器件的使用,从而显著降低了功耗。

据博通称,其 CPO 技术的效率是可插拔器件的 3.5 倍以上。

在今年的台北国际电脑展(Computex)上,这家芯片商预告了第三代 CPO 技术。我们了解到,该技术将与 Tomahawk 6 交换机 ASIC 搭配使用,能在交换机正面提供多达 512 个 200Gbps 的光纤端口。到 2028 年,这家网络设备供应商预计将推出支持 400Gbps 通道的 CPO 技术。

并非只有博通在采用 CPO 技术。今年春季的 GTC 大会上,英伟达就展示了其 Spectrum 以太网交换机和 Quantum InfiniBand 交换机的光子版本。

不过,英伟达虽然在大规模扩展网络中采用了光子技术,但目前在 NVLink 面向扩展网络中仍使用铜缆。

铜缆的功耗较低,但传输距离有限。在现代面向扩展的互连架构所运行的速度下,铜缆最多只能传输几米,而且通常需要额外的重定时器,这会增加延迟和功耗。

但如果想将面向扩展的网络从一个机架扩展到多个机架,就需要用到光学器件了。正因如此,博通也在研究如何将光学器件直接集成到加速器上。

去年夏天的 Hot Chips 大会上,这家科技巨头展示了一款 6.4Tb/s 的光学以太网小芯片,它可以与 GPU 共封装。这意味着每个加速器能实现 1.6TB/s 的双向带宽。

博通当时估计,这种级别的连接能力可支持 512 个 GPU—— 所有这些 GPU 通过 64 个 51.2Tbps 的交换机,就能构成一个单一的面向扩展系统。如果搭配 Tomahawk 6,要么可以将交换机数量减半,要么可以在加速器上再增加一个 CPO 小芯片,将带宽提升至 3.2TB/s。

除了逻辑部分,一应俱全

说到小芯片,博通的知识产权体系还涵盖了芯片间通信和封装技术。

随着摩尔定律逐渐放缓,在一个晶圆级裸片上能集成的计算能力已达到极限。这促使行业内许多企业转向多裸片架构。例如,英伟达的 Blackwell 加速器实际上是通过高速芯片间互连技术将两个 GPU 裸片融合在一起。

AMD 的 MI300 系列则更进一步,采用了台积电的 CoWoS(晶圆上芯片上基板)3D 封装技术,形成了一个 “硅三明治” 结构 ——8 个 GPU 裸片堆叠在 4 个 I/O 裸片之上。

多裸片架构可以使用更小的裸片,从而提高良率。此外,计算裸片和 I/O 裸片可以采用不同的制程节点,以优化成本和效率。例如,AMD 为 GPU 裸片采用了台积电的 5nm 工艺,而为 I/O 裸片采用了该晶圆厂较旧的 6nm 工艺。

设计这样的小芯片架构并非易事。为此,博通开发了 3.5D eXtreme Dimension System in Package(3.5D XDSiP)技术,本质上是一套构建多裸片处理器的蓝图。

博通最初的设计与 AMD 的 MI300X 颇为相似,但该技术向所有企业开放授权。

尽管存在相似之处,但博通在计算裸片与系统其他逻辑部分的接口设计上有所不同。我们得知,像 MI300X 所采用的早期 3.5D 封装技术使用的是面对面接口,这需要更多工作来布置用于在两者之间传输数据和电力的硅通孔(TSV)。

博通的 XDSiP 设计则优化了面对面通信,采用了一种名为混合铜键合(HCB)的技术。这使得小芯片之间能实现更密集的电气接口,据说能显著提高裸片间的互连速度,并缩短信号路由距离。

基于这些设计的首批产品预计将于 2026 年投入生产。但由于芯片设计商通常不会披露哪些知识产权是自主研发的、哪些是授权使用的,我们可能永远也不会知道哪些人工智能芯片或系统采用了博通的技术。

https://www.theregister.com/2025/06/27/broadcom_ai_ip/

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

来源:半导体行业观察一点号

相关推荐