摘要:尽管随着以太网路线图上的每一次减速,更扁平的网络和更快的网络都是可能的,但网络规模仍然保持着足够快的增长速度,以至于交换机 ASIC 制造商和交换机制造商能够通过产量来弥补这一不足,并保持交换机业务的增长。
尽管随着以太网路线图上的每一次减速,更扁平的网络和更快的网络都是可能的,但网络规模仍然保持着足够快的增长速度,以至于交换机 ASIC 制造商和交换机制造商能够通过产量来弥补这一不足,并保持交换机业务的增长。
随着 GenAI 的爆发式增长,所有大型 AI 厂商都一致希望摆脱英伟达控制的专有 InfiniBand 技术,将 InfiniBand 的所有功能移植到全新升级的以太网上,使其能够进一步扩展,并在更扁平的网络中实现扩展,从而创建规模更大的 AI 集群。超级以太网联盟 (UltraEthernet Consortium) 的宏伟目标是实现 100 万个 GPU 端点,而要实现这一目标,需要容量更大的交换机 ASIC。
如今,商用芯片市场的行业领导者博通 (Broadcom) 在以太网领域面临着来自思科系统和 Nvidia 的激烈竞争,该公司正在向市场推出其“Tomahawk 6” StrataXGS 以太网交换机 ASIC,该市场将以 102.4 Tb/秒 ASIC 为主导,并展望 204.8 Tb/秒和 409.6 Tb/秒的 Tomahawk 7 和 Tomahawk 8 芯片,所有大型人工智能公司无疑都在博通的发展路线图上看到了这些芯片。
他们可能也在热切期待共封装光学器件的推出,以降低成本并扩大未来庞大网络的主干网的覆盖范围。
这一切与企业市场形成了鲜明对比。过去十五年,企业市场后端和前端网络从 10 Gb/秒以太网向 100 Gb/秒以太网的迁移进展缓慢。然而,许多人希望将人工智能限制在企业内部,以及从现有系统中提取数据以驱动人工智能的压力,可能会导致企业加速采用比历史趋势更快的以太网,而且速度前所未有。人工智能后端可能会推动企业前端采用 100 Gb/秒、200 Gb/秒甚至 400 Gb/秒以太网,速度远超以往。
好消息是,由于其巨大的聚合带宽,博通的Tomahawk 6 ASIC芯片在实现200 Gb/秒或400 Gb/秒端口方面从未有过比它更便宜的方法。思科Silicon One、英伟达Spectrum-X将紧随其后,Marvell Teralynx、Xsight Labs X3和X4,以及华为CloudEngine ASIC芯片也将迎头赶上——而且几乎是按照这个顺序——但本周,博通似乎将率先推出104.2 Tb/秒的设备。
华为将面临尤其严峻的挑战,因为美国对交换ASIC(专用集成电路)实施了出口管制,就像对英伟达和AMD的GPU加速器一样。此外,鉴于网络对人工智能系统的重要性,没有理由相信大容量以太网ASIC会获得例外。自2020年以来,华为海思芯片部门一直被限制使用中国本土代工厂中芯国际,该公司目前工艺制程停留在7纳米,但正在努力向5纳米及更低工艺迈进。
博通将拥有相当明显的先发优势,这完全是由经济因素驱动的,而经济因素又由技术驱动。或许,将Tomahawk 6与其前代产品Tomahawk 5进行比较会有所帮助。
Tomahawk 5 芯片于 2022 年 8 月推出,是单片 Tomahawk 芯片设计的最后一款产品,值得注意的是,它是在 2022 年 11 月 GenAI 热潮开始之前创建并向世界展示的。
博通 Trident 和 Tomahawk 交换机产品线经理 Peter Del Vecchio 向The Next Platform表示,AI 训练和推理应用(不仅仅是训练)对带宽、低延迟和高基数的需求推动了 Tomahawk 6 的设计。但整个以太网市场的实用性也推动了这一设计,因为不同细分市场的发展速度不同。
Tomahawk 5 芯片是唯一一款能够提供 51.2 Tb/秒总带宽的单片芯片;其他所有芯片都使用了 chiplet 技术,即将多个信令 SerDes chiplet 包裹在单片数据包处理引擎周围。博通尽可能地降低网络引擎的发热量和直通延迟,但可能也因此在芯片良率上付出了一些代价。Tomahawk 5 采用台积电 5 纳米工艺蚀刻而成,集成了 512 个 SerDes,每个 SerDes 在去除编码开销后可提供一个以 100 Gb/秒速度运行的通道。准确地说,该芯片的原生信令速率为 50 Gb/秒,然后对信号使用 PAM4 调制,为每个信号双泵两位数据,从而实现 100 Gb/秒的有效数据速率。基于Tomahawk 5的交换机可以正式实现64个800Gb/秒端口、128个400Gb/秒端口、256个200Gb/秒端口。
在Tomahawk 5发布时,我们认为拥有512个以100 Gb/秒运行的端口——这确实是一个非常高的基数,从而可以用相当少的主干交换机构建非常扁平的网络——是一个有趣的概念。我们不确定是否有人真正实现了这一点……
无论如何,Tomahawk 5 以不到 1 瓦的功耗实现了 100 Gb/秒的信令传输,并包含认知路由功能,有助于加速 AI 工作负载。重要的是,Tomahawk 5 中的 SerDes 旨在驱动长达 4 米的有源铜缆链路,以及可插拔光学器件和 Tomahawk 5“Bailly”版本中使用的同封装光学器件,这些器件已在美国和中国的多家超大规模数据中心和云服务提供商处进行了测试。
或许更重要的是,正如博通和其他所有交换机芯片制造商之前的交换机ASIC一样,每当设备的总带宽翻倍时,一个单芯片的交换机设备就能完成六颗芯片以一半带宽运行的工作,提供相同数量、相同速度的端口。(你基本上是在设备内部创建一个小型的叶子/旋转网络,从而在交换机盒内创建一个无阻塞网络。)这种缩减显然会大幅降低每个端口的成本,即使单个N代ASIC的成本远高于N-1代。
这个等式——N ASIC = 4 * (N-1) leaf 加 2 * (N-1) spine——是网络架构中每一代 ASIC 的综合容量翻倍的魔力所在,同时还能降低复杂性和成本。这个等式也是为什么超大规模用户和云构建者现在就想要 Tomahawk 7,因为它还要两年才会发布,并且他们也对四年后可能发布的 Tomahawk 8 翘首以盼,他们也希望现在就能拥有它。
博通的演示文稿称Tomahawk 6芯片采用3纳米工艺,这意味着它采用了台积电的N3工艺。令我们有些惊讶的是,数据包处理引擎和环绕它的SerDes都采用3纳米工艺蚀刻而成。我们原本猜测中央数据包处理引擎采用台积电N4(4纳米)或N3(3纳米)工艺蚀刻,但信令SerDes则采用先进的N5(5纳米)或N4工艺蚀刻。缩小I/O芯片的难度比缩小计算芯片的难度更大,这对于交换机ASIC和在芯片组设计中将I/O单独拆分的CPU来说都是如此。我们想确认SerDes和数据包处理芯片组均采用N3工艺蚀刻。
Tomahawk 6 有两种版本,如上图右侧所示。一种版本拥有 512 个 SerDes(四个芯片组,每个芯片组包含 128 个 SerDes),原生 100 Gb/秒信令,采用 PAM4 调制,每条通道有效信令速率达 200 Gb/秒。如果将其中八个通道组合成一个端口,则可以获得 64 个端口,运行速度达 1.6 Tb/秒。
Tomahawk 6 的另一组 SerDes 以之前每通道 100 Gb/秒的信号速率运行——也就是 50 Gb/秒加上像 Tomahawk 5 SerDes 那样的 PAM4 调制——并为 Tomahawk 6 数据包处理引擎提供高达 1,024 个通道。每个端口 8 个通道,总共 128 个通道以 800 Gb/秒的速率运行,是 Tomahawk 5 在相同速度下单个 ASIC 所能驱动的端口数量的两倍。如果要使用 Tomahawk 5 驱动 128 个以 800 Gb/秒运行的端口,则需要在交换机内部的小型叶/脊结构中使用 6 个芯片,并且需要在交换机内部添加额外的跳数,而不是在单个 Tomahawk 6 ASIC 上添加一个。
“我们认识的每一个人——原始设备制造商 (OEM)、原始设计制造商 (ODM)、超大规模厂商和云构建商——都面临着巨大的压力,要求我们将 Tomahawk 6 推向市场,”Del Vecchio 说道。“他们都告诉我们,他们绝对必须率先推出基于 Tomahawk 6 的 GPU 集群。所以,目前我们正在进行大量的工程工作。我们会看到标准的披萨盒外形,人们不久前就不再使用底盘,而是使用披萨盒连接 DAC 线缆和光纤。但我们现在也看到,随着 Tomahawk 6 的推出,人们正努力让这些 AI 集群尽可能高效、密集,而 Tomahawk 6 不仅在横向扩展网络中得到应用,也在纵向扩展网络中得到应用。”
我们将单独深入研究基于 Broadcom 以太网的扩展网络,但可以说,使用 200 Gb/秒的链路,Broadcom 表示它可以使用 Tomahawk 6 将 512 个 XPU 链接到单个共享内存映像中。
横向扩展的故事看起来类似于给定端口数量的交换机内部的扩展,正如您可能想象的那样:
图显示的是 128,000 个 XPU,但横向扩展集群中实际有 131,072 个 XPU。以下是用于连接这么多 XPU 的两层 Tomahawk 6 网络的结构,以及任何 51.2 Tb/秒以太网 ASIC(包括 Tomahawk 5)都需要一个三层网络来连接相同的 131,072 个 GPU,所有设备之间都使用 200 Gb/秒的端口:
Del Vecchio 表示,这是一个每个端点配备一条 200 Gb/秒链路的示例,为了获得更高的带宽,集群通常会增加平面数量。因此,例如,如果您希望一个端点的总带宽为 800 Gb/秒,则需要将每层交换机的数量乘以 4;如果您希望达到 1.6 Tb/秒(类似于 Nvidia 使用 NVLink 5 端口实现的速度),则需要乘以 8。
如您所见,三层网络中的交换机数量比两层网络高得多,是后者的3.3倍,这还只是纯粹的成本。或许更重要的是,在超级主干层和主干层中使用的光收发器数量,在交换容量仅为51.2 Tb/秒的旧式ASIC中,要高出1.7倍。Del Vecchio表示,这些光器件消耗了整个网络约70%的电力。电力就是金钱,光器件数量越多,发生故障并导致人工智能处理停止的可能性就越高。因此,使用N代ASIC的两层网络的电力消耗大约是基于N-1代ASIC的三层网络的一半。
由此可见,超大规模计算平台和云构建商为何希望尽快在其最先进的 AI 集群中推出 Tomahawk 6,这些集群的 GPU 数量已达到 10 万甚至更多。Del Vecchio 表示,OEM 厂商可能会在 2026 年第一季度准备好产品,并在 2026 年第二季度完成部署,但所有厂商都在尽可能加快速度。
https://www.nextplatform.com/2025/06/03/the-ai-datacenter-is-ravenous-for-102-4-tb-sec-ethernet/关注全球半导体产业动向与趋势
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4055期内容,欢迎关注。
『半导体第一垂直媒体』
来源:半导体行业观察一点号