全球首款 102.4T 以太网交换机芯片!

B站影视 港台电影 2025-06-05 16:06 1

摘要:近日,博通发布了高性能交换芯片,宣布开始出货Tomahawk 6 系列交换机,并将其称为“全球首款 102.4Tbps 交换机”。国外科技网站All About Circuits 采访了博通数据中心交换机产品线经理皮特·德尔·维奇奥(Pete Del Vecc

近日,博通发布了高性能交换芯片,宣布开始出货Tomahawk 6 系列交换机,并将其称为“全球首款 102.4Tbps 交换机”。国外科技网站All About Circuits 采访了博通数据中心交换机产品线经理皮特·德尔·维奇奥(Pete Del Vecchio),以便更直接地了解这款产品。

Tomahawk 6——102.5 Tbps 交换芯片

随着AI 工作负载持续突破数据中心边界,博通报告称,计划于 2025 年部署的每一个大规模 AI 网络都将采用基于以太网的架构,而非 InfiniBand。

德尔·维奇奥表示:“回顾过去一年半到两年间的情况,从 InfiniBand 到以太网的转变十分显著。如今,最大的 AI 集群正在采用以太网部署,其性能可与 InfiniBand 相媲美,甚至更优。”

在此背景下,博通的Tomahawk 6 是一款 102.4 Tbps 交换芯片,旨在巩固以太网作为超大规模 AI 集群统一架构的地位。

Tomahawk 6-100G(左)与 Tomahawk 6-200G(右)

Tomahawk 6 在前代产品(即 Tomahawk 5 的 51.2 Tbps)的基础上进行了升级,并融入了专为 AI 驱动通信模式设计的新功能。此次升级的核心在于支持 100G 和 200G PAM4 串行器/解串器(SerDes),包括 1024 条 100G 通道或 512 条 200G 通道的选项,并提供电可插拔和共封装光学模块。这种灵活性使系统架构师无需更改核心芯片,即可为传统基础设施和前沿光学拓扑结构调整互连配置。

支持规模扩展与横向扩展的AI 工作负载

博通在设计Tomahawk 6 时,明确旨在满足 AI 基础设施中规模扩展和横向扩展网络的不同需求。规模扩展互连将紧密耦合计算节点内的扩展处理单元(XPU)连接起来,以实现高吞吐量内存访问和低延迟模型并行。为此,Tomahawk 6 在规模扩展域中支持多达 512 个 XPU 的单跳连接,其规模是现有解决方案的七倍多。

通过集成博通的规模扩展以太网(SUE)框架,该芯片支持通过标准以太网在 XPU 之间进行基于内存语义的通信,从而减少对 NVLink 等专有互连的依赖。在解释 Tomahawk 6 规模扩展支持的设计理念时,德尔·维奇奥表示:“使用 Tomahawk 6,你可以扩展至 512 个 GPU 或 XPU……出于延迟原因,以及通信和拥塞管理方面的考虑,你希望实现单跳,即仅通过一个交换机跳转。”

Tomahawk 6 支持开放的规模扩展以太网

在横向扩展部署中,该交换机提供了构建扁平化两层拓扑所需的带宽和端口密度,每个集群可支持100,000 个或更多 XPU。而端口速度较低的竞争性交换机则需要三层拓扑才能达到相同的覆盖范围,这会导致光学模块数量增加 67%,由于额外的跳转而增加延迟,以及网络功耗大约翻倍。Tomahawk 6 的 102.4 Tbps 带宽支持使用更少组件构建大型 Clos 架构,从而降低基础设施开销和总拥有成本。

全负载下的Cognitive Routing与负载均衡

传统数据中心交换机通常在70% 以下的利用率下运行,以缓解拥塞并减少尾部延迟。然而,AI 网络必须将架构利用率提高到 90% 以上,以满足大规模模型训练和推理的需求。为了在这种高强度下保持性能,Tomahawk 6 集成了博通的下一代自适应路由和遥测套件——Cognitive Routing 2.0。

该交换机利用全网智能,根据实时拥塞指标动态重新平衡流量。与静态等价多路径(ECMP)路由或基于哈希的方案相比,Tomahawk 6 在全局了解路径拥塞情况的基础上进行出站链路选择。在实际应用中,这可在负载下实现高达 50% 的吞吐量提升,且对链路故障的响应时间比标准以太网故障转移机制快 10,000 倍。该系统可将活跃流量从性能下降的路径中转移出去,并可修剪和重传拥塞的数据包,以在不中断的情况下保持性能。

博通Cognitive Routing 2.0

Cognitive Routing 2.0 还增强了对任意拓扑的支持,包括 Clos、环形、轨道优化和规模扩展域。它集成了实时物理链路监控功能,通过在故障发生前识别性能下降的光学或铜缆通道,实现预测性维护。

节能光学与灵活互连

功率密度限制仍然是超大规模AI 集群扩展的一个关键因素。在当今的 AI 数据中心中,光学模块占网络功耗的比例高达 70%。Tomahawk 6 通过实现原本需要三层设计的两层架构来缓解这一问题。可插拔光学模块和共封装光学模块(CPO)变体的可用性,使运营商能够进一步控制热包络。对此,德尔·维奇奥解释道:

“如果你需要使用其他技术,就无法在两层架构中连接这些 GPU。你将不得不采用三层网络架构。最终,你将使用 67% 更多的光学模块,且网络功耗几乎翻倍。”

博通的CPO 选项借鉴了前几代 Tomahawk 的经验,提供了更低的功耗和更少的链路抖动。该芯片还支持扩展距离的直连铜缆(DAC)和被动背板连接,利用了博通的 SerDes 设计,该设计在 200G PAM4 下可实现超过 45 dB 的信道覆盖范围。这些功能使超大规模数据中心能够在不牺牲端口覆盖范围或无需高功耗、基于数字信号处理器(DSP)的光学模块的情况下,部署高密度、低功耗的交换机互连。

面向AI 基础设施的统一开放平台

最终,博通将Tomahawk 6 定位为垂直整合以太网平台的一部分,该平台涵盖交换机、网络接口卡(NIC)、光学模块和软件。该交换机本身可与博通的 Thor NIC 和 NIC 芯片组互操作,这些芯片组可集成到 XPU 中,以实现灵活的端点调度。它还符合超以太网联盟(Ultra Ethernet Consortium)的规范,可与开源拥塞管理、遥测标准和 AI 模型传输协议兼容。

这种开放标准导向有助于希望优化XPU 通用性的超大规模数据中心。无论接口是用于规模扩展还是横向扩展网络,运营商都可以根据工作负载需求动态重新配置它。综合考虑,这种灵活性减少了硬件的分散性,使云提供商能够优化 GPU 分配,而无需锁定到特定的互连角色或拓扑结构中。

行业展望

在AI 模型复杂性和硬件加速需求呈指数级增长的环境下,博通通过 Tomahawk 6 采取的方法反映了网络在系统性能和效率中处于核心地位的更广泛趋势。正如德尔·维奇奥所说:“我们在这里所做的,实际上是让网络和所有训练变得更加高效……这样你就可以让网络不再成为障碍,让 GPU 之间的流量尽可能快速地通过。”

博通认为,在芯片和架构层面优化互连的竞赛将决定AI 系统设计的下一阶段,并希望 Tomahawk 6 能使其在这场竞赛中占据领先地位。

来源:EETOP半导体社区

相关推荐