研报学习：GPU-GPU 互连，从 Scale-Up 到 Scale-Out 的格局

摘要：博通凭九成市占率称霸云端数据中心交换器市场，推出基于以太网络的 SUE 架构，主打开放相容与低延迟性能，力守 AI 时代交换器主导权。51.2Tbps 的 Tomahawk Ultra与 102.4 Tbps 的 Tomahawk 6 共同构成了统一以太网架构

1. Switch 芯片厂商有哪些？

1.1. Scale-Up

1.1.1. NVSwitch：NVIDIA GPU Scale-Up 专用高速交换芯片的多代演进

NVSwitch 是 NVIDIA 专为 AI 服务器 Scale-Up 场景设计的 GPU-to-GPU 高速交换芯片

经历了 Pascal→Volta→Ampere→Hopper→Blackwell→Rubin 的六代演进，目前仍是业界带宽最高、部署最成熟的私有方案。

1.1.2. 博通：面向 AI 的开放以太网 Scale-Up 互连规范与芯片方案

博通凭九成市占率称霸云端数据中心交换器市场，推出基于以太网络的 SUE 架构，主打开放相容与低延迟性能，力守 AI 时代交换器主导权。51.2Tbps 的 Tomahawk Ultra与 102.4 Tbps 的 Tomahawk 6 共同构成了统一以太网架构的基础：支持面向 AI 的纵向扩展以太网，以及面向 HPC 和分布式工作负载的横向扩展以太网。SUE 并非具体芯片，而是一套开放接口规范，涵盖从加速器直连交换机的协议、光模块到控制栈。博通在 2025 年 OCP 峰会上宣布免费开放 SUE 规范，希望行业共同定义“开放的 Scale-Up 互连”。例如，SUE 规定如何使用 200G/400G 直连铜缆连接 GPU 和Tomahawk6，以及拥塞控制、流量管理机制，使以太网在小范围内达到类似 NVLink 的效果。这与 NVIDIA 的专有 NVLink 形成对比，博通试图把 Scale-Up 互连标准化为业界共有，从而打破封闭生态。博通押注“AI 网络终将回归以太网”这一逻辑。他们通过Tomahawk6 把交换芯片带宽提升到 NVSwitch 级别，通过 Jericho3-AI 提升以太网在 All-Reduce 等操作上的效率，通过 SUE 建立开放互连规范。这代表了 AI 基础设施领域的另一条技术路线：更加开放、供应商多元化且强调标准化互通。

Tomahawk Ultra 是以太网第一次以专用级低延迟和千级 XPU 纵向扩展能力改写AI fabric 游戏规则。性能对比上，Tomahawk Ultra 在部分指标上已与专用协议接近或超越。其单跳可连接的 XPU 数量为 NVLink 交换机的 3 倍以上，支持至少 1024 个加速器的纵向扩展系统，而英伟达 NVLink 技术虽宣称支持 576 个加速器，但实际部署中尚未突破 72 个 GPU 插槽规模。

以太网交换 ASIC—Tomahawk 6 是业界首颗 102.4 Tbps 带宽的交换芯片，博通将其定位为同时支持 Scale-Out 和 Scale-Up 的统一方案。Tomahawk6 采用 SUE 框架，服务器/加速卡厂商可以按 SUE 规范设计接口，与 Tomahawk 交换机高效直连，从而实现类似 NVLink 的紧耦合通信，但其仍然沿用通用以太网 PHY。

1.1.3. Astera Lab：基于 PCIe/UALink 双模的 Scorpio X-Series Scale-Up 交换平台ALAB 作为 Switch 端首批入局者，公司产品链完整，是唯一一家同时掌握交换芯片（Scorpio X-Series）+延长线（Aries SCM/AEC）+软件管理平台（COSMOS Suite）的厂家。ALAB 从 PCIe Retimer 起步，到 Scorpio X-Series 芯片放量，再到 2027 年全面拥抱 UALink 1.0（由 AMD、AWS 等推动），形成机柜内 GPU-to-GPU 内存语义交换的完整解决方案。

UALink 作为一种可扩展的 AI Fabric，可部署用于 AI 训练和 AI 推理解决方案以支持广泛的 AI 模型。UALink 是由 AMD、AWS、博通、思科、谷歌等公司组成的超级加速器链接促进会发布的开放行业互连标准。对于 AI 训练，UALink 将使可扩展域增加到数百 GPU，以满足未来 LLM 和 Transformer 模型的需求。UALink 的更高带宽和更低延迟将使大型基础模型的 GPU 训练性能继续扩展，但它也使较小的模型能够更快地训练，从而更频繁地训练。UALink 实现的高达 40%的功耗改进，提供了将可用数据中心功率最大化用于 GPU 计算并减少训练新模型所需能量的机会。UALink 200G 1.0 规范支持每通道最高 200GT/s 的数据传输速率，能在 AI 计算舱内实现最多 1024 个加速器的每通道 200G 扩展连接，延迟低于 1 微秒，具有低功耗、以太网兼容性好、安全与管理性强等特点，可打破英伟达 NVLink 技术垄断，为下一代 AI 集群性能提供开放标准互连。随着部署的 AI 模型种类不断增加，AI 推理架构需要不断发展，以提高 AI 服务器的总体拥有成本（TCO），帮助提供商最大化其投资回报率（ROI）。UALink 带来的 TCO效率改进将直接惠及 LLM 和推荐系统部署的 ROI。

ALab 最早布局 PCIe 领域，定义了 Redriver 和 Retimer 技术。当前，ALab 已研发5nm PCIe Gen6 交换机，正在研发 PCIe Gen7。ALAB 凭借 PCIe 协议优势切入 UALink生态，获得 AWS 和 AMD 支持。其双模交换机芯片（PCIe Gen7 + UALink 128G）支持Trn 4 机群互联。实现 PCIe Gen7 与 UALink 128G 等速匹配，未来向 UALink 200G 演进。其 Scorpio X 已通过 NVIDIA Blackwell 平台验证，双方共同定义 UALink 标准，ALAB 是唯一首批硬件伙伴。ALAB 预计 UALink 和部分基于 PCIe 的 Scale-Up 部署将在 2026 年开始起量，而 UALink 将在 2027 年开始更大规模推广，管理层预计以 ScorpioX 系列为核心的 Scale-Up 业务将成为增长重点。目前的产品正在围绕 UALink 1.0 进行开发，涵盖加速器及其他设备间的互联 fabric。UALink 1.0 基于两个标准构建：上层协议采用 PCIe，物理层采用基于 200G 以太网的标准。

1.2. Scale-Out

1.2.1. 博通：三大交换芯片系列覆盖全面应用场景

博通是全球领先的商用交换芯片制造商，拥有数十年的技术积累和丰富的产品线。其在交换芯片产品上布局完善，主打三大交换芯片系列：高端的 Tomahawk、中端的Trident 和低端的 Jericho，覆盖各种应用场景。

博通目前最具代表性的交换芯片是 51.2Tbps 的 Tomahawk 5，最高支持 800Gbps的速率。针对超大规模企业和云构建者商用交换机和路由器芯片市场，2022 年 8 月博通发布了业内首款商用 51.2Tbps 容量的交换芯片 Tomahawk 5，采用 5nm 制程，由台积电代工生产。该芯片支持多种配置的交换机，包括 64 端口 800Gbps、128 端口 400Gbps 和256 端口 200Gbps。应用场景包括数据中心、云计算、AI 和 ML 集群组网，主要面向于小规模 AI 集群数据调度。从 2010 年 Trident 的 640Gbps 增长到 2022 年 Tomahawk 5 的51.2Tbps，Tomahawk 实现了 80 倍带宽提升，并实现了超过 90%能耗的降低。每一代的带宽翻倍减少了所需交换机数量的同时，还降低了端口成本。如 6 个 25.6Tbps 的Tomahawk 4 芯片互联组成的 Leaf/Spine 交换机网络，才能提供与 Tomahawk 5 芯片本身相同的端口数。同时其数据交换性能是 Tomahawk 4 芯片的两倍，能充分满足数据中心不断增长的网络需求。

1.2.2. Marvell：面向高端数据中心与 AI 驱动网络服务

Marvell 在交换芯片市场中是高端数据中心与 AI 驱动网络的核心供应商，速率配置灵活，最高可达 800Gbps。Marvell 当前的技术能力主要来自于在 2021 年对 Innovium的收购。完成收购后，Marvell 的交换芯片产品面向了完整的高中低市场。其中公司原本的 Prestera 系列定位中低端，主要用于企业网络和边缘市场，而 Innovium 的 Teralynx 系列产品定位中高端，主要面向数据中心和 AI 场景。Marvell 目前已实现 12.8T 交换芯片Teralynx 7 的大规模量产，且数据中心交换的研发增加了 2.5 倍。2023 年 3 月 Marvell 推出了 51.2T 性能的 Teralynx 10 交换芯片。该可编程 5nm 交换机芯片可提供 64 端口800Gbps 或者 512 端口 100Gbps，且延迟低至 500ns，运行功耗低至 1W/100G 端口，可适用于下一代数据中心网络中脊叶互联，以及 AI 和高性能计算（HPC）。

2. 如何实现 Switch 芯片的国产替代？

2.1. 独立交换芯片厂商

盛科通信：国内以太网交换芯片市场的领先企业，12.8T/25.6T 交换芯片已进入客户推广阶段。公司成立于 2005 年，凭借近 20 年的研发经验，已经开发出一系列覆盖接入层到核心层的以太网交换产品。其交换芯片产品覆盖 100Gbps-25.6Tbps 的交换容量以及 100M 到 800G 的端口速率，在企业网络、运营商网络、数据中心网络和工业网络等领域得到了广泛应用。如 TsingMa.MX 系列芯片交换容量为 2.4Tbps，支持 400G 端口速率，具备智能网络可视化技术和确定性网络技术；GoldenGate 系列芯片交换容量为1.2Tbps，支持 100G 端口速率，特有的“灵云”设计为网络虚拟化应用提供了极具竞争力的硬件加速方案。其 TsingMa 系列芯片在中低端市场具有较强优势；在高端产品上，即数据中心领域，TsingMa.MX 系列芯片及 GoldenGate 系列芯片均已导入国内主流网络设备商并实现规模量产。且 TsingMa.MX 系列芯片还供货于新华三、锐捷网络和迈普通信，切入了国内主流设备商供应链。根据公司 2025 年中报，公司面向大规模数据中心和云服务需求，交换容量为 12.8Tbps 及 25.6Tbps 的高端旗舰芯片在客户处进入市场推广和逐步应用阶段，该产品支持最大端口速率 800G，搭载增强安全互联、增强可视化和可编程等先进特性。

盛科通信持续投入研发资源抢占国产替代空间。营业收入上，在 2019-2024 年间，营业收入高速增长，从 1.92 亿元上升至 10.82 亿元。同时以太网交换芯片业务在总营收中的占比也在不断提升。以太网交换芯片行业具备较高的技术壁垒、客户及应用壁垒和资金壁垒，因此当前行业整体国产程度低，国内参与厂商较少。盛科通信的以太网交换芯片在国内具备先发优势和市场引领地位，为我国数字化网络建设提供了坚实的芯片保障。

数渡科技：PCIe 5.0 交换芯片领域率先进入客户导入和小批量阶段，2025 年底有望实现国产替代的突破。公司 PCIe 5.0 交换芯片被视为解决国产 AI 芯片互联性能瓶颈的关键器件，目前国内同行尚未实现批量供货。数渡科技产品已获得多家客户导入验证，其中 3 家客户签署了小批量采购协议，9 家客户完成制板，并已有企业投入商用。若进展顺利，预计 2025 年底起可逐步批量供货，有望缩短与国际主流产品差距，率先切入AI 基础设施互联市场。

澜起科技：以 Retimer 为切入点，正逐步构建完整的 PCIe/CXL 互联产品族，覆盖Retimer、MXC 到 Switch，定位 AI 互联底层关键器件供应商。2025 年 1 月公司已向客户送样 PCIe 6.x/CXL 3.x Retimer，技术指标达到国际先进水平，并在 CXL MXC 上通过合规认证，进一步夯实了在互联领域的地位。同时，公司明确布局 PCIe Switch，并强调自研 SerDes 能力，意味着其产品线正从信号中继延伸到互联调度。Retimer、MXC 与Switch 共同构成 CPU↔GPU、GPU↔GPU 互联的关键基础器件组合，广泛应用于 AEC有源线缆、背板与机箱级 Scale-Up 场景，未来有望成为国产 AI 算力底座的重要受益者。

2.2. 大厂自研交换芯片

海光信息：依托自研处理器与协处理器平台，在 Chiplet 互联和高速 I/O 方向深度布局，逐步构筑 Scale-Up 互联的核心能力。公司在 2024 年年报中披露，已开展先进封装与高带宽低时延 Chiplet 互联研发，并通过 ComboPHY 支持处理器间互连总线、PCIe及 CXL 等高速 I/O 接口，能够扩展片上网络（NoC）并强化 QoS 与低时延特性。2025年 9 月 13 日，“海光系统互联总线协议开放生态研讨会”在京举办。会上，海光面向 GPU、IO、OS、OEM 等产业全栈，正式宣布开放 CPU 互联总线协议（HSL）。我们认为同时布局 CPU、GPU（DCU）、Switch 互联，已初步形成算力基础设施全覆盖。随着 AI大模型训练/推理需求的增长，公司产品有望形成多点联动，卡位优势显著。

华为：超节点集群布局领先，开源 Scale-out 互联协议抢占生态高地。华为于 1990年开启交换芯片自研，1999 年自研 Solar 系列交换芯片，并于 2016 年发布 Solar 5.0 交换芯片。该芯片采用 16nm 制程，架构上的持续优化使之较上代版本提升了 4 倍的吞吐量。2024 年 9 月 19 日，华为在全联接大会上发布了单芯片 51.2T 数据中心盒式液冷交换机 CloudEngine XH9230。2025 年 9 月 18 日，华为举办全连接大会，发布新一代 AI芯片、超节点与集群产品，同时开放“灵衢”互联协议。其中最新超节点产品 Atlas950SuperPoD 和 Atlas 960 SuperPoD 分别支持 8192 及 15488 张卡，在卡规模、总算力、内存容量、互联带宽等关键指标上实现了全面领先。基于超节点，华为同时发布了超节点集群产品 Atlas950 SuperCluster 和 Atlas960 SuperCluster，算力规模分别超过 50 万卡和达到百万卡。会上，华为还宣布将开放面向超节点的互联协议灵衢（UnifiedBus）2.0 技术规范，邀请产业界伙伴基于灵衢研发相关产品和部件，共建灵衢开放生态。我们认为华为在 AI 算力基础设施从芯片、互联到整机集群整体布局，从产品路线图看已实现全栈打通，拥有持续翻倍迭代的能力。

中兴通讯：已形成从通用高性能交换芯片到面向 AI 超节点的自研交换/NP 芯片全栈布局。在交换机芯片领域，中兴通讯在 2008 年启动交换芯片的自研，于 2011 年成功推出第一代自研交换网套片，并迅速在路由器等产品上成功应用。随后的几年，中兴通讯持续改进交换网技术，紧跟工艺革新的节奏，以 3 年一代的速度进行交换芯片的更新换代，陆续推出了 600Gbps、1.8Tbps、3.6Tbps 交换容量的 SF 系列交换芯片。并于 2018年推出了 8.8Tbps 交换容量的第四代自研交换芯片，达到业界一流水平。2020 年，中兴通讯启动了第五代自研交换芯片的研发。此外，中兴通讯还于 2015 年推出了首款自研NP 芯片 SSP-1，并于 2019 年初推出了业界首款集成 FlexE 和 TSN 功能的 NP 芯片，展示了中兴通讯在交换机芯片技术上的领先地位和创新能力。2025 年，中兴通讯推出了基于自研 AI 交换芯片的超节点方案，GPU 间通信带宽达到 400GB/s 至 1.6TB/s，能够支持上百至上千张算力卡的高效互联。公司在超节点、高性能交换机、AI 交换芯片等关键环节完成了技术卡位，形成了国内市场的稀缺性。

新华三：自主研发智擎系列可编程 NP 芯片，接口吞吐能力 1.2Tbps。新华三于 2021年 4 月正式发布其首款自研网络处理芯片智擎（Engiant）600/660，并于同年 7 月实现量产。该系列芯片基于 16nm 工艺制造，集成 256 个专用 CTOP 处理核心、支持 4096硬件线程，提供 1.2Tbps 的接口吞吐能力，集成度超过 180 亿晶体管，搭载 12 路 LPDDR5控制器。芯片支持 C 语言编程，覆盖 L2–L7 层网络业务处理，内置流量管理、查找引擎、报文管理等加速单元，可灵活满足路由、交换、防火墙、负载均衡、SDN/NFV 等多类网络设备需求。智擎 660 有望推动国产高端网络处理器在运营商核心网、数据中心及智能安全设备领域的应用落地