研报学习:GPU-GPU 互连,从 Scale-Up 到 Scale-Out 的格局

B站影视 港台电影 2025-10-06 15:31 1

摘要:博通凭九成市占率称霸云端数据中心交换器市场,推出基于以太网络的 SUE 架构,主打开放相容与低延迟性能,力守 AI 时代交换器主导权。51.2Tbps 的 Tomahawk Ultra与 102.4 Tbps 的 Tomahawk 6 共同构成了统一以太网架构

1. Switch 芯片厂商有哪些?

1.1. Scale-Up

1.1.1. NVSwitch:NVIDIA GPU Scale-Up 专用高速交换芯片的多代演进

NVSwitch 是 NVIDIA 专为 AI 服务器 Scale-Up 场景设计的 GPU-to-GPU 高速交换芯片

经历了 Pascal→Volta→Ampere→Hopper→Blackwell→Rubin 的六代演进,目前仍是业界带宽最高、部署最成熟的私有方案。

1.1.2. 博通:面向 AI 的开放以太网 Scale-Up 互连规范与芯片方案

博通凭九成市占率称霸云端数据中心交换器市场,推出基于以太网络的 SUE 架构,主打开放相容与低延迟性能,力守 AI 时代交换器主导权。51.2Tbps 的 Tomahawk Ultra与 102.4 Tbps 的 Tomahawk 6 共同构成了统一以太网架构的基础:支持面向 AI 的纵向扩展以太网,以及面向 HPC 和分布式工作负载的横向扩展以太网。SUE 并非具体芯片,而是一套开放接口规范,涵盖从加速器直连交换机的协议、光模块到控制栈。博通在 2025 年 OCP 峰会上宣布免费开放 SUE 规范,希望行业共同定义“开放的 Scale-Up 互连”。例如,SUE 规定如何使用 200G/400G 直连铜缆连接 GPU 和Tomahawk6,以及拥塞控制、流量管理机制,使以太网在小范围内达到类似 NVLink 的效果。这与 NVIDIA 的专有 NVLink 形成对比,博通试图把 Scale-Up 互连标准化为业界共有,从而打破封闭生态。博通押注“AI 网络终将回归以太网”这一逻辑。他们通过Tomahawk6 把交换芯片带宽提升到 NVSwitch 级别,通过 Jericho3-AI 提升以太网在 All-Reduce 等操作上的效率,通过 SUE 建立开放互连规范。这代表了 AI 基础设施领域的另一条技术路线:更加开放、供应商多元化且强调标准化互通。

Tomahawk Ultra 是以太网第一次以专用级低延迟和千级 XPU 纵向扩展能力改写AI fabric 游戏规则。性能对比上,Tomahawk Ultra 在部分指标上已与专用协议接近或超越。其单跳可连接的 XPU 数量为 NVLink 交换机的 3 倍以上,支持至少 1024 个加速器的纵向扩展系统,而英伟达 NVLink 技术虽宣称支持 576 个加速器,但实际部署中尚未突破 72 个 GPU 插槽规模。

以太网交换 ASIC—Tomahawk 6 是业界首颗 102.4 Tbps 带宽的交换芯片,博通将其定位为同时支持 Scale-Out 和 Scale-Up 的统一方案。Tomahawk6 采用 SUE 框架,服务器/加速卡厂商可以按 SUE 规范设计接口,与 Tomahawk 交换机高效直连,从而实现类似 NVLink 的紧耦合通信,但其仍然沿用通用以太网 PHY。

1.1.3. Astera Lab:基于 PCIe/UALink 双模的 Scorpio X-Series Scale-Up 交换平台ALAB 作为 Switch 端首批入局者,公司产品链完整,是唯一一家同时掌握交换芯片(Scorpio X-Series)+延长线(Aries SCM/AEC)+软件管理平台(COSMOS Suite)的厂家。ALAB 从 PCIe Retimer 起步,到 Scorpio X-Series 芯片放量,再到 2027 年全面拥抱 UALink 1.0(由 AMD、AWS 等推动),形成机柜内 GPU-to-GPU 内存语义交换的完整解决方案。

UALink 作为一种可扩展的 AI Fabric,可部署用于 AI 训练和 AI 推理解决方案以支持广泛的 AI 模型。UALink 是由 AMD、AWS、博通、思科、谷歌等公司组成的超级加速器链接促进会发布的开放行业互连标准。对于 AI 训练,UALink 将使可扩展域增加到数百 GPU,以满足未来 LLM 和 Transformer 模型的需求。UALink 的更高带宽和更低延迟将使大型基础模型的 GPU 训练性能继续扩展,但它也使较小的模型能够更快地训练,从而更频繁地训练。UALink 实现的高达 40%的功耗改进,提供了将可用数据中心功率最大化用于 GPU 计算并减少训练新模型所需能量的机会。UALink 200G 1.0 规范支持每通道最高 200GT/s 的数据传输速率,能在 AI 计算舱内实现最多 1024 个加速器的每通道 200G 扩展连接,延迟低于 1 微秒,具有低功耗、以太网兼容性好、安全与管理性强等特点,可打破英伟达 NVLink 技术垄断,为下一代 AI 集群性能提供开放标准互连。随着部署的 AI 模型种类不断增加,AI 推理架构需要不断发展,以提高 AI 服务器的总体拥有成本(TCO),帮助提供商最大化其投资回报率(ROI)。UALink 带来的 TCO效率改进将直接惠及 LLM 和推荐系统部署的 ROI。

ALab 最早布局 PCIe 领域,定义了 Redriver 和 Retimer 技术。当前,ALab 已研发5nm PCIe Gen6 交换机,正在研发 PCIe Gen7。ALAB 凭借 PCIe 协议优势切入 UALink生态,获得 AWS 和 AMD 支持。其双模交换机芯片(PCIe Gen7 + UALink 128G)支持Trn 4 机群互联。实现 PCIe Gen7 与 UALink 128G 等速匹配,未来向 UALink 200G 演进。其 Scorpio X 已通过 NVIDIA Blackwell 平台验证,双方共同定义 UALink 标准,ALAB 是唯一首批硬件伙伴。ALAB 预计 UALink 和部分基于 PCIe 的 Scale-Up 部署将在 2026 年开始起量,而 UALink 将在 2027 年开始更大规模推广,管理层预计以 ScorpioX 系列为核心的 Scale-Up 业务将成为增长重点。目前的产品正在围绕 UALink 1.0 进行开发,涵盖加速器及其他设备间的互联 fabric。UALink 1.0 基于两个标准构建:上层协议采用 PCIe,物理层采用基于 200G 以太网的标准。

1.2. Scale-Out

1.2.1. 博通:三大交换芯片系列覆盖全面应用场景

博通是全球领先的商用交换芯片制造商,拥有数十年的技术积累和丰富的产品线。其在交换芯片产品上布局完善,主打三大交换芯片系列:高端的 Tomahawk、中端的Trident 和低端的 Jericho,覆盖各种应用场景。

博通目前最具代表性的交换芯片是 51.2Tbps 的 Tomahawk 5,最高支持 800Gbps的速率。针对超大规模企业和云构建者商用交换机和路由器芯片市场,2022 年 8 月博通发布了业内首款商用 51.2Tbps 容量的交换芯片 Tomahawk 5,采用 5nm 制程,由台积电代工生产。该芯片支持多种配置的交换机,包括 64 端口 800Gbps、128 端口 400Gbps 和256 端口 200Gbps。应用场景包括数据中心、云计算、AI 和 ML 集群组网,主要面向于小规模 AI 集群数据调度。从 2010 年 Trident 的 640Gbps 增长到 2022 年 Tomahawk 5 的51.2Tbps,Tomahawk 实现了 80 倍带宽提升,并实现了超过 90%能耗的降低。每一代的带宽翻倍减少了所需交换机数量的同时,还降低了端口成本。如 6 个 25.6Tbps 的Tomahawk 4 芯片互联组成的 Leaf/Spine 交换机网络,才能提供与 Tomahawk 5 芯片本身相同的端口数。同时其数据交换性能是 Tomahawk 4 芯片的两倍,能充分满足数据中心不断增长的网络需求。

1.2.2. Marvell:面向高端数据中心与 AI 驱动网络服务

Marvell 在交换芯片市场中是高端数据中心与 AI 驱动网络的核心供应商,速率配置灵活,最高可达 800Gbps。Marvell 当前的技术能力主要来自于在 2021 年对 Innovium的收购。完成收购后,Marvell 的交换芯片产品面向了完整的高中低市场。其中公司原本的 Prestera 系列定位中低端,主要用于企业网络和边缘市场,而 Innovium 的 Teralynx 系列产品定位中高端,主要面向数据中心和 AI 场景。Marvell 目前已实现 12.8T 交换芯片Teralynx 7 的大规模量产,且数据中心交换的研发增加了 2.5 倍。2023 年 3 月 Marvell 推出了 51.2T 性能的 Teralynx 10 交换芯片。该可编程 5nm 交换机芯片可提供 64 端口800Gbps 或者 512 端口 100Gbps,且延迟低至 500ns,运行功耗低至 1W/100G 端口,可适用于下一代数据中心网络中脊叶互联,以及 AI 和高性能计算(HPC)。

2. 如何实现 Switch 芯片的国产替代?

2.1. 独立交换芯片厂商

盛科通信:国内以太网交换芯片市场的领先企业,12.8T/25.6T 交换芯片已进入客户推广阶段。公司成立于 2005 年,凭借近 20 年的研发经验,已经开发出一系列覆盖接入层到核心层的以太网交换产品。其交换芯片产品覆盖 100Gbps-25.6Tbps 的交换容量以及 100M 到 800G 的端口速率,在企业网络、运营商网络、数据中心网络和工业网络等领域得到了广泛应用。如 TsingMa.MX 系列芯片交换容量为 2.4Tbps,支持 400G 端口速率,具备智能网络可视化技术和确定性网络技术;GoldenGate 系列芯片交换容量为1.2Tbps,支持 100G 端口速率,特有的“灵云”设计为网络虚拟化应用提供了极具竞争力的硬件加速方案。其 TsingMa 系列芯片在中低端市场具有较强优势;在高端产品上,即数据中心领域,TsingMa.MX 系列芯片及 GoldenGate 系列芯片均已导入国内主流网络设备商并实现规模量产。且 TsingMa.MX 系列芯片还供货于新华三、锐捷网络和迈普通信,切入了国内主流设备商供应链。根据公司 2025 年中报,公司面向大规模数据中心和云服务需求,交换容量为 12.8Tbps 及 25.6Tbps 的高端旗舰芯片在客户处进入市场推广和逐步应用阶段,该产品支持最大端口速率 800G,搭载增强安全互联、增强可视化和可编程等先进特性。

盛科通信持续投入研发资源抢占国产替代空间。营业收入上,在 2019-2024 年间,营业收入高速增长,从 1.92 亿元上升至 10.82 亿元。同时以太网交换芯片业务在总营收中的占比也在不断提升。以太网交换芯片行业具备较高的技术壁垒、客户及应用壁垒和资金壁垒,因此当前行业整体国产程度低,国内参与厂商较少。盛科通信的以太网交换芯片在国内具备先发优势和市场引领地位,为我国数字化网络建设提供了坚实的芯片保障。

数渡科技:PCIe 5.0 交换芯片领域率先进入客户导入和小批量阶段,2025 年底有望实现国产替代的突破。公司 PCIe 5.0 交换芯片被视为解决国产 AI 芯片互联性能瓶颈的关键器件,目前国内同行尚未实现批量供货。数渡科技产品已获得多家客户导入验证,其中 3 家客户签署了小批量采购协议,9 家客户完成制板,并已有企业投入商用。若进展顺利,预计 2025 年底起可逐步批量供货,有望缩短与国际主流产品差距,率先切入AI 基础设施互联市场。

澜起科技:以 Retimer 为切入点,正逐步构建完整的 PCIe/CXL 互联产品族,覆盖Retimer、MXC 到 Switch,定位 AI 互联底层关键器件供应商。2025 年 1 月公司已向客户送样 PCIe 6.x/CXL 3.x Retimer,技术指标达到国际先进水平,并在 CXL MXC 上通过合规认证,进一步夯实了在互联领域的地位。同时,公司明确布局 PCIe Switch,并强调自研 SerDes 能力,意味着其产品线正从信号中继延伸到互联调度。Retimer、MXC 与Switch 共同构成 CPU↔GPU、GPU↔GPU 互联的关键基础器件组合,广泛应用于 AEC有源线缆、背板与机箱级 Scale-Up 场景,未来有望成为国产 AI 算力底座的重要受益者。

2.2. 大厂自研交换芯片

海光信息:依托自研处理器与协处理器平台,在 Chiplet 互联和高速 I/O 方向深度布局,逐步构筑 Scale-Up 互联的核心能力。公司在 2024 年年报中披露,已开展先进封装与高带宽低时延 Chiplet 互联研发,并通过 ComboPHY 支持处理器间互连总线、PCIe及 CXL 等高速 I/O 接口,能够扩展片上网络(NoC)并强化 QoS 与低时延特性。2025年 9 月 13 日,“海光系统互联总线协议开放生态研讨会”在京举办。会上,海光面向 GPU、IO、OS、OEM 等产业全栈,正式宣布开放 CPU 互联总线协议(HSL)。我们认为同时布局 CPU、GPU(DCU)、Switch 互联,已初步形成算力基础设施全覆盖。随着 AI大模型训练/推理需求的增长,公司产品有望形成多点联动,卡位优势显著。

华为:超节点集群布局领先,开源 Scale-out 互联协议抢占生态高地。华为于 1990年开启交换芯片自研,1999 年自研 Solar 系列交换芯片,并于 2016 年发布 Solar 5.0 交换芯片。该芯片采用 16nm 制程,架构上的持续优化使之较上代版本提升了 4 倍的吞吐量。2024 年 9 月 19 日,华为在全联接大会上发布了单芯片 51.2T 数据中心盒式液冷交换机 CloudEngine XH9230。2025 年 9 月 18 日,华为举办全连接大会,发布新一代 AI芯片、超节点与集群产品,同时开放“灵衢”互联协议。其中最新超节点产品 Atlas950SuperPoD 和 Atlas 960 SuperPoD 分别支持 8192 及 15488 张卡,在卡规模、总算力、内存容量、互联带宽等关键指标上实现了全面领先。基于超节点,华为同时发布了超节点集群产品 Atlas950 SuperCluster 和 Atlas960 SuperCluster,算力规模分别超过 50 万卡和达到百万卡。会上,华为还宣布将开放面向超节点的互联协议灵衢(UnifiedBus)2.0 技术规范,邀请产业界伙伴基于灵衢研发相关产品和部件,共建灵衢开放生态。我们认为华为在 AI 算力基础设施从芯片、互联到整机集群整体布局,从产品路线图看已实现全栈打通,拥有持续翻倍迭代的能力。

中兴通讯:已形成从通用高性能交换芯片到面向 AI 超节点的自研交换/NP 芯片全栈布局。在交换机芯片领域,中兴通讯在 2008 年启动交换芯片的自研,于 2011 年成功推出第一代自研交换网套片,并迅速在路由器等产品上成功应用。随后的几年,中兴通讯持续改进交换网技术,紧跟工艺革新的节奏,以 3 年一代的速度进行交换芯片的更新换代,陆续推出了 600Gbps、1.8Tbps、3.6Tbps 交换容量的 SF 系列交换芯片。并于 2018年推出了 8.8Tbps 交换容量的第四代自研交换芯片,达到业界一流水平。2020 年,中兴通讯启动了第五代自研交换芯片的研发。此外,中兴通讯还于 2015 年推出了首款自研NP 芯片 SSP-1,并于 2019 年初推出了业界首款集成 FlexE 和 TSN 功能的 NP 芯片,展示了中兴通讯在交换机芯片技术上的领先地位和创新能力。2025 年,中兴通讯推出了基于自研 AI 交换芯片的超节点方案,GPU 间通信带宽达到 400GB/s 至 1.6TB/s,能够支持上百至上千张算力卡的高效互联。公司在超节点、高性能交换机、AI 交换芯片等关键环节完成了技术卡位,形成了国内市场的稀缺性。

新华三:自主研发智擎系列可编程 NP 芯片,接口吞吐能力 1.2Tbps。新华三于 2021年 4 月正式发布其首款自研网络处理芯片智擎(Engiant)600/660,并于同年 7 月实现量产。该系列芯片基于 16nm 工艺制造,集成 256 个专用 CTOP 处理核心、支持 4096硬件线程,提供 1.2Tbps 的接口吞吐能力,集成度超过 180 亿晶体管,搭载 12 路 LPDDR5控制器。芯片支持 C 语言编程,覆盖 L2–L7 层网络业务处理,内置流量管理、查找引擎、报文管理等加速单元,可灵活满足路由、交换、防火墙、负载均衡、SDN/NFV 等多类网络设备需求。智擎 660 有望推动国产高端网络处理器在运营商核心网、数据中心及智能安全设备领域的应用落地

来源:全产业链研究一点号

相关推荐