英特尔携手NVIDIA Blackwell生态:Gaudi 3混合平台的求生策略

B站影视 内地电影 2025-10-19 08:16 1

摘要:英特尔近日宣布与NVIDIA合作,将其Gaudi 3 AI加速器集成到NVIDIA的Blackwell生态系统中,形成一种混合机架规模AI平台。这一举措旨在提升Gaudi系列的市场竞争力,帮助英特尔在AI收入上追赶NVIDIA和AMD等对手。合作细节在开放计算

英特尔近日宣布与NVIDIA合作,将其Gaudi 3 AI加速器集成到NVIDIA的Blackwell生态系统中,形成一种混合机架规模AI平台。这一举措旨在提升Gaudi系列的市场竞争力,帮助英特尔在AI收入上追赶NVIDIA和AMD等对手。合作细节在开放计算项目全球峰会上亮相,英特尔计划针对机架级AI部署推出该配置,强调成本效益和互操作性。

这一伙伴关系源于英特尔在AI领域的挑战,早前Gaudi 3虽已获得部分行业采用,但整体营收滞后。混合平台的设计将Gaudi 3定位为NVIDIA主导生态的补充组件,体现了“无法击败对手,就加入他们”的务实策略。

Intel的Gaudi 3 AI加速器

混合系统在每个计算托盘中集成两颗Xeon CPU、四颗Gaudi 3 AI芯片、四张NIC以及一颗NVIDIA BlueField-3 DPU,整个机架包含16个此类托盘。网络方面,采用NVIDIA ConnectX-7 400 GbE NIC和Broadcom Tomahawk 5 51.2 Tb/s交换机,实现全对全连接,支持以太网扩展。

Gaudi 3专注于推理工作负载的“解码”阶段,利用高内存带宽优化小而密集模型的处理,而Blackwell B200 GPU则负责“预填充”阶段,擅长大矩阵乘法突发计算。英特尔声称,这种分工可使小模型预填充性能比纯B200配置快1.7倍,尽管尚未经独立验证。工程上,该平台依赖NVIDIA的网络栈,确保Gaudi 3与Blackwell的无缝协作,同时保持以太网的开放标准,避免专有InfiniBand的锁定。

Gaudi 3本身采用5nm工艺,配备128GB HBM2e内存和96MB SRAM,支持BF16和FP8精度下的1835 TFLOPS计算,但功率为600W,低于Blackwell的700W起。混合配置的挑战在于软件栈的成熟度,英特尔需优化驱动以匹配NVIDIA的CUDA生态。

Intel的Gaudi 3

这一合作体现了AI硬件工程向混合架构的转变,Gaudi 3的解码优化依赖内存带宽提升(较Gaudi 2高1.5倍)和4倍BF16计算力,但其架构将于数月内逐步淘汰,转向Falcon Shores一代,后者预计功率达1500W,融合Gaudi和Xe计算单元。Blackwell的N4P工艺与Gaudi 3的5nm相当,但后者在价格上更具优势,一个八卡Gaudi 3套件售价12.5万美元,单卡约1.56万美元,仅为H100的一半。

从趋势看,AI加速器正从单一GPU主导转向模块化分工,英特尔通过开放生态(如Ethernet支持)避免厂商锁定,这与AMD的ROCm平台类似。工程难点在于热管理和规模扩展,混合平台需精细算法分配负载,确保在8,000芯片集群中维持效率。英特尔还强调18A工艺的潜力,已有微软等传闻采用,这可能为未来Gaudi迭代提供制造基础。

合作为英特尔注入活力,Gaudi 3通过NVIDIA生态捆绑销售,有望进入更多数据中心,尤其针对成本敏感的企业用户。市场数据显示,NVIDIA占数据中心芯片83%,但英特尔以开放策略吸引OEM如Dell、Supermicro和HPE,后者将于12月推出Gaudi 3服务器。定价优势(Gaudi 3套件为Blackwell的三分之二)针对中小企业,但软件不成熟和架构过渡可能限制长期渗透。

趋势上,AI市场向 rack-scale 系统倾斜,混合平台回应推理负载的多样化需求,推动Ethernet在高性能计算中的普及。英特尔2025年将依赖渠道伙伴大规模 rollout Gaudi 3,预计与Blackwell竞争中强调TCO(总拥有成本)优势。然而,NVIDIA的年发布节奏和生态壁垒构成挑战,英特尔需加速Falcon Shores以维持势头。

英特尔与NVIDIA的混合平台合作,展示了AI芯片从单一竞争向生态互补的实际调整,这将在部署中逐步检验其对市场份额的贡献。

来源:万物云联网

相关推荐