硅谷惊天大逆转!谷歌藏3年杀手锏曝光,英伟达万亿市值要归零?

B站影视 内地电影 2025-11-12 19:57 1

摘要:单芯片峰值算力达4614 TFLOPs,配备192GB高带宽内存,性能与英伟达Blackwell B200旗鼓相当。更关键的是,谷歌能把9216个这样的芯片组成一个计算域,总算力达42.5 Exaflops。

一场芯片行业的技术较量已经进入白热化,而且这次的对手是谷歌。

2025年4月9日,拉斯维加斯Google Cloud Next大会上,谷歌正式发布第七代TPU芯片Ironwood。

单芯片峰值算力达4614 TFLOPs,配备192GB高带宽内存,性能与英伟达Blackwell B200旗鼓相当。更关键的是,谷歌能把9216个这样的芯片组成一个计算域,总算力达42.5 Exaflops。

这个数字什么概念?相当于全球最强超算El Capitan的24倍。英伟达的NVL72机架系统只能连72个Blackwell芯片,谷歌一次性把规模扩大了128倍。

更劲爆的消息在10月底传出:Anthropic宣布将使用超过100万个谷歌TPU来训练和运行下一代Claude模型。

这是AI行业迄今为止最大规模的单一芯片订单,总算力超过1 gigawatt,相当于一座大型核电站的输出功率。

Ironwood的性能参数确实接近英伟达Blackwell。每个Ironwood TPU拥有4.6 petaFLOPS的FP8性能,略高于英伟达B200的4.5 petaFLOPS,略低于GB200和GB300的5 petaFLOPS。内存方面,192GB HBM3e内存提供7.4 TB/s带宽,与B200的192GB HBM和8TB/s内存带宽基本持平。芯片间通信方面,每个TPU具有四个ICI链路,提供9.6 Tbps总双向带宽,而B200和B300的带宽为14.4 Tbps。

单从单芯片性能看,Ironwood和Blackwell确实在一个量级。但谷歌的真正优势在于规模化能力。

英伟达的NVL72机架式系统利用NVLink互连技术,将72个Blackwell加速器连接成一个计算域。AMD明年也将在Helios机架式系统和MI450系列中实现类似功能。

但谷歌Ironwood的单个Pod可以连接9216个芯片,规模是NVL72的128倍。

这9216颗芯片共享1.77PB的高带宽内存,传输速度高达每秒9.6太比特。谷歌在技术文档中指出,Ironwood Pods的FP8 ExaFLOPS性能是其最接近的竞争对手的118倍。

谷歌采用的3D环面拓扑结构和光路交换技术(OCS)是实现这种超大规模的关键。不同于英伟达使用高性能数据包交换机的扁平拓扑结构,谷歌的3D环面让每个芯片以三维网格的形式与其他芯片连接,无需使用价格昂贵、耗电量大的交换机。

虽然环面拓扑意味着芯片间通信可能需要更多跳数,但OCS技术几乎不引入延迟,而且当个别组件故障时,OCS会在几毫秒内自动将数据流量绕过中断点。

谷歌报告称,自2020年以来,其液冷系统的整体正常运行时间一直保持在约99.999%的可用性水平,相当于每年停机时间不到6分钟。

2025年10月底,Anthropic宣布大幅扩大对谷歌Cloud TPU的使用,计算能力超过1 gigawatt,可用TPU芯片数量达100万个。Anthropic将利用这些算力训练和运行下一代Claude模型。

Anthropic首席执行官表示,我们的客户从财富500强公司到AI原生初创企业都依赖Claude完成最重要的工作,这次产能扩张确保我们能够满足指数级增长的需求,同时保持模型处于行业前沿。

这笔订单的规模超出业界预期。1 gigawatt相当于90万到100万美国家庭的用电量,或者一座大型核电站的输出功率。100万个TPU芯片组成的计算集群,其算力足以支撑最复杂的AI模型训练任务。

Anthropic同时也在亚马逊Project Rainier项目下部署工作负载到数十万台Trainium 2加速器上,这些加速器也采用2D和3D环面网格拓扑结构。Anthropic选择同时使用谷歌TPU和亚马逊Trainium,说明这种环面拓扑架构在大规模AI训练任务上确实有优势。

谷歌在这次发布会上还推出了首款自研Arm架构CPU Axion。

虽然谷歌没有公布Axion的完整芯片规格,但已知其基于Arm Neoverse v2平台构建,性能比现代x86 CPU提升高达50%,能效提升高达60%。C4A Metal实例最多可支持96个虚拟CPU和768 GB DDR5内存。

Vimeo在初步测试中报告称,与同类x86虚拟机相比,其核心转码工作负载的性能提升了30%。ZoomInfo的首席基础设施架构师表示,该公司在Java服务上运行的数据处理管道的性价比提升了60%。

除了硬件,谷歌也在软件层面发力。谷歌Kubernetes Engine现在为TPU集群提供高级维护和拓扑感知功能。

谷歌推理网关通过前缀缓存感知路由等技术,可以将首次令牌延迟降低96%,并将服务成本降低高达30%。

根据IDC 2025年10月发布的研究,AI超级计算机客户平均实现了353%的三年投资回报率,降低了28%的IT成本,并提高了55%的IT团队效率。

从历史数据看,谷歌在TPU规模化方面一直在稳步推进。2021年发布的TPU v4支持最大4096个芯片的Pod,TPU v5p将其提升到8960个。

Ironwood将TPU Pod规模提升到9216个,看似增幅不大,但考虑到单芯片性能是TPU v5p的10倍,是TPU v6e Trillium的4倍,整体算力提升相当惊人。

更重要的是,谷歌的Jupiter数据中心网络技术理论上可以支持多达43个TPU v7 Pod的规模计算集群,相当于约40万个加速器。

虽然目前还不清楚谷歌实际部署的TPU v7集群有多大,但这个数字已经超过了大多数企业的AI算力需求。

英伟达首席执行官黄仁勋可能会淡化AI ASIC对GPU帝国的威胁,但很难忽视这样的事实:谷歌、亚马逊等公司的芯片在硬件能力和网络可扩展性方面正在迅速赶上。

2025年11月,The Register报道称,Ironwood将在未来几周内全面上市。届时,谷歌将拥有规模优势和足以与英伟达Blackwell一较高下的强大TPU。

AI芯片竞争已经进入新阶段,规模化能力和软件生态正在成为决定性因素。谷歌通过十年的技术积累,在TPU性能和集群规模上都取得了突破。

Anthropic的百万TPU订单证明,市场对这种超大规模计算能力有真实需求。接下来的较量,将不仅仅是单芯片性能的比拼,更是整个AI基础设施生态的竞争。

来源:靳律法谈

相关推荐