谷歌展示其推理规模和技术实力

B站影视 港台电影 2025-09-18 20:58 1

摘要:超大规模云服务商发明了许多与商业互联网第二波和第三波浪潮同义的新技术,其中许多首先在谷歌被发明。这是有道理的,因为谷歌是第一个达到超大规模的公司,许多问题首先在谷歌出现。

如果说超大规模云服务商最擅长什么,那就是提升规模并降低成本,使新型信息技术能够足够便宜地广泛部署。

超大规模云服务商发明了许多与商业互联网第二波和第三波浪潮同义的新技术,其中许多首先在谷歌被发明。这是有道理的,因为谷歌是第一个达到超大规模的公司,许多问题首先在谷歌出现。

让我们回顾一些有趣的技术,然后了解谷歌在上周圣克拉拉AI基础设施峰会上透露的AI推理压力和创新。

该公司发明了"BackRub"反向链接式搜索引擎,改变了互联网,使其成为二十年来事实上的搜索引擎。然后是2003年的谷歌文件系统,随后是2004年的MapReduce方法,用于分块和并行处理后来被称为"大数据"的信息。(MapReduce被克隆并商业化为Hadoop。)同时,谷歌创建、使用并发展了Borg和Omega集群管理和容器系统,并在2014年被谷歌开源为Kubernetes。在大规模数据管理和处理方面,谷歌在2006年创建了Bigtable NoSQL数据库,2010年创建了Dremel和BigQuery关系数据库以及全球规模的Colossus(GFS的继任者),2012年创建了运行在其之上的Spanner关系数据库层。谷歌在2014年推出了MapReduce的升级版Dataflow(除了批处理还能进行流处理)。重要的是,该公司还创建了用于AI训练和推理的定制张量处理单元(TPU),同时发明并改进了生成式AI革命核心的Transformer大语言模型。

如今,一切都与AI相关,AI也影响着一切。谷歌已将BigQuery转变为其数据平台的核心,为其Gemini和Gemma Transformer模型提供数据服务,用于内部使用以及为谷歌云客户提供API服务。这些模型在谷歌的TPU集群上进行训练和推理,该集群规模必定非常庞大。看看谷歌AI和计算基础设施总经理Mark Lohmeyer在AI基础设施峰会主题演讲中展示的图表:

可以看到,谷歌所有产品的推理速度呈指数级增长。我们在图表上标注了相关月份的谷歌推理速度;原始图表向左偏移,虽然格式美观但不够准确。我们还为推理速度显著变化的数据点添加了数字,用红色斜体显示。

推理Token速度在2024年8月开始上升,据我们估算达到每月25万亿个Token,然后在2024年12月再次加速,达到每月160万亿个Token。2025年2月,谷歌应用的Token速度开始飙升,达到每月160万亿个Token,然后在2025年4月变得更加陡峭,超过每秒480万亿个Token。Token速度从2024年4月的9.7万亿个增长到2025年4月的49.5倍,这很可能对任何商业模式和IT基础设施造成压力。到2025年6月,它翻了一番达到每月980万亿个Token,如果曲线不发生变化,到2025年8月将达到每月1,160万亿个Token。我们猜测它还会进一步加速,谷歌内部应用的推理速度在8月接近每月1,460万亿个Token。

很难猜测有多少TPU在驱动这个速度,因为我们缺乏关于正在处理和生成的文本、视频或图像数据以及所使用模型的知识。在MLPerf推理测试中,"Trillium" TPU v6e在Llama 2 70B模型上每秒生成约800个Token。这相当于每个Trillium TPU每月约20.7亿个Token。如果Llama 2 70B是唯一模型,MLPerf数据中心推理是唯一工作负载,那么如果我们的粗略猜测是正确的,8月份将需要704,090个Trillium等效设备,而2024年4月仅用于推理的Token速度只需要4,678个Trillium等效设备。谷歌的设备集群中仍有TPU v5和TPU v5e设备,以及不断增长的新型"Ironwood" TPU v7p机器安装。

Lohmeyer没有透露太多关于Ironwood系统的新信息,但做了一些有趣的评论。

首先,除了支持JAX AI框架外,TPU现在还原生支持PyTorch。谷歌AI研究人员现在似乎更喜欢JAX而不是TensorFlow,后者用于支持谷歌的大多数生产工作负载。JAX是一个运行在Python上的AI框架,由谷歌、英伟达和其他公司共同开发。

需要注意的是,Ironwood的峰值性能是Trillium系统的5倍,HBM内存容量是其6倍。更重要的是,使用谷歌独特的光电路交换(OCS)互连链接的Ironwood集群可以在训练和推理工作负载上调用9,216个Ironwood TPU,总共1.77 PB的HBM内存容量。这使得基于144个"Blackwell" GPU芯片、总共20.7 TB HBM内存的英伟达机架级系统相形见绌。Lohmeyer解释说,OCS互连具有动态重新配置能力,可以在TPU故障时进行修复,而无需重启整个训练和推理作业。这一点非常重要。

液冷也很重要,Lohmeyer在主题演讲中谈到了这一点:

"谷歌自2014年以来一直在研究液冷技术,"Lohmeyer解释道。"我们现在已经是第五代冷却分配单元,计划今年晚些时候将该规格分发给开放计算项目。为了让你了解规模,截至2024年,我们拥有大约1千兆瓦的液冷总容量,比当时任何其他设备集群多70倍。我们首先为TPU创建了这个,现在将为GPU复制它。"

本文顶部的特色图像显示了一个带有四个Ironwood TPU的系统板,上面的Ironwood图表显示了一排七个Ironwood TPU机架,每排一个CDU和一个网络机架。这是谷歌首次展示一排Ironwood设备。

我们仔细研究了这个,发现了问题。

当我们计算时,七个机架,每个机架16个系统,每个系统四个TPU,每排是448个TPU,而不是我们预期的256个。256个TPU计数相当于一个基础pod,它具有3D环面互连,将每个TPU连接到pod中的所有其他TPU。我们知道完整的Ironwood系统(由于某种原因也称为pod)有144个机架,总共9,216个TPU v7e加速器。这意味着这个完整的机器有36个pod在4D环面中互连。

奇怪的是,这不是每排八个TPU机架的设置,这意味着每排两个基础pod。我们认为这意味着每两排有三个pod,每排一个机架用作冗余的热备用TPU。这意味着完整的物理Ironwood系统在24排的168个机架中有10,752个TPU v7e设备,有1,536个TPU备用。当然,备用设备可以交错分布在24排中每排的七个机架中,我们强烈怀疑情况就是如此。

谷歌可能在其大多数内部工作负载中使用TPU,但作为云构建者,它也必须拥有大量基于GPU的加速系统,特别是基于英伟达GPU的系统,这是行业标准。确实如此,Lohmeyer确保指出了这一点。实际上,谷歌将谷歌云上体现的计算、网络和存储混合方法称为"AI超级计算机",并指出谷歌云拥有基于Blackwell RTX 6000 Pro(G4)以及八路B200节点(A4)和72路B200机架级节点(A4X)的计算实例。GB300 NVL72真正旨在降低推理成本,但还不在谷歌云实例列表中。Lohmeyer还指出,英伟达的Dynamo推理应用程序已被添加为谷歌云上定制推理堆栈的选项。

我们强烈怀疑谷歌更喜欢使用自己的推理堆栈,Lohmeyer向每个人介绍了这个堆栈,但我们也不知道谷歌推理堆栈是否在除自己的TPU之外的其他设备上工作。

GKE是谷歌云上的托管Kubernetes容器服务,类似于内部使用的Borg和Omega控制器。vLLM是这个推理堆栈的核心,就像Dynamo一样。

该服务后端有一个名为Anywhere Cache的缓存服务,这是一个新的闪存缓存服务,作为各种谷歌存储服务的前端。Lohmeyer说,Anywhere Cache可以将谷歌云区域内的读取延迟减少70%,跨多个区域减少96%。缓存还可以用于降低网络成本,因为一旦数据被缓存,就不需要跨网络获取数据。托管Lustre服务是一个高性能文件系统,用于向GPU和TPU集群提供数据。

GKE推理网关是新的,使用AI增强的负载平衡和路由将推理请求分散到计算引擎池中。其目的是首先不让东西排队,以便能够提高利用率。

实现这一点的一种方法是在XPU池前端放置一个路由器,找到内存中已经有所需上下文的设备。正如我们在英伟达上周发布的旨在处理长上下文查询的"Rubin CPX" GPU加速器中看到的,谷歌的网关将"预填"上下文处理阶段与"解码"查询响应阶段分开,以便可以在针对每个任务优化的计算引擎上完成。

弄清楚推理硬件和软件堆栈不同部分的配置应该是什么是一项艰巨的任务,因此谷歌创建了GKE推理快速启动工具,这也是新的,现在已全面可用。

谷歌在内部为所有这些参数而苦恼,并充分意识到早期做出的错误决定可能对推理经济产生可怕后果。

Lohmeyer说,总的来说,谷歌云客户可以将推理延迟降低多达96%,将吞吐量提高多达40%,并将Token处理成本降低多达30%。

Lohmeyer还展示了另一种称为投机解码的技术,它用于提升其Gemini模型的性能并将能耗降低约33倍。

在这些价格下,所有这些百分比都是真金白银,33倍的提升可能是绝对巨大的,因为功率预算与这个推理业务的利润成反比。我们需要了解更多关于这个的信息。

Q&A

Q1:谷歌TPU的推理Token处理速度增长有多快?

A:根据文章数据,谷歌的推理Token速度从2024年4月的9.7万亿个增长到2025年4月的49.5倍,预计到2025年8月可能达到每月1,460万亿个Token,呈现指数级增长。

Q2:Ironwood TPU v7p相比Trillium有什么优势?

A:Ironwood的峰值性能是Trillium系统的5倍,HBM内存容量是其6倍。使用光电路交换互连的Ironwood集群可以调用9,216个TPU,总共1.77 PB的HBM内存容量,并具有动态重新配置能力。

Q3:谷歌云的推理优化技术能带来多大提升?

A:谷歌云客户可以将推理延迟降低多达96%,将吞吐量提高多达40%,并将Token处理成本降低多达30%。此外,投机解码技术还能将Gemini模型的能耗降低约33倍。

来源:码客人生一点号

相关推荐