云提供商如何利用定制芯片解决GPU短缺问题

B站影视 2024-12-07 12:19 2

摘要:云计算领域正遭遇瓶颈。支持许多 AI 工作负载的 GPU 供不应求。随着对 AI 解决方案的需求不断增长,云提供商正在重新考虑其战略。许多提供商不再仅仅依赖 GPU,而是转向定制硅片(专为特定任务设计的芯片),以提高性能、降低成本并满足客户不断变化的需求。

本文由半导体产业纵横(ID:ICVIEWS)编译自techhq

随着云提供商不断创新,定制芯片将发挥更大的作用。

云计算领域正遭遇瓶颈。支持许多 AI 工作负载的 GPU 供不应求。随着对 AI 解决方案的需求不断增长,云提供商正在重新考虑其战略。许多提供商不再仅仅依赖 GPU,而是转向定制硅片(专为特定任务设计的芯片),以提高性能、降低成本并满足客户不断变化的需求。

这一转变不仅是为了填补 GPU 短缺留下的空白,更是重新定义云基础设施未来的战略举措。在上周的微软 Ignite 大会上,该公司为其 Azure 平台推出了两款新的定制芯片,凸显了这种方法日益增长的重要性。与此同时,所有人的目光都集中在 AWS 上,该公司很可能在未来几个月推出自己的定制芯片产品。

GPU 无疑非常强大,尤其是对于模型训练和执行等 AI 任务而言。然而,它们也有自己的问题。首先,它们耗能大、产生大量热量,需要先进的冷却系统。据 Network World 报道,IDC 副总裁分析师 Mario Morales 表示:“尽管 GPU 彻底改变了 AI 和机器学习 (ML) 中的建模、模拟、训练和推理等性能密集型工作负载,但它耗电量巨大,需要额外的冷却系统。 ”

除了技术挑战之外,市场还在努力应对供应短缺问题。例如,摩根士丹利分析师表示,Nvidia 最新的 Blackwell GPU 在未来 12 个月内已经售罄。供应紧张迫使云提供商探索替代方案,这些方案不仅可以绕过对 GPU 的需求,还可以提供更高的效率。

定制芯片正在填补 GPU 留下的空白。与通用处理器不同,这些芯片专为特定工作负载而设计,因此效率更高。“这些加速器因其卓越的性价比和价格效率比而在云基础设施中变得越来越重要,”Morales 解释道。它们使超大规模企业能够以更低的成本提供更快的计算,从而提供更好的投资回报。

微软进军定制芯片领域的征程始于去年,当时推出了针对内部 AI 工作负载的 Maia 和 Cobalt 芯片。这些芯片帮助该公司提高了数据中心的能源效率。今年,微软又加倍投入,推出了两款旨在应对特定挑战的芯片。

在 Ignite 2024 大会上,微软推出了一款旨在加速数据处理的芯片 Azure Boost DPU。该处理器采用软硬件协同设计来运行轻量级操作系统,从而比传统系统具有更高的性能和更低的功耗。该公司还宣布推出 Azure Integrated HSM,这是一款专注于安全的芯片。

除了芯片之外,微软还在革新其数据中心基础设施。该公司宣布推出一款用于 AI 服务器的新型液冷机架,以及与 Meta 共同设计的分体式电源机架,这允许在单个服务器机架中容纳 35% 以上的 AI 加速器。这些改进旨在使 Azure 成为处理苛刻工作负载的更强大、更高效的平台。

虽然微软的 Azure Boost DPU 向前迈进了一步,但行业分析师表示,该公司仍在追赶竞争对手。例如,谷歌与英特尔共同开发了其 E2000 IPU,AWS 为面向 DPU 的任务提供了其 Nitro 系统。对于专注于类似工作负载的云提供商来说,Nvidia Bluefield 和 AMD Pensando 也是受欢迎的选择。

Forrester 高级分析师 Alvin Nguyen 表示,微软正在取得进展,但 DPU 领域竞争已经很激烈。“其他云提供商使用 Nvidia Bluefield 和 AMD Pensando 来开发这些应用程序,”他解释道。

定制芯片不仅能提高性能,还能增强安全性。微软的 Azure 集成 HSM 芯片就是一个例子。通过完全在硬件中处理加密任务,它可以最大限度地减少漏洞并降低延迟,从而更易于扩展。

AWS 和 Google 也在使用定制芯片来确保安全性。AWS 的 Nitro 确保主系统CPU无法修改固件,从而提供额外的保护。Google 的 Titan 芯片建立了基于硬件的信任根,确保系统的完整性并实现更安全的操作。

Nguyen 指出,每个提供商都有自己的方法。“虽然 Nitro 提供了关键的安全功能,确保主系统 CPU 无法在裸机模式下更新固件,但 Titan 提供了基于硬件的信任根,可以建立机器的强大身份,我们可以据此做出重要的安全决策并验证系统的健康状况。”

随着云提供商不断创新,定制芯片将发挥更大的作用。除了解决 GPU 短缺问题之外,定制芯片还使超大规模企业能够重新思考如何实现性能、可扩展性和成本效益。

Omdia 首席分析师亚历山大·哈罗威尔 (Alexander Harrowell) 表示:“一旦你拥有了生产定制芯片的昂贵能力,那么合乎逻辑的做法就是看看你向供应商提供最多利润的地方、哪里增长最快,然后加以利用。”

转向定制芯片不仅仅是为了应对眼前的挑战,而是一项长期战略。云提供商可以通过设计针对特定需求量身定制的芯片来提供尖端解决方案,以满足日益增长的人工智能、安全和专业工作负载需求。

随着创新的不断加速,云计算领域正在进入一个新时代——云计算芯片与其执行的任务一样独特。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

来源:半导体产业纵横一点号

相关推荐