摘要:随着 AI 采用加速,企业正在遇到计算瓶颈,这些瓶颈不仅限于原始处理能力。挑战不仅在于拥有更多计算能力,还在于拥有更智能、更高效的计算能力,能够根据组织的需求进行定制,并能够随着 AI 创新而扩展。AI 模型正在变得更大更复杂,需要能够处理海量数据集、支持持续
随着 AI 采用加速,企业正在遇到计算瓶颈,这些瓶颈不仅限于原始处理能力。挑战不仅在于拥有更多计算能力,还在于拥有更智能、更高效的计算能力,能够根据组织的需求进行定制,并能够随着 AI 创新而扩展。AI 模型正在变得更大更复杂,需要能够处理海量数据集、支持持续学习并提供实时决策所需效率的架构。
从超大规模数据中心中的 AI 训练和推理,到企业中的 AI 驱动自动化,无缝部署和扩展计算基础设施的能力现在已成为竞争优势。
"这是一个很高的要求。组织正在努力跟上 AI 计算需求,高效扩展 AI 工作负载并优化其基础设施,"AMD 数据中心 GPU 产品营销总监 Mahesh Balasubramanian 表示。"我们交谈的每家公司都希望站在 AI 采用和业务转型的前沿。挑战在于,他们从未面临过如此大规模、具有划时代意义的技术。"
启动灵活的 AI 战略
从哪里开始?现代化现有数据中心是消除 AI 创新瓶颈的重要第一步。这可以释放空间和电力,提高效率并使数据中心更环保,所有这些都有助于组织保持足够的灵活性以适应不断变化的 AI 环境。
"您可以将现有数据中心从三代前的 Intel Xeon 8280 CPU 升级到最新一代 AMD EPYC CPU,在使用 87% 更少服务器的情况下节省高达 68% 的能源,"Balasubramanian 说。"这不仅是升级现有数据中心的智能和高效方式,还为升级公司计算能力的下一步打开了选择。"
随着组织发展其 AI 战略,制定快速增长的硬件和计算需求计划至关重要。无论您是使用单一模型作为组织流程的基础,为每个部门定制模型,还是使用代理 AI,这都是一个复杂的任务。
"如果您了解基础情况 - AI 将在哪里部署,从空间、电力、效率和成本角度来看已经有哪些基础设施 - 您就有大量稳健的技术解决方案来解决这些问题,"Balasubramanian 说。
超越一刀切的计算
企业中的一个常见认知是,AI 解决方案需要从一开始就进行大规模投资,包括硬件、软件和服务。Balasubramanian 表示,这已被证明是最常见的采用障碍之一 - 而且是一个容易克服的障碍。AI 之旅始于审视现有技术和数据中心升级;从那里,组织可以通过选择能够适应当前问题和未来目标的技术来开始为未来扩展。
"与其将所有资金投入到特定类型的产品或解决方案上,您现在可以为组织定制合适的解决方案,"Balasubramanian 说。"AMD 的独特之处在于我们拥有广泛的产品组合来满足定制需求。我们有从云到数据中心、边缘解决方案、客户端和网络解决方案等。这个广泛的产品组合使我们能够在所有解决方案中提供最佳性能,并为寻找适合其需求解决方案的企业提供深入指导。"
该 AI 产品组合旨在处理最具挑战性的 AI 工作负载 - 从基础模型训练到边缘推理。由 HBM3e 内存和 CDNA 架构驱动的全新 AMD InstinctTM MI325X GPU 为生成式 AI 工作负载提供卓越性能,与竞争解决方案相比提供高达 1.3 倍的推理性能1,2。AMD EPYC CPU 继续树立行业标准,提供无与伦比的核心密度、能源效率和高内存带宽,这对 AI 计算可扩展性至关重要。
与广泛的行业领导者合作 - 包括 Dell、Supermicro、Lenovo 和 HPE 等 OEM,Broadcom 和 Marvell 等网络供应商,以及 Arista 和 Cisco 等交换机供应商 - 最大限度地提高了这些数据中心解决方案的模块化。它可以从两台或四台服务器无缝扩展到数千台,全部采用下一代基于以太网的 AI 网络构建,并由行业领先的技术和专业知识支持。
为什么开源软件对 AI 发展至关重要
虽然硬件和软件对于应对当今的 AI 挑战都至关重要,但开源软件将推动真正的创新。
"我们认为世界上没有一家公司能够解决所有问题,"Balasubramanian 说。"用 AI 解决世界问题的最佳方式是团结一致,而团结一致意味着拥有一个每个人都可以协作的开源软件栈。这是我们愿景的关键部分。"
AMD 的开源软件栈 ROCmTM 被 OpenAI、Microsoft、Meta、Oracle 等行业领导者广泛采用。Meta 在 AMD Instinct GPU 上运行其最大和最复杂的模型。ROCm 提供对最大 AI 框架 PyTorch 的标准支持,并拥有来自 Hugging Face 高级模型库的超过一百万个模型,使客户能够在 ROCm 软件和 Instinct GPU 上无缝开箱即用。
AMD 与 PyTorch、Tensorflow、JAX、OpenAI 的 Triton 等供应商合作,确保无论模型大小如何,应用程序和用例都可以从单个 GPU 扩展到数万个 GPU - 就像其 AI 硬件可以扩展以匹配任何规模的工作负载一样。
ROCm 通过持续集成和持续开发与深度生态系统参与,确保新的 AI 功能和特性可以安全地集成到软件栈中。这些功能经过自动化测试和开发流程,确保它能够适应、稳健、不会破坏任何内容,并能够立即为使用它的软件开发商和数据科学家提供支持。
随着 AI 的发展,ROCm 正在转向提供新功能,而不是将组织锁定在可能无法提供必要灵活性的特定供应商。
"我们希望为组织提供一个完全开放的开源软件栈,从顶层到底层,贯穿整个组织,"他说。"用户可以选择满足其需求的层并根据需要修改它们,或直接运行模型,确保企业可以从第一天开始运行 DeepSeek、Llama 或 Google 最新的 Gemma 模型等密集型模型。"
展望未来:AMD 对 AI 计算的愿景
随着组织拥抱 AI 的早期革命,他们需要避免被锁定在特定解决方案中,找到满足其当前和未来需求的计算解决方案。与行业专家合作对于识别这些需求以及随着 AI 改变世界而推进这些需求所需的内容至关重要。
AMD 正在推动这一变革,与处于 AI 发展前沿的领先 AI 实验室以及更广泛的开发者和领先软件公司生态系统合作。随着客户群不断扩大,包括 Microsoft、Meta、Dell Technologies、HPE、Lenovo 等,AMD 通过提供高性能、高能效的解决方案来塑造 AI 格局,推动跨行业创新。
展望未来,这种合作是 AMD 技术路线图的基础。公司正在投资全面的硬件和软件解决方案,包括最近收购 ZT Systems,带来必要的服务器和集群设计专业知识,与我们的 OEM、ODM 和云合作伙伴快速将全栈解决方案推向市场。
随着模型变得更大更复杂,硬件需求呈指数级增长。这就是推动 AMD 产品策略和功能集的原因:确保其解决方案组合可以扩展,具有保持性能和效率的开放和灵活的 AI 基础设施。
"这个广泛的产品组合旨在为 AI 解决方案提供合适的规模,为每个客户设置提供最佳性能,并为各种规模的 AI 策略提供支持,"Balasubramanian 说。"无论组织处于 AI 之旅的哪个阶段,无论是构建模型还是将模型用于最终用例,我们都希望他们来与我们交谈,了解我们如何帮助解决他们最大的问题。"
来源:至顶网