甲骨文与AMD扩大合作伙伴关系,将5万个Instinct MI450系列GPU用于AI集群

B站影视 港台电影 2025-10-16 23:57 2

摘要:基于多年的共同创新,甲骨文云基础设施(OCI)将成为首个公开可用的AI超级集群,由AMD Instinct MI450系列GPU提供支持,从2026年第三季度开始部署5万块,并在2027年及以后逐步扩展。借助新款计算卡,客户将能够从以下方面获益:

甲骨文与AMD宣布,将扩大双方的长期合作伙伴关系,以帮助客户显着扩展其AI功能和计划。

基于多年的共同创新,甲骨文云基础设施(OCI)将成为首个公开可用的AI超级集群,由AMD Instinct MI450系列GPU提供支持,从2026年第三季度开始部署5万块,并在2027年及以后逐步扩展。借助新款计算卡,客户将能够从以下方面获益:

突破性的计算和内存 - Instinct MI450系列GPU配备了432GB的HBM4,显存带宽可达19.6TB/s,每GPU的横向阵列带宽可达300GB/s,通过增加AI训练模型的内存带宽,帮助客户更快地获得结果,处理更复杂的工作负载,并减少对模型分区的需求。

优化的“Helios”机架设计 - 集成了UALoE扩展连接和基于UCE横向扩展网络,可最大限度地减少延迟,并最大限度地提高跨Pod和机架之间的吞吐量。

强大的节点 - 代号“Venice”的EPYC处理器提供加密计算能力,并内置安全功能,以帮助保护端到端敏感的AI工作负载。

DPU加速的融合网络 - 基于完全可编程的AMD Pensando DPU技术,为数据中心提供了运行下一个人工智能训练、推理和云端工作负载时代所需的安全性和性能。

面向AI的横向扩展网络 - 通过面向未来的开放式网络结构,使客户能够利用超快速的分布式训练和优化的集体通信。每个GPU最多可配备三个800 Gbps AMD Pensando“Vulcano”AI-NIC,为客户提供支持高级RoCE和UEC标准的无损、高速和可编程连接。

创新的UALink和UALoE结构 - 帮助客户有效地扩展工作负载,减少内存瓶颈,并协调大型数万亿参数模型。

开源AMD ROCm软件堆栈 - 通过为客户提供开放、灵活的编程环境,简化现有AI和HPC工作负载的迁移。

高级分区和虚拟化 - 实现安全高效的资源使用,使客户能够根据工作负载需求安全地共享集群和分配GPU。

AMD表示,Instinct MI450系列是其首款针对人工智能(AI)任务定制的芯片,因此支持相应的数据格式和指令,旨在提供高性能、灵活的云端部署选项,并提供广泛的开源支持。

来源:科技小天下

相关推荐