摘要:在2025年OCP全球峰会上,AMD发布了Helios超算方案,主要是用于AI数据中心的运算。Helios类似英伟达的高端AI机架方案,如GB300 NVL72,是AMD自家的全生态机架级 AI 硬件平台。所谓全生态是CPU、GPU、网络硬件与超算软件都是AM
在2025年OCP全球峰会上,AMD发布了Helios超算方案,主要是用于AI数据中心的运算。Helios类似英伟达的高端AI机架方案,如GB300 NVL72,是AMD自家的全生态机架级 AI 硬件平台。所谓全生态是CPU、GPU、网络硬件与超算软件都是AMD的自家产品,如今恐怕只有AMD才有能力做这样的全优化超算。
Helios在硬件层面上堆料很足,堪称豪华,但是CPU、GPU、网络硬件与超算软件都是AMD的自家产品。而每个部件都会各司其职,发挥不同的作用:
EPYC霄龙服务器处理器是总司令,处理通用计算,负责高效计算与任务调度;新一代 AI 加速核心的Instinct MI450 GPU是得力主将,处理并行运算和AI演练运算,是整个AI超算系统的主要算力来源;
Pensando网络接口是通讯兵,提供高速互联与低延迟通信;而ROCm 软件生态是战术打法,是属于AMD自家的开源AI计算平台,负责实际的运算优化,充分发挥CPU和GPU的全部实力。
这种“一家包办”的整合式方案,让Helios在功耗控制、软件优化和维护一致性上都有明显优势,全部都在AMD自己掌控之中。
在硬件规格方面,Helios 的实力可以说“变态级”:
每块 MI450 GPU 配备 432GB HBM4 高带宽显存显存带宽高达 19.6 TB/s每台 Helios 系统搭载 72 块 GP整机性能可达 1.4 ExaFLOPS(FP8 精度)总显存容量高达 31TB那大的算力机器,电力供应和散热也是重中之重的事,为此,AMD采用了 Meta 最新的 Open Rack Wide 标准,这是一种针对 AI 服务器优化的开放式机架规格,有三大优点。
供电效率更高散热更强,适合高密度 GPU 部署维护更便捷,服务人员能更快更换部件AMD 在会上更是直接点名对比英伟达,表示 Helios 的显存容量比竞争对手 Vera Rubin 系统高出 50%。在当下AI模型越来越“大胃口”的时代,这无疑是个极具杀伤力的卖点。
因此,这个超算方案很快就被客户认可,而Helios平台的首位合作伙伴是老客户Oracle。双方宣布将于 2026 年第三季度 开始部署 50,000 块 MI450 GPU,并计划在 2027 年继续扩充规模。
随着 AI 训练规模持续扩大,企业对算力、显存、能效和可维护性的需求也在爆发,其实,AMD已经在硬件层面上赶上英伟达,但是英伟达还有多年布局的CUDA生态,这个是AMD有待追赶的。
来源:走进科技生活