AMD发布新计算平台,AI性能狂飙3.5倍,直追英伟达

B站影视 港台电影 2025-09-25 22:56 1

摘要:长久以来,AI计算领域几乎就是英伟达CUDA的后花园。凭借多年的生态积累,开发者们早已习惯了在CUDA的框架下工作。AMD虽然硬件上奋起直追,推出了像Instinct MI系列这样的强力GPU,但软件生态一直是那块难啃的骨头。ROCm的使命,就是为AMD的硬件

AMD ROCm(Radeon开放计算平台)7.0版本正式发布。这次更新在AI训练和推理性能上实现了巨大飞跃。

长久以来,AI计算领域几乎就是英伟达CUDA的后花园。凭借多年的生态积累,开发者们早已习惯了在CUDA的框架下工作。AMD虽然硬件上奋起直追,推出了像Instinct MI系列这样的强力GPU,但软件生态一直是那块难啃的骨头。ROCm的使命,就是为AMD的硬件打造一个能与CUDA分庭抗礼的软件环境。

专为AI加速的新平台

这次的ROCm 7.0,号称从算法到基础设施,每一层都在为AI创新加速。

它为AMD最新的旗舰GPU——Instinct MI350系列提供了全面支持。这块卡堪称性能怪兽,基于最先进的CDNA 4架构和台积电N3P工艺打造,一块卡上集成了惊人的1850亿个晶体管,比上一代MI300X多了21%。

具体来看,MI350X和MI355X这两款型号,内部塞了8个XCD(加速器复杂芯片),总共256个CU(计算单元)。它们还配备了高达288GB的HBM3e超高速显存,内存带宽达到了恐怖的8TB/s。为了应对大模型推理和训练的需求,MI350系列特别优化了对FP4、FP6、FP8这类低精度数据类型的支持。

两款卡的设计也各有侧重,MI355X采用液冷散热,功耗高达1400瓦,专为追求极致性能的数据中心设计。MI350X则是风冷,功耗稍低一些。

更好的兼容CUDA,软件全面升级

ROCm 7.0的精髓在于软件层面的全面进化。

为了让习惯了CUDA的开发者能够“无痛跳槽”,新版本中的HIP(异构计算接口平台)7.0大幅提升了与CUDA的兼容性,增加了很多CUDA兼容的API,甚至支持零拷贝的GPU到网卡数据传输,大大降低了代码迁移的难度和成本。

底层的编译器LLVM也升级到了20版本,各种数学和计算库,比如hipBLASLt和rocBLAS,都进行了深度优化,不仅支持从FP32到FP8、BF8等多种数据格式,还集成了像Swish、SiLU、GELU这些常用的融合激活函数,专门提升矩阵乘法的效率。

ROCm 7.0还推出了一个秘密武器,叫做AITER(AI张量引擎)。这东西内置了一套预先优化好的内核库,专门针对生成式AI的工作负载进行“开小灶”。根据官方数据,AITER能把多头潜在注意力(MLA)解码操作的性能提升17倍,把多头注意力(MHA)预填充操作提升14倍。在实际模型上,比如DeepSeek R1的吞吐量,直接翻了一倍还多。

在对主流AI框架的支持上,ROCm 7.0也做得非常到位。它原生支持PyTorch 2.7/2.8、TensorFlow 2.19.1和JAX 0.6.x等,还优化了Docker镜像,让镜像体积大幅缩小,部署起来更方便。

推理引擎方面,现在流行的vLLM和SGLang都已经支持MI350X/MI355X,并且通过对FP4精度的原生支持,进一步提升了模型服务的性能。vLLM还集成了新的v1引擎,降低了CPU的开销,这意味着更快的首字时延(TTFT)和更高的吞吐量。SGLang则首次引入了分布式推理功能,特别适合处理那些超大的语言模型和混合专家(MoE)模型。

AMD还把模型优化和量化工具做得更接地气了。AMD Quark量化工具已经达到生产可用级别,可以直接提供MXFP4、FP8等低精度量化模型。首发就支持了OpenAI开源的gpt-oss-120b和gpt-oss-20b模型,还有像DeepSeek R1、Llama 3.3 70B、Llama 4 Maverick/Scout、Qwen3 235B等一系列热门模型,都能无缝对接到vLLM和SGLang等推理框架中。

实际性能提升如何?

跟自家的上一代ROCm 6.0相比,在同样的MI300X硬件上,ROCm 7.0的推理性能提升了大约3.5倍,模型训练的有效浮点性能提升了3倍。在AI智能体和聊天机器人这类应用场景,MI355X搭配ROCm 7.0的组合,性能比MI300X加ROCm 6.0的组合提升了4.2倍。在内容生成、摘要和对话AI等任务上,也有2.6到3.8倍的提升。

AMD公布的基准测试数据显示,在某些场景下,MI355X与ROCm 7.0的组合已经能够超越或持平英伟达的B200/GB200配CUDA的组合。

比如,在SGLang框架下跑DeepSeek R1的推理任务,MI355X比B200快了1.3倍。在8卡服务器上运行Llama 3.1 405B模型的推理,8张MI355X比8张B200组成的HGX服务器快1.2倍(在FP4精度下)。在训练任务上,两者性能相当,AMD甚至在某些项目上略微领先,最高能快1.13倍。

为了更直观地对比,这里有一个关键参数的表格:

从表格能看出来,AMD在FP4算力和显存容量上优势明显,这对于需要处理超长上下文和巨大模型的推理任务来说至关重要。英伟达在FP8和FP16的理论峰值算力上依然领先,但AMD正通过ROCm 7.0的软件优化,努力在实际应用中抹平这种差距。

软硬结合的双重奏

ROCm 7.0的性能表现,离不开与MI350系列硬件的深度协同。

CDNA 4架构本身就有很多亮点。它采用了8个XCD加2个IOD(输入/输出芯片)的复杂封装设计,芯片间的Infinity Fabric(无限总线)宽度直接翻倍,带宽高达5.5TB/s,极大地降低了通信延迟和功耗。每个HBM显存堆栈旁边还配了32MB的Infinity Cache(无限缓存),进一步减少了访问内存的延迟。

为了支撑大规模的分布式训练和推理,MI350系列通过7条Infinity Fabric链路实现8张卡的全面互联,单节点内的通信带宽高达153.6GB/s。

软件层面,ROCm 7.0引入了一种叫Stream-K的算法,它能自动平衡通用矩阵乘法(GEMM)操作,让开发者不用再费心手动调优,就能把GPU的利用率提上去。同时,那些预先优化好的内核库,比如专为混合专家模型设计的MXFP4内核,可以直接集成到用户代码中自动启用。

除了性能,稳定性和易用性也在提升。HIP运行时增加了异常转发等新特性,提高了程序的健壮性。AMD还推出了资源管理器(Resource Manager)和AI工作台(AI Workbench),帮助用户更简单地管理集群和微调模型。

为了让开发者快速上手,AMD提供了预构建的Docker镜像和量化模型示例,目标是打造一个从边缘设备到云端数据中心,全栈统一的开发体验。ROCm 7.0的支持范围也已经扩展到了锐龙(Ryzen)AI处理器和Radeon RX系列消费级GPU。

软硬两手抓的AMD,能撼动英伟达的铁王座吗?

参考资料:

来源:算泥社区

相关推荐