AMDGPU副总裁谈GPU未来发展

B站影视 2025-01-25 17:21 2

摘要:Brad McCredie(Brad McCredie)喜欢引擎,更重要的是,他喜欢让引擎变得更快。他对道奇挑战者(Dodge Challenger)的热爱——他拥有多辆,包括一辆Hellcat——体现了他对速度的渴望。这种热情同样体现在他引领IBM Powe

Brad McCredie(Brad McCredie)喜欢引擎,更重要的是,他喜欢让引擎变得更快。他对道奇挑战者(Dodge Challenger)的热爱——他拥有多辆,包括一辆Hellcat——体现了他对速度的渴望。这种热情同样体现在他引领IBM Power处理器设计几十年的工作中,以及在过去几年中,作为AMD GPU平台的企业副总裁,帮助AMD发布了过去两代Instinct GPU的设计。

根据我们了解,AMD在GPU销售方面刚刚度过了一个爆发式增长的年份,这在很大程度上归功于其“Aldebaran”MI200系列以及最近的“Antares”MI300系列的广泛采用。预计2024年AMD将向数据中心销售超过50亿美元的GPU加速器,几乎是2023年GPU销售收入的10倍。尽管AMD尚未发布2026年数据中心GPU销售的预测,但我们预计在2024年第四季度财报发布时会公布这一数据。考虑到加速器需求的旺盛以及供应的稀缺,今年的收入翻倍甚至三倍增长也不令人惊讶。

最近,我们与麦克里迪进行了座谈,讨论了加速器引擎以及未来AMD GPU的可能发展。

提摩西·普里克特·摩根(Timothy Prickett Morgan):在2024年11月的最新Top500超级计算机排名中,如果仅看新增的机器,我现在正用这种方式分析Top500,搭载AMD GPU和AMD CPU的系统在理论峰值FP64性能中占据了72%。使用各种CPU和Nvidia GPU的系统占27.2%。这是AMD首次在这一排名中超越Nvidia,主要归功于劳伦斯·利弗莫尔国家实验室的“埃尔卡皮坦(El Capitan)”超级计算机及其更小的兄弟系统。

在2024年6月的排名中,新增的FP64精度计算能力中,使用Nvidia“Grace”CPU和“Hopper”GPU的系统占比略高于54%,而其他各种CPU与Nvidia GPU的系统占25.6%。

这是否意味着Nvidia和AMD之间的竞争反映了高性能计算(HPC)市场可能会在某个时刻趋向均衡,最终各占一半?

Brad McCredie:我认为HPC的容量确实需要投资。你必须设计双精度和双精度数据传输,要做一些工作来支持HPC生态系统。你可以给HPC生态系统提供其他东西,让他们自己处理,我认为过去其他厂商曾经有过这种做法。我们选择为HPC客户设计。如果你看我们的路线图,我们的双精度计算非常强大,能够支撑到未来。

顺便说一句,我们的芯片颗粒架构使我们更容易做出这个决定。我们不是在构建大型的单体芯片,这让我们有了更多的灵活性来调整设计,未来会有一些非常有趣的事情发生。HPC在全球中非常重要,机器必须像瑞士军刀一样,既要支持AI,又要支持HPC,并且两者都要做得很好。凭借芯片颗粒架构,我们能够设计出在这两种计算需求之间具有不同比率的机器。

TPM:你们会为此重新架构吗?因为目前的GPU设计并未做到这一点。它们在芯片颗粒中专门有用于向量和矩阵计算的功能,然后通过增加更多芯片颗粒来扩展。这些功能可以分开为不同的芯片颗粒,然后单独调节它们的容量……

Brad McCredie:我们正在调整架构的一些部分,以便能够实现这种灵活性。

TPM:有意思。就我目前的观察来看,AMD正在设计一款非常适合HPC的设备——64位精度和32位浮动点,并且可以很好地支持AI计算。相比之下,Nvidia正在设计一款AI处理器,它对于HPC也足够好。

例如,“Blackwell”B200s在其张量核心上提供45 teraflops的FP64计算性能——而我们甚至不知道CUDA核心在FP64上的具体表现如何,或者GB200芯片上有多少个CUDA核心。而单个“Hopper”H100的CUDA向量核心在FP64上的计算能力为33.5 teraflops,张量核心则为67 teraflops。Nvidia的FP8和FP4的计算能力在AI工作负载中有显著提升,但在Blackwell插槽中,相比Hopper插槽,FP64的计算能力大幅减少。

Brad McCredie:我们的观点是,如果你有正确的芯片颗粒策略,你不需要在这两个方向上做出选择。我认为能够避免做出这种选择,才是关键。

TPM:嗯,Instinct MI300X在向量核心上提供81.7 teraflops的FP64计算能力,在张量核心上提供163.4 teraflops,这对于传统的HPC工作负载来说是一个巨大的优势。

我不认为Nvidia对于HPC社区感到担忧,因为Hopper依然在供应——就像当年Nvidia推出的首款为AI工作负载设计的加速器——“Maxwell”GPU出来时,“Kepler”K80依然可用一样。

Brad McCredie:我认为,你必须为HPC社区提供他们所需的硬件,以便完成他们的计算工作。所以你需要考虑AI与HPC之间的数据格式,它们在这一点上有所不同。两者的系统结构也在发生变化。我认为,在这方面的灵活性同样非常重要。

虽然在IBM和AMD的工作经历之间,麦克里迪与妻子曾在美国各地旅行,这一创造性的混合架构也随之诞生。在这个类比中,很明显,哪一辆车代表了GPU。

TPM:你能增加更多来自GPU的Infinity Fabric带宽吗?因为在我看来,这是我希望能看到更多的地方。根据基准测试,从加速器出来的带宽似乎在AI训练中比在AI推理中更为重要。在你们的测试中,NVLink和NVSwitch在某些AI推理工作负载上的帮助似乎不如Infinity Fabric。

我可以设想,在芯片颗粒上调节其中一个参数,将更多的Infinity Fabric分配给训练GPU,而不是推理GPU,同时保持其他部分基本不变,这样你就可以交叉连接更多设备,扩大内存域和设备之间的高带宽连接。或者说,这种改变是不是太大了?

Brad McCredie:AI显然是一个庞大的市场,AI领域的变化层出不穷,越来越多的论文在讨论这个问题。你可以将推理任务拆解为填充和解码——它们有不同的计算需求。普遍的看法是,解码任务更需要内存带宽,而填充任务更依赖计算能力。每一种任务都有其独特的内存带宽和计算需求……

TPM:所以,你可以在单个设备上或者跨不同设备在系统板上制定一个工作流程。将数据从一端输入,机器需要加速时就处理,在适当时将数据传递给其他设备。

Brad McCredie:嗯,确实有很多有趣的事情正在发生,我只能这么说。我认为这些都会对未来的架构产生影响。

TPM:我也认为,是时候打破记忆体必须靠近GPU的束缚了,使用电缆连接。我希望更多的内存能够通过光纤链接与GPU相连接,而不必依赖堆叠内存,将其保持在几毫米内的距离,这样可以避免堆叠带来的高昂成本。你怎么看?

Brad McCredie:这确实是一个挑战。如果你考虑我们在GPU中塞入了多少内容,我们已经突破了基本硅片的限制。所以所有这些设备都变得更大,散热也变得至关重要。

TPM:所以,这也是我说的,想要让内存与计算设备之间的距离更远一些,避免由于靠得太近而引起的二次加热效应,影响内存的稳定性。

Brad McCredie:你描述的情况就像是一团乱麻,这不是第一次有人提这个问题。

这并不是侮辱,我知道你明白。但如果你回顾过去推动计算发展的因素,我觉得我们可以就“是晶体管的加速带来了性能提升,还是集成度的提升更重要”展开一场很好的讨论。对于CPU,缓存曾经是独立的,后来北桥和南桥集成到芯片上。我们可以讨论,到底是把这些组件集成到同一个芯片上带来了更多的性能,还是晶体管的运行速度提升更为重要?

我认为不看好集成化,并且选择将各部分分开发展,是一个很难打赌的选择。我认为我们会继续推动更多的堆叠技术。我认为我们会向上而非向外发展,但不要误会我的意思,虽然我没有把这些写在石板上,但更快、更低功耗的互联仍然会有它的地位。问题是:我们将如何划定这些界限,在哪里设定接口?

TPM:这个决定将由资金推动……

Brad McCredie:这个决定将由性能来驱动,按照我的看法,性能最终也会影响到资金。

TPM:好吧,最后问一个与技术无关的问题。你在IBM引导Power CPU设计已经很长时间了,也在AMD引导了几代GPU设计,你现在还觉得有趣吗?

Brad McCredie:是的,我觉得很有趣。显然,构建CPU是非常酷的,但之前有太多的代码和遗留问题,限制了我们的进展。但AI工作负载真是不可思议,网络带宽、延迟、计算能力和内存容量与性能——你投入设计的每一项内容都会被充分利用。我从未见过这样的工作负载。

TPM:做这些计算引擎越来越难了吗?

Brad McCredie:看看我们行业中的各种微观生态。显然,技术的扩展——摩尔定律等等——这变得越来越难了吗?是的,制程工程师必须做出FinFET 3D晶体管。但这个行业真是太惊人了。当然,我们需要找到新的方法,即使在更高层次上也是如此。比如说,我们引入了更多的网络技术,因为我们第一次在进行并行处理。我们终于找到了真正的并行工作负载。

我们正在推行3D封装技术,把更多的硅片面积压缩进一个空间,然后再进行散热。我不确定“更难”是不是最合适的词,但我们确实在以不同的方式做这件事。不过,有一件事是肯定的,正如我大学教授常说的:“布拉德,始终要紧跟性能的步伐,因为每个人都希望变得更快。”所以,每天我们都在寻找更快的方式。

来源:智慧芯片

相关推荐