摘要:据摩根大通此前预计,英伟达将在大会上推出Blackwell Ultra芯片(GB300),并可能披露Rubin平台的部分细节。此次大会还将聚焦AI硬件的全面升级,包括更高性能的GPU、HBM内存、更强的散热和电源管理,以及CPO(共封装光学)技术路线图。
明日,英伟达创始人CEO黄仁勋将迎来重振该公司股价的重要契机。在英伟达年度技术峰会GTC上,黄仁勋将阐述他如何带领英伟达探索AI下一个前沿的方向。
据摩根大通此前预计,英伟达将在大会上推出Blackwell Ultra芯片(GB300),并可能披露Rubin平台的部分细节。此次大会还将聚焦AI硬件的全面升级,包括更高性能的GPU、HBM内存、更强的散热和电源管理,以及CPO(共封装光学)技术路线图。
在黄仁勋的演讲到来前,我们来看看这些年中英伟达推出的系列架构,和他们背后的故事。
1999年底,英伟达推出了第一款GPU(Graphic Process Unit,图形处理单元)Geforce 256,将完整的渲染管线集成进硬件,提供了不错的加速效果。但这款产品还很难称之为处理器,因为它尚不具备任何可编程能力。2001年随着DX8引入可编程顶点着色器的概念,英伟达才在Geforce 3中添加了Vertex Processor,使GPU可以编程了。随后,越来越多的可编程着色器被DX和OpenGL引入,以满足渲染开发者的算法需求。
在GPU设计之初,并非针对深度学习,而是图形加速,在英伟达推出CUDA架构之前,GPU并无太强对深度学习运算能力的支持。真正用来作为人工智能算力支持的GPU,不是普通的显卡,而是GPGPU(General-Purpose Computing on Graphics Processing Units)即通用计算图形处理器,这是一种用于处理非特定需求(通用类型)计算目的的算力单元(芯片)。
01
革命的开始,CUDA架构的诞生
随着GPU具备了可编程能力,其用于并行计算的天赋被发掘出来。当时,很多大学和研究机构都在尝试用GPU做一些科学计算。
2003年的SIGGRAPH大会上,许多业界泰斗级人物发表了关于利用GPU进行各种运算的设想和实验模型。SIGGRAPH会议还特地安排了时间进行GPGPU的研讨交流。但当时的开发者只能利用着色器编程语言开发程序,必须将计算资源映射为渲染概念才能使用,非常麻烦。因此亟需一种针对GPU并行计算的编程语言。此时,正在斯坦福读博的Ian Bark看到这一需求,投身到Brook(一套用于并行计算的编程语言,后被AMD收购)的研发中,成为GPU并行计算软件栈的先行者。2004年,他以实习生的身份加入英伟达,并于两年后开发出CUDA。
渲染需求变得越来越多样化,并行计算业务正含苞待放,Tesla G80架构正是在这样的历史背景下被设计出来,成为英伟达改变自身命运的重要转折点。
2006年,英伟达推出了Tesla架构的第一代(G80),开启了GPU通用计算探索。Tesla架构之前的显卡也经历了几代的发展,但基本上是图形显卡。而它采用全新的CUDA架构,支持使用C语言进行GPU编程,可以用于通用数据并行计算。这成为英伟达改变自身命运的重要转折点。Tesla G80是第一款实现CUDA架构的GPGPU,开启了一个并行加速的时代。G80是有史以来最伟大的GPU变革产物之一,首批产品GeForce 8800 GTX/GTS于2006年11月发布。之后,英伟达又在第一代基础上推出了Tesla架构的第二代(GT200),其双精度的FMA运算速度30FMA ops/ clock,提升了8倍多。
就在G80-G200这两代产品上,英伟达花了大约三年时间积累了大量的用户体验反馈,招募了Bill Dally作为首席科学家,最终推出了Fermi这个划时代的产品,这是第一款带有L1 Cache、ECC纠错,面向超级计算机的架构,从这一代开始,英伟达涉足超级计算机的野心开始暴露无遗,在发布的时候拉来了多位超级计算机行业的重要人物站台。
2010年,英伟达公司正式推出了Fermi全新架构。这款架构不仅仅是一个简单的硬件更新,而是被英伟达定义为首款专门为计算任务而设计的GPU。换句话说,英伟达通过Fermi架构重新定义了GPU的概念,旨在加速并行计算的性能。与此同时,这款架构还具备了强大的图形渲染能力,使其在图形处理方面同样表现出色。而GF100是第一款基于Fermi架构的GPU,集成32亿个晶体管,专为下一代游戏与通用计算应用程序而优化的全新架构,实现了所有DirectX 11硬件功能,包括曲面细分和计算着色器等。
G80是对统一图形与计算处理器应有面貌的最初愿景。随后的GT200扩展了G80的性能与功能。而GF100,这是一个专为下一代游戏与通用计算应用程序而优化的全新架构的GPU。Fermi这一代架构展现了英伟达全力押注通用并行计算的决心。倘若说Tesla G80仅仅是小试身手,那么Fermi则正式吹响了全面进军计算产业的号角。
02
英伟达布局高性能计算
之后,英伟达大致保持了两年更新一次架构的频率,不断推陈出新。
2012年,英伟达推出Kepler架构。这是首个支持超级计算和双精度计算的GPU架构。得益于28nm的先进制程技术,Kepler在性能和功耗方面实现了质的提升。Kepler GK110具有2880个流处理器和高达288GB/s的带宽,计算能力比Fermi架构提高3-4倍。Kepler架构的出现使GPU开始成为高性能计算的关注点。
2014年,英伟达发布的Maxwell架构是先前Kepler架构的升级版,采用台积电28nm工艺制程。彼时移动设备兴起,对低功耗、高性能GPU需求大增,同时需要优化GPU在不同应用场景的适应性,Maxwell架构应运而生。首款基于Maxwell架构的GPU为GM107,专为笔记本和小型(SFF)PC等功率受限的使用场合而设计,采用台积电28nm工艺制程,芯片尺寸148平方毫米,集成18.7亿个晶体管。针对流式多处理器采用全新设计称为SMM,GM107核心的每核心效能提升了35%,每瓦功耗比提升了一倍,支持DirectX 12。首款基于GM107GPU的显卡是GeForce GTX750Ti。
2016年,Pascal架构推出,用于接替上一代的Maxwell架构。基于Pascal架构的GPU使用16nm FinFET工艺、HBM2、NVLink等新技术。这是首个为了深度学习而设计的GPU,支持所有主流的深度学习计算框架。Pascal架构核心阵容强大,包括GP100(3840个CUDA Core和60组SM单元)和GP102(3584个CUDA Core和28组SM单元)两大核心。Pascal GP100具有3840个CUDA核心和732GB/s的显存带宽,但功耗只有300W,比Maxwell架构提高50%以上。
Pascal架构刚刚推出之际,深度学习正发展的如火如荼。业界出现了很多针对神经网络的专用加速器,无论在能效和面效上都碾压GPU,这让英伟达倍感压力。为了应对竞争,英伟达一反之前两年一代架构的迭代节奏,次年就推出了专门针对神经网络加速的GPU架构Volta。Volta架构引入了Tensor Core(张量核心)专门加速矩阵运算,提升深度学习计算效率;支持NVlink 2.0,提高了数据传输速度,增强了多GPU协作能力,提升系统整体性能。Volta GV100具有5120个CUDA 核心和900GB/s的带宽,加上640个张量核心,AI计算能力达到112 TFLOPS,比Pascal架构提高了近3倍。Volta的出现标志着AI成为GPU发展的新方向。
紧随其后,在一年后的2018年,英伟达发布了Turing架构,进一步增强了Tensor Core的功能。Turing架构不仅延续了对浮点运算的优化,还新增了对INT8、INT4、甚至是Binary(INT1)等整数格式的支持。这一举措不仅使大范围混合精度训练成为可能,更将GPU的性能吞吐量推向了新的高度,较Pascal GPU提升了惊人的32倍。此外,Turing架构还引入了先进的光线追踪技术,新增了Ray Tracing核心(RT Core)。Turing TU102具有4608个CUDA核心、576个张量核心和72个RT核心,支持GPU光线追踪,代表了图形技术的新突破。
2020年,Ampere架构的推出再次刷新了人们对Tensor Core的认知。Ampere架构新增了对TF32和BF16两种数据格式的支持,进一步提高了深度学习训练和推理的效率。同时,Ampere架构引入了对稀疏矩阵计算的支持,在处理深度学习等现代计算任务时,稀疏矩阵是一种常见的数据类型,其特点是矩阵中包含大量零值元素。传统的计算方法在处理这类数据时往往效率低下,而Ampere架构通过专门的稀疏矩阵计算优化,实现了对这类数据的高效处理,从而大幅提升了计算效率并降低了能耗。Ampere GA100 GPU具有6912个CUDA核心、108个张量核心和hr个RT核心,比Turing架构提高约50%。Ampere架构在人工智能、光线追踪和图形渲染等方面性能大幅跃升。
03
英伟达全面引领AI时代
2016年,黄仁勋亲手将第一台DGX-1超级计算机送给了OpenAI。而在2022年年底,OpenAI发布了ChatGPT生成式大语言模型,其惊艳的自然语言处理能力成为深度学习发展历程中划时代的里程碑。而在这波AI革命中,英伟达作为“卖铲人”,发布了H100 GPU,凭借着最新的Hopper架构,H100成为地表最强并行处理器。
H100是英伟达第九代数据中心GPU,集成了800亿个晶体管,专为大规模AI和HPC计算而生。Hopper架构标志性的变化是新一代流式多处理器的FP8张量核心(Tensor Core),这一创新进一步加速了AI训练和推理过程。值得注意的是,Hopper架构去除了RT Core,以便为深度学习计算腾出更多空间。此外,Hopper架构还引入了Transformer引擎,这使得它在处理如今广泛应用的Transformer模型时表现出色,进一步巩固了英伟达在深度学习硬件领域的领导地位。
同时,NVIDIA Grace Hopper超级芯片将NVIDIA Hopper GPU的突破性性能与NVIDIA Grace CPU的多功能性结合在一起,在单个超级芯片中与高带宽和内存一致的NVIDIA NVLink Chip-2-Chip(C2C)互连,并且支持新的NVIDIA NVLink切换系统,CPU和GPU、GPU和GPU之间通过NVLink进行连接,数据的传输速率高达900 GB/s,解决了CPU和GPU之间数据的时延问题,跨机之间通过PCIe 5.0进行连接。NVIDIA Grace Hopper超级芯片架构是高性能计算(HPC)和AI工作负载的第一个真正的异构加速平台。
2024年,英伟达推出的Blackwell架构为生成式AI带来了显著的飞跃。相较于H100 GPU,GB200超级芯片在处理LLM推理任务时,性能实现了高达30倍的惊人提升,同时在能耗方面也实现了高达25倍的优化。其中GB200超级芯片能够组合两个Blackwell GPU,并与英伟达的Grace中央处理单元配对,支持NVLink-C2C互联。Blackwell还引入了第二代Transformer引擎,增强了对FP4和FP6精度的兼容性,显著降低了模型运行时的内存占用和带宽需求。此外,还引入了第五代NVLink技术,使每个GPU的带宽从900 GB/s增加到1800 GB/s。
英伟达的GPU架构经历了一系列针对深度学习优化的重大创新和升级,每一次进步都在推动深度学习技术的边界。这些架构的发展不仅体现了英伟达在硬件设计方面的前瞻性,也为深度学习的研究和应用提供了强大的计算支持,促进了AI技术的快速发展。
值得注意的是,去年英伟达CEO黄仁勋在接受采访时表示,英伟达工程师正在开发接下来的两代产品,“将按照一年一代的节奏完成”。此前,英伟达按照平均两年一次的更新频率升级GPU架构,对产品性能进行大幅提升。
明日,英伟达会如何刷新人们的想象,令人期待。
来源:半导体产业纵横