摘要:高性能计算历经近二十年,数百万人付出了巨大的努力,才得以在 GenAI 的帮助下走向主流。如今,我们生活在一个挤满加速器的 AI 服务器占据了全球系统支出的一半的世界。
来源 :内容 编译自 nextplatform 。
高性能计算历经近二十年,数百万人付出了巨大的努力,才得以在 GenAI 的帮助下走向主流。如今,我们生活在一个挤满加速器的 AI 服务器占据了全球系统支出的一半的世界。
没有任何法律规定加速器必须是 GPU,尽管 GPU 一直是首选加速器,因为 GPU 与 CPU 一样,都是通用处理器,专门设计用于支持各种工作负载,其中高吞吐量矢量处理以及 GenAI 和一些经过改变的传统 HPC 模拟、张量处理都受到高度重视。
除了 GPU 之外,还有其他东西可以加速 HPC 和 AI 应用程序,而 Pezy Computing KK(其名称本身就是peta、exa、zetta和yotta的缩写,就像是 HPC 和 AI 球迷的某种足球口号的一部分)花了十五年时间创建可以完成与 GPU 相同工作类型的数学加速器,但采用不同的架构,旨在将能源效率发挥到极致。对于一家由日本新能源和工业技术发展组织 (NEDO) 资助的公司来说,这正是您所期望的,该组织还资助了富士通设计的“Monaka”Arm 服务器 CPU的开发,该 CPU 将用于“FugakuNext”超级计算机。
令人惊奇的是,为什么 FugakuNext 没有至少将其部分计算能力来自 Pezy SC 加速器……也许在 2029 年左右安装 FugakuNext 时会这样。
Pezy Computing 硬件工程师 Naoya Hatta 展示了自 2012 年 4 月推出 Pezy-1 芯片以来,历经两年研发推出的最新数字运算加速器系列产品。以下是 Hatta 在 Hot Chips 2025 大会上展示的表格:
以下是扩展表,其中包含更多特征和我们的分析:
Pezy-1 芯片(未在 Hatta 的上表中显示)拥有 512 个用于计算和图像处理的 RISC 核心和两个小型 Arm 核心,全部采用台湾半导体制造公司的 40 纳米工艺蚀刻而成。其运行频率为 533 MHz,双精度额定值为 266 千兆次浮点运算(浮点格式),单精度额定值为 533 千兆次浮点运算。
2013 年,SC 系列(超级计算机的缩写)加速器首次亮相,并在 2014 年用于多台超级计算机,这些超级计算机进入了 Top500 和 Green500 超级计算机排行榜。在第一款 SC 变体中,RISC 核心被赋予了同时多线程的能力,每个核心有 8 个线程,这意味着它以 733 MHz 运行的 1,024 个核心可以为应用程序提供总共 8,192 个线程。这款芯片采用台积电 28 纳米工艺蚀刻,在 FP64 下可以驱动 750 千兆次浮点运算,在 FP32 精度下可以驱动 1.5 万亿次浮点运算。执行计算的 RISC 核心称为处理器元件或 PE,具有 2 KB 缓存 – 每个 PE 两个用于指令,一个用于数据,这些核心总共具有 2 MB 的 L2 指令缓存和 1 MB 的 L2 数据缓存。每个 PE 还具有一个 16 KB 的暂存器,整个芯片的内存总计为 16 MB。
在 Pezy-SC 设计中,PE 被组织成四个区块,称为“村庄”,四个“村庄”聚合成“城市”,这些城市共享二级数据和指令缓存;十六个城市(或 256 个 PE)聚合成“辖区”,每个辖区的中心共享 2 MB 三级缓存。Pezy-SC 拥有四个 DDR4 内存通道和两个 PCI-Express 3.0 x8 端口,峰值功耗为 100 瓦。
随着 2017 年上市的 Pezy-SC2 设计,L3 缓存在整个处理器组合中共享,大小达到 40 MB,显著提升了性能。此外,构成 PE 的 RISC 核心也添加了 FP16 半精度数学运算,组合中的 PE 数量增加了一倍,时钟速度提升了 36.4%,达到 1 GHz。这些因素的综合作用使 FP64 和 FP32 格式的浮点吞吐量提升了 5.5 倍。
2020 年,随着 Pezy-SC3 的推出,PE 数量再次翻倍,时钟速度提升了 20%,达到 1.2 GHz,芯片组还增加了 HBM2 显存,所有这些加起来将浮点吞吐量提升了 4.8 倍。2021 年,SC3 的精简版 SC3s 面世,它只有 512 个核心,可能是为了测试如何制造更小的、仅使用 HBM2 显存的芯片,并将它们组合起来,以降低基于 Pezy 浮点引擎的服务器节点的成本。(关于 SC3s 芯片的消息不多。)
Pezy-SC4s 于上周在 Hot Chips 上亮相,并将于明年在 ExaScaler 系统中上市,Pezy Computing 将采用台积电 5 纳米工艺,并将核心数量提升至 2,048 个,时钟速度提升至 1.5 GHz。
SC4s 芯片还将配备 96 GB HBM3 显存,带宽为 3.2 TB/秒。根据我们上面表格中的规格,这款芯片的面积将减少 29.3%,但单个设备将容纳 48 亿个逻辑门,比 Pezy-SC3 芯片提升 45.5%。主频也提升了 25%,但我们估计,主频和大幅提升的 64 MB 三级缓存将使 DRAM 功耗高达 600 瓦。这意味着功耗提升了 27.7%,而浮点吞吐量提升了 24.9%,这在我们看来似乎是公平的。SC4s 还增加了对 BF16 处理的支持,以及 SC3 和 SC3s 芯片支持的 FP64、FP32 和 FP16 处理。
Pezy Computing 的设计非常精巧,正如我们将在下面的图表中展示的那样,过去曾包含一些强大的 MIPS 内核,现在 SC4s 芯片中又加入了 RISC-V 内核,这意味着不再需要英特尔或 AMD 的主机 X86 处理器来运行 Linux 操作系统,从而运行主机软件并管理 PE 上的计算。这些加速器是独立的,就像日本旗舰 HPC 中心 RIKEN 实验室的 K 和 Fugaku 超级计算机中使用的 Sparc 和 Arm 处理器一样。
既然如此,我们先来看看 SC4 的芯片组合,然后再思考一下未来的 SC5 会是什么样子,以及日本为何要费心研发这些芯片。(理由很充分。)
Pezy 计算架构基于多指令多数据 (MIMD) 架构的变体,称为单程序多数据 (SPMD):
用通俗的话说,MIMD 是真正的并行编程,在确定并行性的性质方面具有最大的灵活性。SIMT(例如在 GPU 或共享内存池中的多个 GPU 中进行编程时使用的 SIMT)会组织线程以同步的方式对不同数据并行执行操作,从而提高效率,但降低了灵活性。
Pezy Computing 采用 SPMD 方法及其细粒度多线程技术,线程和数据由程序明确调度,因此无需使用分支预测器和乱序指令执行来提升并行性和计算效率。这意味着核心更简单,因此您可以将更多核心塞进一块硅片上。线程成对出现,当另一个线程因等待内存数据而停滞时,另一个线程可以接管处理,从而隐藏延迟。(但可以说,没有什么比拥有数万个核心的 GPU 更能做到这一点了。)
Pezy 架构同时支持细粒度和粗粒度多线程,每个 PE 有 8 个线程,并致力于在 PE 内部和跨 PE 的计算能力、内存容量和内存带宽之间实现更均衡的平衡。缓存层次结构是让这些 PE 保持繁忙的秘诀之一:
下面我们来看一下在Hot Chips上首次亮相的Pezy-SC4s芯片:
上图设计中的 2,048 个 PE 以黄色显示,它们可以承载 16,384 个线程。SC4s 芯片中的 PE 具有 4 KB 的 L1 指令缓存、4 KB 的 L1 数据缓存和 24 KB 的暂存器缓存,这比过去的设计要精简得多。PE 的组织方式如下:
与之前的 Pezy Computing 芯片一样,四个 PE 连接成一个“村落”,允许它们共享各自的暂存器缓存。一个城市由四个“村落”组成,共享 32 KB 的 L2 指令缓存和 64 KB 的 L2 数据缓存。十八个城市连接成一个“县”,但只有其中十六个城市被激活,以提高 5 纳米工艺的良率。八个“县”连接成一个“州”,共享 64 MB 的 L3 缓存。
为什么我们现在要讨论国家?因为我们认为,在台积电采用 3 纳米制程工艺后,Pezy-SC5s 芯片将在单个插槽中集成两个芯片组(或称国家)。(这么说来,一个插槽就等于一个国家了?)
这些 PE 及其缓存通过自定义交叉总线相互连接,该总线对于读取操作具有 12 TB/秒的总带宽,对于写入操作具有 6 TB/秒的总带宽。
无论如何,在芯片底部,小到几乎看不到矩形,是一个IP块,它包含四个“Rocket”开源RISC-V CPU核心,运行频率为1.5 GHz,可进行有序标量处理,并为每个SC4加速器运行Linux主机操作系统。RISC V核心旁边还有一个PCI-Express 5.0控制器,该控制器具有16个I/O通道,带宽为64 GB/秒。
看起来 X86 主机又回来了。原因可能是与 SC4 上嵌入的 RISC-V 内核相比,X86 平台上的 AI 和 HPC 软件更加普及。
这是 Pezy Computing 为 SC4s 加速器创建的当前系统板:
主机采用 AMD 的 64 核“Turin” Epyc 9555P 处理器,卡顶部配备 400 Gb/秒 NDR InfiniBand 控制器,底部配备四个 SC4 加速器,并通过 PCI-Express 通道(可能还会通过 PCI-Express 交换机)连接到主机。Pezy Computing 表示,他们计划构建一个包含 90 个此类节点的测试系统,总计 737,280 个 PE,峰值 FP64 性能可达 8.6 petaflops。
当然,Pezy Computing 必须创建自己的软件堆栈。它看起来如下:
这也是 Pezy 计算平台的 AI 堆栈:
多年来,我们一直认为运行 PyTorch 框架足以胜任许多 AI 工作,Pezy Computing 似乎也认同这一点。(我们当然对 Meta Platforms Llama 模型抱有更高的期望,但不如马克·扎克伯格和他的 AI 团队那么乐观……不过,现在还不能排除扎克伯格的潜力。)到目前为止,谷歌 Gemma3 和 Meta Llama3 模型已经移植到 SC4 上,阿里巴巴 Qwen2、Stable Diffusion 2 和 Hugging Face HuBert 也已移植到 SC4 上。
我们希望在明年 SC4 上市时,能够看到其更出色的实际性能。Hatta 在演示中表示,使用 GATK(基因组分析工具包)进行基因组分析时,四块 Pezy-SC3 芯片每个样本的运行时间为 33 分钟,而英伟达的八块“Hopper”H100 GPU 每个样本的运行时间为 37 分钟。这意味着每块 SC3 的性能是 H100 的 2.25 倍。SC4 的浮点运算能力比 SC3 高出约 25%,因此我们推测 SC4 在 GATK 上的性能大约是 H100 的 2.8 倍。目前尚不清楚 GATK 对 FP64 的依赖程度,但 H100 在 FP64 上的表现远超英伟达的“Blackwell”B100 和 B300 GPU。
高性能计算中心和 AI 模型构建者最终关心的是每瓦浮点运算能力 (Flops per watt)。如上表所示,Pezy Computing 在提升每瓦浮点运算能力方面取得了进展,但随着计算能力的不断提升,该公司似乎将努力控制这一指标的微弱增长。SC3 在 FP64 精度下实现了每瓦 41.9 千兆浮点运算能力,而 SC4 的每瓦浮点运算能力预计约为 41 千兆浮点运算能力。如果 SC5 的表现符合我们的预期——本质上是 SC4 的双 chiplet 版本,并添加了 FP8 计算能力——那么在 FP64 计算能力下,其每瓦浮点运算能力将达到约 45.8 千兆浮点运算能力。(将交叉开关互连扩展到两个 chiplet 并不难。)
Hopper H200 在 FP64 下的性能为每瓦 47.9 千兆浮点运算(33.5 万亿次浮点运算/700 瓦),而 Blackwell B200 的额定性能为每瓦 33.3 千兆浮点运算(40 万亿次浮点运算/1200 瓦)。Blackwell B300 的 FP64 性能严重不足,仅为每秒 1.25 万亿次浮点运算,功耗为 1400 瓦,即每瓦 0.89 千兆浮点运算。(B300 的主要目标应用是低精度 AI 推理。)
显然,Pezy 在高精度每瓦浮点运算能力方面可以与 Nvidia GPU 相媲美,并且能够为非 AI 工作负载提供更灵活的编程。诚然,GPU 中的张量核心在 FP64 和 FP32 精度下可以处理两倍的浮点运算,但在 AI 训练(FP8)和推理(FP4)方面则只能提供低得多的精度。
但日本政府可以通过资助该项目,将Pezy Computing作为一项保障,并保留其在数学加速器设计方面的技能。我们认为这正是Pezy-SC5及其后续产品问世的原因。因为你永远不知道什么时候会因为需求过高或出口受限而无法获得GPU。
我们完全清楚,2029 年即将投入日本理化学研究所的 FugakuNext 系统,其大部分浮点运算能力将来自未来的 Nvidia GPU。但我们仍然认为,现在有足够的时间和资金来安装多个 Pezy 加速器机架。何乐而不为呢?
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4147期内容,欢迎关注。
★
★
★
★
★
★
★
★
来源:半导体行业观察一点号