摘要:虽然三星的 HBM4 还没有通过英伟达的验证,但就在上周五(9 月 19 日),三星的 12 层 HBM3E 终于通过了英伟达的测试认证,也意味着即将成为英伟达 GPU 的 HBM 供应商之一。
虽然三星的 HBM4 还没有通过英伟达的验证,但就在上周五(9 月 19 日),三星的 12 层 HBM3E 终于通过了英伟达的测试认证,也意味着即将成为英伟达 GPU 的 HBM 供应商之一。
一石激起千层浪。
AI 的火热不只是让人们争相讨论大模型和算力芯片,也彻底点燃了对内存的需求。过去几年,HBM(高带宽内存)成为了这场浪潮里最受追捧的「隐形明星」。没有它,就没有英伟达 A100、H200 以及其他 AI 芯片的爆火,也也不会有无数大模型在短时间内跑出来并且迅速迭代。
正因如此,HBM 供不应求,几乎成了半导体行业的「硬通货」,也让 HBM 主要厂商 SK 海力士一举超越三星,成为全球最大存储芯片制造商。
收入榜,图片来源:TrendForce
但问题随之而来,HBM 的速度没问题,带宽够快,延迟够低,可容量依然有限,成本居高不下。AI 模型越大,对内存的胃口越夸张,单靠 HBM 很难满足未来几年全球 AI 推理的庞大需求。尤其以 DeepSeek 为开端,MoE 模型(专家混合模型)减小了对算力的要求,内存墙的问题变得更加突出。
而在本月早些时候,被称为「HBM 之父」的韩国科学与技术研究院教授金正浩表示,未来决定内存行业胜负的将会是 HBF(High Bandwidth Flash,高带宽闪存)。
这并非空穴来风。作为 HBM 的最大玩家,SK 海力士已经和闪存领域的代表闪迪走到了一起,公开宣布联合开发 HBF 技术,并推动行业标准化。但 HBF 到底是什么?当 HBM 不再够用,HBF 能否成为下一个接力棒?
在解释 HBF 之前,先得把 HBM 摆在桌面上。HBM,全称高带宽内存,可以理解为「GPU 专用的豪华内存」。它的特点是把多层 DRAM 芯片像「积木」一样堆叠在一起,然后通过超宽的接口直接连到 GPU 上。这样一来,数据进出的通道变宽了,传输速度自然暴涨。比如英伟达 H200 搭载的 HBM3e,单卡内存带宽达到 4.8 TB/s,比普通 DDR 内存快几十倍。
问题在于,HBM 像跑车一样速度惊人,但油箱太小。它的容量往往停留在几十 GB 级别,即便 SK 海力士即将量产的 HBM4 单壳最高也只能做到 36GB(未来可达 64GB),而大模型的参数动辄上千亿。更现实的问题是,HBM 的成本极高,良率低、产能有限,直接导致一块 GPU 动辄数万美元,成为 AI 行业的瓶颈。
HBF(高带宽闪存)正是在这种背景下备受关注。简单理解,HBF 就是把 NAND 闪存堆叠起来,用类似 HBM 的封装方式,让它既能像内存一样高速读数据,又能像硬盘一样存更多内容。它的目标并不是完全取代 HBM,而是作为「容量补位」:
HBM 继续承担最关键、延迟最敏感的工作,而 HBF 则用来装下超大模型的权重、KV Cache 等「吃容量」的部分。
HBF 结构图,图片来源:闪迪
换句话说,HBM 是短跑冠军,HBF 是长途卡车,两者搭配,才能既快又大。这也是「HBM 之父」看好 HBF 的核心理由。
韩国科学技术院(KAIST)教授金正浩,被誉为「HBM 之父」,他正是当年提出把内存芯片竖着堆叠的关键人物。在 9 月初的演讲中,他认为内存行业未来的胜负手将会是 HBF,逻辑并不复杂,AI 的趋势已经从算力中心转向内存为中心,算力的增长再快,如果数据塞不进去、模型放不下,都会卡住脖子。
而 HBF 刚好能补上 HBM 的容量短板,让系统既保持高带宽,又能拥有更大的可用空间和更低的成本。
这番话并不只是他的个人看法。在 8 月举行的 FMS 未来存储峰会上,闪迪透露了近两年开发的 HBF,并且宣布与 SK 海力士推动 HBF 的技术标准化。SK 海力士的优势在于封装和堆叠工艺——这正是 HBM 成功的关键;闪迪则是 NAND 闪存领域的长期玩家,拥有独特的直键合工艺。
更关键的是,HBF 在设计之初就针对 AI 推理的特点:读多写少、批量顺序访问。AI 模型在推理时,几乎不改动权重,主要是高速读取;这让 NAND 的「写入短板」不再是致命问题,而它的高密度、低成本、稳定性则被发挥到极致。
不断拉长的上下文长度,也在吞噬存储,图片来源:闪迪
因此,金正浩的判断、SK 海力士的布局、闪迪的押注,其实都在指向一个共同逻辑:AI 的未来需要的不仅仅是更快的存储,还需要更大的存储池。HBM 已经把速度推到极致,但如果没有 HBF,AI 的发展迟早会撞上天花板。
从这个角度看,HBF 不仅是一个新技术点,更可能是整个 AI 硬件架构变革的核心动力。
HBF 的落地并不是遥不可及的未来。按照闪迪和 SK 海力士的路线规划,2026 年下半年就会有首批 HBF 样品出现,2027 年初预计会有搭载 HBF 的 AI 推理设备面世。这意味着,它最快会在两年内走出实验室,成为真实的硬件产品。
那么,这些首批设备会是什么?最有可能的,是 GPU 厂商和服务器厂商率先尝鲜。以英伟达 H200 为例,是全球首款使用业内最先进 HBM3e 显存的 GPU,配备了 141 GB 的 HBM3e,成本极高。而 HBF 就像是为 GPU 接上了一个「外挂油箱」,不仅能让更多模型一次性装进来,还能大幅减少频繁从 SSD 调数据的延迟。
但 HBF 的意义并不止于数据中心。在边缘设备和个人计算领域,它同样可能带来巨大的改变。
今天我们看到 AI PC、AI 手机都在强调设备端运行大模型,可现实是,终端设备的内存远远不够支撑上百亿参数的模型。HBF 如果能以小型化模组、甚至与处理器一体封装的方式进入终端,就有机会让用户在本地调用更大的 AI 模型,带来更流畅的语音助手、更聪明的生产力工具,甚至真正可离线运行的 AI 应用。
更重要的是,HBF 的成本和功耗优势,使它天然适合在终端场景扩展。HBM 成本高昂、功耗居高不下,而 HBF 基于 NAND 闪存,密度更高,单位容量价格更低。对于笔记本电脑、智能手机甚至 XR 设备来说,如何在有限的空间和电池里提供更强的 AI 能力?HBF 给出了一个现实的答案:
在云端,它缓解 GPU 内存瓶颈,让超大模型能够跑得更高效;在终端,它可能成为 AI 普及化的关键一步。
当然,短期内我们还很难看到 HBF 落地在边缘终端或者个人计算平台上,但通过 AI 数据中心的大规模更新,HBF 仍然会在未来几年改变 AI 的推理,进而改变我们的 AI 体验。
从 HBM 的爆发,到 HBF 的登场,我们其实看到的是同一个趋势:AI 已经把内存和存储推到了舞台中央。没有 HBM,就没有今天的算力繁荣;而如果没有更大、更便宜、更低功耗的存储介质,AI 的未来也可能被「卡脖子」。
HBF 之所以值得期待,不是因为它要全面取代 HBM,而是它补上了一个关键缺口——容量。它让 GPU 不再像背着小油箱的跑车那样捉襟见肘,也给未来的 AI PC、边缘计算带来了想象空间。当速度与容量形成合力,AI 的运行方式很可能会被彻底改写。
但问题也随之而来:
- HBF 真能像 HBM 一样,从技术概念变成行业标配吗?
- 在数据中心率先落地之后,它能否顺利走向个人计算终端?
- 当存储不再是瓶颈时,下一个掣肘 AI 的环节,又会是什么?
这些问题的答案,或许要等到 2027 年 HBF 首批设备面世后才能揭晓。但可以肯定的是,定义 AI 的边界,不只是算力,还在于储存。而这场比赛,才刚刚开始。
来源:雷科技一点号