AI需求飙升,HBM选项也不断增加

B站影视 2024-12-02 09:12 2

摘要:随着先进AI加速器、图形处理单元及高性能计算应用的蓬勃发展,所需处理的数据量正以前所未有的速度激增,这一趋势直接推动了高带宽内存(HBM)销量的急剧攀升。

(本文编译自Semiconductor Engineering)

随着先进AI加速器、图形处理单元及高性能计算应用的蓬勃发展,所需处理的数据量正以前所未有的速度激增,这一趋势直接推动了高带宽内存(HBM)销量的急剧攀升。

由于在研发和优化诸如ChatGPT等大型语言模型上投入的巨大人力与财力,HBM库存现已告急,供不应求。HBM凭借其卓越性能,成为了存储构建这些庞大模型所需海量数据的首选内存方案。然而,旨在通过增加更多层以提高密度的改进措施,以及SRAM扩展所面临的物理限制,进一步加剧了HBM供应紧张的局面。

Rambus公司高级副总裁兼硅IP业务总经理Neeraj Paliwal指出:“大语言模型(LLM)的参数规模现已突破万亿大关,并还在持续增长。克服内存带宽与容量的瓶颈,对于满足AI训练与推理过程中日益严苛的实时性能需求而言,显得至关重要。”

这一强劲的发展势头,很大程度上得益于先进封装技术的兴起。在诸多应用场景中,先进封装技术能够提供相较于传统平面系统级芯片(SoC)更短、更强且更强大的数据传输路径。在最近的财报电话会议上,ASE投资者关系负责人Ken Hsiang强调:“先进封装技术正迎来蓬勃发展期。无论是人工智能、网络技术,还是其他前沿研发领域,对我们先进互连技术及其各类形态的需求均呈现出极为旺盛的态势。”

在此背景下,HBM技术恰好契合了这一需求趋势。三星半导体副总裁兼DRAM产品规划负责人Indong Kim在近期演讲中指出:“HBM架构正迎来一场革命性的浪潮,即定制化HBM。随着AI基础设施的迅速扩张,对极致效率与横向扩展能力的需求日益迫切。我们与核心客户达成共识,认为基于HBM的AI定制化方案将是迈向这一目标的关键一步。在AI解决方案中,功耗、性能与面积(PPA)是核心考量因素,而定制化将在这些方面展现出巨大的价值。”

然而,在过去,高昂的经济成本一直是制约HBM广泛应用的重大障碍。硅中介层成本不菲,同时在前端线(FEOL)晶圆厂中处理大量硅通孔(TSV)亦是一笔不小的开支。ASE工程和技术营销高级总监Lihong Cao指出:“随着高性能计算(HPC)、人工智能及机器学习需求的激增,中介层尺寸显著增大。高成本无疑是2.5D硅中介层TSV技术面临的主要挑战。”

尽管这在一定程度上限制了HBM在大众市场的普及度,但在对成本敏感度较低的应用领域,如数据中心,其需求依然强劲。HBM所提供的带宽优势,是其他任何内存技术都难以企及的,而采用微凸块与TSV(硅通孔)技术的2.5D集成方案,已成为业界公认的标准。

客户对于性能的追求永无止境,这正是HBM制造商不断探索改进凸块结构、凸块下及成型材料的原因所在。同时,从8层到12层,再到16层的DRAM模块升级,使得数据处理速度达到了前所未有的高度。HBM3E模块的数据处理速率已高达每秒4.8TB(基于HBM3标准),并有望在HBM4上实现每秒1TB的惊人速度。HBM4实现这一飞跃的关键策略之一,便是将数据线数量从HBM3的1024条翻倍至2048条。

目前,全球仅有三家公司能够生产HBM内存模块,它们分别是美光、三星和SK海力士。尽管这三家公司都采用了硅通孔与微凸块技术,以确保DRAM堆栈与配套设备能够可靠地集成到先进封装中,但它们在实现这一目标的具体方法上却各有千秋。三星与美光在每个凸块层上都使用了非导电薄膜(NCF)与热压键合(TCB)技术,而SK海力士则继续沿用倒装芯片大规模回流工艺的模塑底部填充(MR-MUF)方案,该方案仅需一步即可将堆栈密封于高导电性模塑材料中。

HBM中的垂直连接是通过铜TSV与堆叠DRAM芯片之间的缩放微凸块来实现的,而下部缓冲器/逻辑芯片则为每个DRAM提供了数据路径。可靠性问题在很大程度上取决于回流、键合及模具背面研磨过程中的热机械应力。为了识别潜在问题,需要进行高温工作寿命(HTOL)、温度和湿度偏差(THB)以及温度循环测试。同时,还需结合预处理与无偏湿度和应力测试(uHAST),以确定各层之间的粘附水平。

此外,还需进行其他一系列测试,以确保在长期使用过程中不会出现微凸块短路、金属桥接或芯片与微凸块之间界面分层等问题。混合键合技术被视为HBM4代产品微凸块的一种潜在替代方案,但前提是必须克服良率方面的挑战。

图1:HBM堆栈可实现最大数据吞吐量。

另一项正在研发中的技术革新聚焦于3D DRAM设备,它借鉴了3D NAND的设计理念,实现了存储单元的翻转。三星的Kim先生指出:“3D DRAM堆叠技术将显著削减功耗并减小占用面积,同时有效消除中介层可能引发的性能瓶颈。通过将内存控制器从系统级芯片(SoC)迁移至基础裸片,我们能够为AI功能空出更多的逻辑空间。我们深信,定制化HBM将引领性能和效率迈向全新高度。内存与代工能力的深度融合将加速产品上市时间,并为大规模部署提供品质卓越的产品。”

图2:三星的DRAM路线图和创新。

总体趋势是倾向于将逻辑组件更靠近内存部署,旨在实现更多在内存内部或周边的数据处理,而非将数据远距离传输至一个或多个处理单元。然而,从系统设计的角度来看,这一目标的实现远比听起来更为错综复杂。

“我们正置身于一个激动人心的时代。随着人工智能的蓬勃发展,HBM已成为不可或缺的关键要素。各大内存制造商正争分夺秒,力求率先推出下一代HBM产品,”Lam Research公司先进封装技术总监CheePing Lee如是说道。

下一代产品即为HBM4,目前JEDEC正紧锣密鼓地制定这一模块的相关标准。与此同时,JEDEC还将HBM3E标准的最大内存模块厚度从720微米扩展至775微米,这一调整依然能够容纳40µm厚的芯片。HBM标准详细规定了每针传输速率、每堆栈最大芯片数量、最大封装容量(以GB为单位)以及带宽等关键参数。遵循此类标准,能够极大地简化设计与流程,从而加速HBM产品的市场化进程——目前每两年即有一次更新换代。即将出台的HBM4标准将定义24Gb和32Gb层,以及4层、8层、12层和16层高TSV堆栈。

HBM的演变

高带宽存储器的研发历程可追溯至2008年,彼时是为了应对计算存储器领域日益严峻的功耗增长与空间占用的挑战。据三星的Sungmock Ha及其团队所述,“在当时的技术背景下,GDDR5作为具有高带宽的DRAM,其带宽被限定在28GB/s(即7Gbps/引脚乘以32个输入/输出端口)”。然而,技术的车轮滚滚向前,HBM Gen2的诞生标志着一次重大飞跃,它通过不降低频率至2.4Gbps,反而将I/O端口数量增至1,024个,成功实现了307.2GB/s的带宽突破。

随后,随着HBM2E的推出,采用了先进的17纳米高k金属栅极技术,进一步将每引脚的传输速率提升至3.6Gbps,带宽也随之跃升至460.8GB/s的新高度。现在,HBM3再次引领革新,引入了前所未有的每引脚6.4Gbps的传输速率,并辅以8至12个芯片的堆叠设计,相较于上一代,带宽性能实现了约两倍的增长。

但这仅仅是HBM技术持续演进故事的一个章节。HBM始终致力于优化性能,不断拓宽其应用场景与处理能力,为多元化的计算需求开辟了广阔的道路。

大规模回流焊技术是当前最为成熟且最具成本效益的焊接解决方案。“鉴于安装所需的巨额资本支出与相对较低的成本比,只要条件允许,大规模回流焊几乎总是被优先考虑,”Amkor公司工程与技术营销副总裁Curtis Zwenger强调道。“该技术持续提供一种经济实惠且高效的方式,用于将芯片与高端模块连接到封装基板上。然而,随着性能要求的不断提升,以及异构集成模块与高级基板解决方案空间的日益扩大,一个直接的后果便是异构集成模块与基板的翘曲程度加剧。为了应对这一挑战,热压技术和R-LAB(反向激光辅助键合)作为传统大规模回流焊的工艺升级,展现出了在处理更高程度翘曲方面的卓越能力,无论是在异构集成模块层面还是在封装层面。”

微凸块金属化技术经过精心优化,旨在进一步提升其可靠性。若微凸块与焊盘之间的连接采用传统的回流工艺,并辅以助焊剂和底部填充材料,这在细间距应用中尤为常见,但底部填充空洞的捕获以及助焊剂残留物可能会成为凸块间夹层形成的诱因。为了有效规避这些问题,预涂非导电膜(NCF)技术应运而生,它能够在一步键合工艺中同时替代助焊剂、底部填充及键合步骤,从而彻底消除了底部填充空洞捕获与助焊剂残留物的隐患。

三星在其12层HBM3E产品中创新性地运用了热压粘合技术,采用了薄型非导电膜(NCF),据官方宣称,其高度规格与8层堆栈不相上下,却实现了高达1,280GB/s的带宽与36GB的惊人容量。NCF主要由环氧树脂构成,并融入了固化剂及其他功能性添加剂。这一技术有望在高堆叠情况下发挥更大的优势,特别是在当前业界正积极寻求解决方案以缓解芯片变薄所带来的翘曲问题时。三星在每一代产品的迭代中,都会精细调整NCF材料的厚度,其关键在于确保凸块周围底部填充区域的完全填充(为凸块提供必要的缓冲),同时促进焊料的流畅流动,避免任何空隙的产生。

SK海力士则在其HBM2E系列中首次从NCF-TCB转向了大规模回流模塑底部填充技术。这种导电模具材料是与材料供应商携手研发的,可能采用了独特的注射工艺。凭借这一技术,SK海力士通过其大规模回流工艺展示了出色的晶体管结温控制。

在HBM中,DRAM堆栈被巧妙地安置在缓冲芯片之上。随着各大厂商致力于在基础芯片上集成更多逻辑功能以降低功耗,同时确保每个DRAM核心与处理器的有效连接,缓冲芯片的功能日益丰富。整个制造流程包括将每个芯片精准地拾取并放置在载体晶圆上,随后进行焊料回流,形成最终的堆栈结构。经过背面研磨、清洁及切割等精细工序后,产品得以完成。值得一提的是,台积电与SK海力士已宣布,该代工厂将为内存制造商提供这一关键的基础芯片。

新思科技研发总监Sutirtha Kabir指出:“逻辑存储器始终是人们关注的焦点。尽管这一领域的研究历史悠久,但未来依然充满可能。然而,每种解决方案都不可避免地会遇到功耗与热的双重挑战,这两者紧密相关,互为影响。特别是热应力,它不仅仅局限于组装层级,而是会对整个系统产生直接影响。考虑到可能会采用混合键合或极细间距键合技术,热问题对机械应力的具体影响更是值得深入探讨。”

此外,基础逻辑产生的热量还会在逻辑芯片与DRAM芯片之间的接口处诱发热机械应力。鉴于HBM模块通常紧邻处理器布置,逻辑芯片产生的热量无可避免地会传导至内存模块。“我们的数据揭示了一个现象:当主机芯片温度升高2°C时,HBM端的温度将至少攀升5°C-10°C,”SK海力士高级技术经理Younsoo Kim补充道。

NCF TCB工艺同样面临着其他挑战。在高温高压条件下进行的热压键合,可能会引发2.5D组装中的一系列问题,如凸块与底层镍垫之间的金属桥接或界面分层。而且,TCB工艺本身的产量相对较低。

对于任何形式的多芯片堆叠而言,翘曲问题往往与表面材料的膨胀系数(TCE)不匹配息息相关,这种不匹配会在加工和使用过程中的温度循环中产生应力。应力通常集中在几个关键部位,包括基础裸片与第一个内存芯片之间,以及微凸块层级。虽然通过产品仿真模型可以在一定程度上解决这些问题,但有时问题产生的全面影响只有在实际产品中才能得到充分展现。

结语

AI应用的顺畅运行高度依赖于多个DRAM芯片、穿透硅通孔(TSV)、集成了基本逻辑功能(可能包含内存驱动器)的芯片,以及多达100个去耦电容器的精确组装与封装。与图形处理器、CPU或其他类型处理器的结合,是一项精密策划的组装工程,要求所有组件必须无缝协作,以确保系统的高产出与可靠性。

随着行业从HBM3向HBM4的迈进,制造高性能DRAM堆栈的工艺无疑将变得更加错综复杂。然而,供应商与芯片制造商并未止步,他们正积极探寻成本效益更高的替代方案,旨在进一步扩大这些高速且不可或缺的内存芯片堆栈的市场应用。

来源:王树一一点号

相关推荐