NAND和DRAM,技术发展展望

B站影视 2025-01-30 15:22 2

摘要:NAND 单元架构于 1987 年提出。单元(cell)在接触插头(contact plugs)之间串联,以显著减少面积。1988 年,开发了基本工作原理,将 Fowler-Nordheim (FN) 隧道技术用于编程和擦除。与热载波编程相比,这实现了低功耗运

编者按在IEDM 2024上,SK海力士和美光就DRAM和NAND的未来发展分享了他们的各自观点,在本篇文章中,我们综合了两家的观点,以飨读者。

NAND 闪存创新与未来扩展

NAND 单元架构于 1987 年提出。单元(cell)在接触插头(contact plugs)之间串联,以显著减少面积。1988 年,开发了基本工作原理,将 Fowler-Nordheim (FN) 隧道技术用于编程和擦除。与热载波编程相比,这实现了低功耗运行,为大规模并行操作铺平了道路。此后,NAND 闪存技术在 2D NAND 的基础上成功扩展,直至 2015 年左右。3D NAND 技术于 2007 年问世,至今已成为主流技术。图 1 显示了 1987~1988 年首个 NAND 技术与 2024 年最新 NAND 技术的快照对比。随着大量创新成果的积累,NAND 技术的单位比特密度已经提高了 100 多万倍。本文根据在 IEDM 和其他相关会议上发表的文章,回顾了 NAND 成功扩展的关键技术特征和里程碑。讨论将延伸到未来的 NAND 扩展模式。

12D NAND

第一个 2D NAND 的特征尺寸为 1µm。约 25 年后,2D NAND 的特征尺寸缩小到约 15 纳米(图 2)。第一个重要的扩展范例是自对齐浅沟隔离(SA-STI),它将 STI 技术引入了 NAND 阵列,并具有出色的可靠性。在 50nm 节点引入了间距倍增技术(在 20nm 节点以下发展为间距四倍增),以实现超出光刻能力的单元图案化。在位线(BL)、字线(WL)和有源区引入了气隙结构,以减少互连电容和/或单元间干扰。作为一种可选的扩展途径,在 20nm 工艺中引入了平面浮栅 (FG:floaTiNg gate ) 单元。

二维 NAND 单元在 ~15 纳米技术节点达到了扩展极限。这是因为:(1) 编程噪声和随机电报噪声等少数电子效应;(2) 单元间干扰降低了阈值电压 (Vth) 的放置能力。此外,WL 与有源区之间电场的增加也限制了程序抑制能力。

23D NAND简介

目前形式的 3D NAND 概念发布于 2007 年。2014 年推出的 3D NAND 芯片有 24 层。图 3 显示了 NAND 的扩展趋势,包括从 2D NAND 到 3D NAND 的过渡。在 3D NAND 中,NAND 字符串垂直排列,通过堆叠 WL 层实现扩展,而不是像 2D NAND 那样缩小单元尺寸。2007~2015 年间,3D NAND 在工艺流程、单元器件和阵列架构等方面的许多关键技术特征都得到了体现(表 I)。

A. 工艺集成特征3D NAND 架构如图 4 所示。3D NAND 工艺的主要特点是采用 “打孔插拔 ”(punch and plug)流程。首先堆叠 WL 并形成支柱孔,然后形成单元薄膜和沟道多晶硅(poly-Si)。与之前提出的其他 3D NAND 工艺不同,单元堆叠不需要重复工艺步骤。WL 触点是通过形成阶梯来制作的,因此光刻步骤不会随着 WL 堆叠的增加而线性增加。这些工艺集成特性最大限度地减少了工艺步骤,实现了 3D NAND 的位成本缩放。

B. 单元(cell)器件特征在 3D NAND 中,有人提出了 FG 单元和电荷阱(charge trap)单元。电荷陷阱单元目前得到了广泛应用。BE-TANOS(带状工程 TaN/AlO/SiN/氧化物/硅)单元技术是实现良好擦除和保持特性的关键因素之一(图 5)。在 BE-TANOS 中,隧道电介质是带状工程(BE)的。高 K 值/金属栅极用于减少来自控制栅极的无用电子注入。BE-TANOS 技术最初用于研究 2D NAND,后来被引入 3D NAND。

由于改善了栅极与沟道耦合的静电效应,GAA(Gate-All-Around)单元结构有助于改善单元特性(图 3)。GAA 通过屏蔽单元减少了单元间的干扰。3D NAND 沟道中使用的多晶硅存在界面缺陷和陷阱,会降低 Vth 变化。为了实现窄 Vth 分布和改善阈下特性,我们引入了薄多晶硅沟道(图 6。

C. 阵列结构特点钨金属用于 WL,以降低 WL 电阻率并实现 BE-TANOS 单元(图 7)。为了实现金属 WL 架构,有人提出了替换栅极流。

为了减小芯片尺寸,发明了 CMOS 下阵列(CuA)架构(图 8)。CuA 还通过在阵列下放置更多的页面缓冲电路来提高并行性,从而改善了程序和读取性能 。

在 3D NAND 中,单元的主体与硅基板脱钩,称为 “浮体”。GIDL-erase 用于提供正偏压体所需的孔。为了提高布局效率,该模块架构也在不断发展。此外,还提出了带有双向 WL 驱动器的半 WL 结构,以提高 WL-RC 性能(图 9)。

33D NAND 未来的扩展

三维 NAND 的规模已达到约 300 层堆叠,平均比特密度接近 30 Gb/mm2。随着单元堆叠的不断增加,工艺集成和成本扩展的挑战也随之增加。因此,我们需要颠覆性的扩展途径。A. 逻辑扩展和物理扩展在层堆叠之外,还有两种单元扩展途径。逻辑扩展和物理扩展。逻辑扩展是指增加每个单元的比特数。3D NAND 在生产中已经实现了每单元 4 位。迄今为止,最先进的每单元比特数扩展技术是在 77K 低温条件下使用外延硅通道实现每单元 7 比特(图 10)。逻辑扩展的挑战在于性能和可靠性的下降,这可能导致总拥有成本的增加。

物理扩展涉及改变单元结构,这与 GAA 不同(图 11)。我们研究了分裂单元结构(半圆柱形单元)和平面单元结构。在这两种结构中,由于缺乏单元屏蔽,单元与单元之间的干扰都会增加。此外,由于物理单元尺寸较小,少数电子效应变得更加明显。因此必须对单元尺寸进行优化,以保持良好的单元特性。

B.性能扩展

性能扩展有两个方面。一个是接口 I/O 性能,另一个是阵列程序/读取带宽。多年来,I/O 性能不断提高,反映了主机总线速度的提高。CMOS 特性是实现快速接口的关键。本文研究了晶圆堆叠方案。在这种方案中,CMOS 和单元阵列在两个独立的晶圆中处理,然后在器件形成后粘合在一起(图 12)。这样,CMOS 器件就不会暴露在单元阵列的高温工艺中,从而实现了快速性能。

C. 人工智能中的 NAND生成式人工智能正在计算领域崭露头角。NAND 存储在人工智能应用中发挥着至关重要的作用。图 13 展示了 NAND 在云和边缘人工智能工作负载中的作用。随着数据规模和模型规模的快速增长,NAND 存储的高密度、低功耗和快速运行将变得至关重要。

10nm以后的DRAM设计

近来,动态随机存取存储器(DRAM)产品在各类计算应用中得到了广泛采用。人工智能、云计算和大数据系统对更高密度和更优性能的需求日益增长。随着人工智能模型在语言模型和训练数据集方面规模的不断扩大,DRAM 的持续扩展和成本降低对于满足行业需求至关重要。然而,近年来,DRAM 的扩展在所有领域都面临诸多挑战,包括晶体管、电容器、金属层和接触点。尽管字线间距(WL pitch)和位线间距(BL pitch)尺寸缩小了 90%,单元电容也减少了 90%,但 DRAM 的关键特性至今仍得以保持。通过在工艺和材料方面的持续创新,DRAM 的扩展已成功推进至早期 10 纳米节点。此外,从设计角度来看,人们已尝试了多种方法来缓解技术缩放的困难。在本文中,我们将介绍过去 25 年来使 10 纳米 DRAM 成为可能的创新,并探讨什么将推动 10 纳米以下 DRAM 的发展,重点关注工艺、器件和设计。

1DRAM单元晶体管的历史

20 世纪 90 年代末,已证实动态随机存取存储器(DRAM)的数据保持特性由单元晶体管漏电流的尾部特性决定,而这些特性主要受栅极诱导漏极泄漏(GIDL)的影响。因此,单元晶体管的工程设计重点在于降低 GIDL 电流。然而,在大约 100 纳米技术节点时,由于短沟道效应和高电场(E 场),平面单元晶体管中控制 GIDL 变得极为困难。这一难题促使人们探索并开发了三维单元晶体管,如图 14 所示。

图14:单元晶体管技术趋势

A.RCAT 和鞍鳍(Saddle-Fin)晶体管

图 15(a)中的凹槽沟道阵列晶体管(RCAT)在确保数据保持时间方面比平面晶体管具有显著优势,这是由于其沟道长度增大以及沟道掺杂水平较低。针对 RCAT 深度对沟道进行离子注入,从而可将结与沟道之间的电场最小化[3]。然而,由于 RCAT 底部的曲率,来自栅极的电场被分散,这削弱了栅极的控制能力。这导致了 DIBL 和体效应的增加,如图 15(b)所示,最终导致了数据写入定时裕量(tWR)的失效。

图15:(a) RCAT TEM截面和(b) RCAT底部半径与DIBL的关系

随着技术的不断进步,RCAT 的曲率急剧增加,这就需要新的解决方案来应对这一问题。高曲率问题可以通过图 16 所示的球形 RCAT(S-RCAT)来解决。在 RCAT 侧壁形成薄氧化物间隔物后,通过各向同性干法刻蚀工艺制成球形部分。尽管它能够保持适度的曲率,但不可避免地会出现空洞,而且球体之间的间距迅速减小,从而阻碍了其进一步的应用。

图16:球体中心存在空洞的S-RCAT的透射电子显微镜图像

为解决这些局限性,提出了鞍鳍型晶体管。如图 17(b)所示,尽管其工作电流并未显著增加,但其具备 DRAM 单元晶体管所需的理想特性,例如低漏极到源极的漏电流(DIBL)和体效应。鞍鳍型晶体管可通过在 RCAT 工艺(如图 17(a)所示)之后,仅增加一个使用相同掩模的场氧化物干法刻蚀工艺步骤来形成。因此,鞍鳍型晶体管取代了 S-RCAT,并且其结构仍在早期 10 纳米 DRAM 单元晶体管中得到应用。

Fig. 4 (a) Structure of Saddle-Fin transistor and (b) Iop current gain by applying Saddle-Fin structure to RCAT图17 (a) 鞍鳍晶体管的结构 (b) 将鞍鳍结构应用于RCAT的Iop电流增益

B. 埋藏栅极与栅极功函数控制尽管 RCAT 通过降低掺杂水平来避免高电场,但其宽结/栅极重叠使其容易受到栅极诱导漏极泄漏(GIDL)的影响。为了解决这一结构弱点,引入了埋栅(BG)。如表 2 所示,在沉积栅极金属(TiN)后,蚀刻深度可以调整以控制 GIDL 和工作电流。然而,过度蚀刻会导致结和栅极的下重叠,从而导致工作电流急剧下降。为了更好地控制 BG 结构的重叠,单功函数栅极(SWG)演变为双功函数栅极(DWG)。这种演变有效地控制了 GIDL,同时保持了足够的单元晶体管工作电流。自 2z 技术节点以来,DWG 已被应用,并且在过去十年中一直是早期 10 纳米 DRAM 的标准单元结构。尽管过去 25 年单元电容减少了 90%,但数据保持时间仍保持在相似水平,这表明 DWG 结构具有出色的 GIDL 控制能力。

表2. 单一功函数栅极(SWG)和双功函数栅极(DWG) DRAM单元晶体管方案的结构和概念比较

2单元电容与检测裕度

DRAM单元电容(Cs)直接影响数据保持时间,其应足以存储超过可靠检测“1”和“0”所需的最小电荷量。具体而言,如公式(1)所示,检测裕度定义为在电荷共享期间位线(BL)和反相位线(/BL)之间的电压差(∆V),减去具有工艺偏差的感测放大器(S/A)的偏移量(=Vcore/2*(1+Cb/Cs))。Cb 为位线电容。正检测裕度对于可靠的大规模生产至关重要。

感知裕度(α)= ∆V - S/A 偏移量

保持“足够的电容值”以拥有正的感知裕度一直是缩放的最大挑战。图 18展示了 DRAM 电容器的结构变化。采用圆柱形是为了最大限度地利用凹形的外表面来增加面积。然而,随着缩放,几乎不可能填充圆柱体的内部区域,因此自然地转变为柱形,这实际上减少了约 30%的表面积。如图 19 所示,电容器蚀刻的纵横比在约 50 时饱和,eTox 在约 4A 时饱和。与 4x 技术节点的电容值相比,1c 节点的电容值降低了 85%。随着 2D DRAM 扩展到 10 纳米以下节点,电容值的减少率预计会进一步增加。

图18. DRAM单元电容结构的历史

图19. DRAM单元电容和长宽比趋势

为了即使在电容 Cs 减小的情况下仍能保持正的感应裕度,人们已采取了多种措施来降低 Cb 和 S/A 偏移。如图 20 所示,通过去除埋栅结构中的栅极堆叠,并结合空气隙或低介电常数的位线(BL)间隔物,总位线寄生电容降低了 65%以上。

图20. BL电容降低 (a) 采用埋栅极技术将BL电容降低47% (b) BL气隙间隔层将BL电容降低30%

图 21(a)所示的传统 S/A 的固有偏移通常会随着缩放而恶化,因为晶体管面积的减小会增加随机掺杂波动(RDF)。然而,图 21(b)所示的失配抵消 S/A(MCSA)显著降低了晶体管对之间的失配影响。MCSA 的偏移降低了 10 倍。

图21. (a) 传统S/A电路,(b) 失配抵消S/A电路 (MCSA),(c) 相同NMOS VTE失配下的偏移电压比较

3可扩展性的设计解决方案

到目前为止,每当 DRAM 技术面临规模限制时,许多挑战都可以通过设计创新来克服,例如 MCSA、片上 DRAM ECC(OD-ECC)和行锤击(RH)缓解技术。OD-ECC 能够抵御各种不稳定故障(例如,电压调节瞬态、数据保持时间退化、间歇性 tWR 失效),并且一直是 10 纳米级 DRAM 技术的关键推动因素之一。如图 22 所示,对于特定的缺陷率,可以容忍一定数量的失效位。仅 ECC 就能使数据保持时间延长三倍。

图22. (a) 随机FBC与块大小为128+8位的OD-ECC中的故障率 (b) 具有ECC的数据保持时间失效位减少

DRAM缩放的另一个重要设计解决方案是使用保护电路来缓解行锤击(RH:Row Hammer)的影响。如图 23 所示,当反复激活 DRAM 行时,相邻行中的数据会受到干扰,从而导致行锤击故障。如图 13(b)所示,由于攻击栅极(Nth)向位线接触(BLC)的电荷注入,导致了静态节点(SN)的电荷损失。随着马鞍鳍结构的采用,行锤击的固有容限变差,因为这种结构降低了屏障。随着缩放继续到 20 纳米以下,行锤击容限迅速恶化。器件优化无法确保完全避免行锤击故障,因此需要基于设计的缓解措施,即刷新最频繁访问地址的相邻行。确定最频繁访问行地址的方法是最重要的部分。Kim 提出了概率攻击跟踪法与计数法相结合的方法,预计这种方法能够确保 10 纳米 DRAM 具有抵御行锤击的能力。

图23. (a) 行干扰器和受害者行地址 (b) 从存储节点到N+1行地址BLC的电荷泄漏路径

410 纳米以下的未来挑战

在接近 10 纳米的技术节点,DWG 也面临着限制。如图24 所示,单元电阻的增加变得愈发陡峭。单元电容预计每代也会降低约 30%,这表明仅依靠我们现有的设计和器件解决方案将无法克服这一难题。

图24. 每个工艺节点下的单元电阻趋势(左轴)和单元面积(右轴)

A. 垂直栅极晶体管(VGT:Vertical gate transistor)第一种方法是垂直栅极晶体管(VGT)。4F² VGT 结构的电阻可能低于 BG,因为 BLC 接触位于沟道下方。在早期,有人建议采用体连接结构来避免浮体效应(FBE),但 BL 到 BL 的耦合噪声会降低感测裕度。当沟道直接位于 BL 上时,应像 3D DRAM 一样通过降低 GIDL 来控制 FBE。4F² 单元具有与 6F² 相同的电容结构和面积,4F² VGT 与 6F² 具有相同的缩放限制。

图25. 具有单元晶圆下部外围电路晶圆的垂直栅极晶体管结构

B. 3D DRAM最近,Choi 展示了一种采用垂直位线和横向字线架构的多层堆叠单元集成的 3D DRAM。还表明 3D DRAM 在动态模式下易受 FBE 影响,而减小 GIDL 可将 FBE 降低到 2D DRAM 的水平。然而,FBE 影响数据保持时间这一事实意味着需要考虑诸如行锤击之类的设计缓解方案。在 3D DRAM 中,水平单元电容器和宽字线着陆垫区域占用较大面积。为了确保 3D DRAM 相对于 2D DRAM 的成本效益,应优化层数和每层的单元尺寸。

图26. 3D DRAM的概念示意图和截面透射电镜图像

图27. 3D DRAM静态和动态数据保持时间的比较

最后总结

在NAND部分,自 1987 年发布第一个 NAND 单元架构以来,比特平均密度已提高了 100 多万倍(下图 )。二维 NAND 和三维 NAND 的成功扩展在工艺、器件、架构和运行方面做出了巨大的贡献。由于连续堆叠层预计将面临巨大的工艺成本和器件挑战,因此必须启用新的扩展范式,以继续扩大 NAND 的规模。持续创新对于实现未来 NAND 扩展至关重要(下表)。

在DRAM部分,我们谈论了推动动态随机存取存储器(DRAM)尺寸缩小至 10 纳米以下节点的技术和设计进步。文中着重介绍了存储单元晶体管的发展历程,包括从平面结构向三维结构(如 RCAT、马鞍鳍、埋栅)的转变,以及借助诸如片上 DRAM 错误校正码(ECC)和行锤击缓解等设计解决方案,在积极缩小电容的情况下仍能保持正的读取灵敏度余量的创新。这种新器件结构与设计解决方案的协同作用,将继续使 DRAM 尺寸进一步缩小至 10 纳米以下技术成为可能。

来源:卡比獸papa

相关推荐