摘要:在人工智能和机器学习(AI/ML)对计算性能要求呈指数级增长的推动下,使用 2.5D 和 3D 先进封装技术进行芯片集成的需求激增。本文回顾了这些先进的封装技术,并强调了高带宽芯片互连的关键设计考虑因素,这对高效集成至关重要。我们探讨了与带宽密度、能效、电迁移
在人工智能和机器学习(AI/ML)对计算性能要求呈指数级增长的推动下,使用 2.5D 和 3D 先进封装技术进行芯片集成的需求激增。本文回顾了这些先进的封装技术,并强调了高带宽芯片互连的关键设计考虑因素,这对高效集成至关重要。我们探讨了与带宽密度、能效、电迁移、电源完整性和信号完整性相关的挑战。
为避免功耗开销,芯片组互连架构设计得尽可能简单,采用带有前向时钟的并行数据总线。然而,要实现高产制造和强劲性能,仍需要在设计和技术协同优化方面做出巨大努力。尽管存在这些挑战,但在强大的芯片组生态系统和新颖的 3D-IC 设计方法的推动下,半导体行业有望实现持续增长和创新。
引言
对人工智能(AI)和机器学习(ML)技术的需求正以前所未有的速度增长,远远超过了摩尔定律所预测的速度。如图 1 所示,自 2012 年以来,用于人工智能训练的计算量以每年 4.1 倍的速度呈指数增长,超过了摩尔定律每 24 个月翻一番的预测。深度学习模型参数数量的增加提高了模型的灵活性和潜在性能,推动了模型复杂度的快速增长。然而,这种扩张速度在经济上(训练成本)、技术上(计算机集群规模)和环境上(碳足迹)都变得不可持续。
为了部分满足不断升级的计算需求,必须关注算法效率和半导体扩展方面的进步,不仅要实现更高的计算性能,还要实现高能效的计算性能。人工智能工作负载需要大量并行矩阵乘法和累加运算,这些运算由并行计算内核集群执行。这些工作负载需要大量内存容量和高互连带宽。为了满足这种计算需求,如今典型的 xPU/加速器芯片可能由许多计算、内存和 IO 芯片组成,并采用先进的封装技术进行集成。每个芯片都是在光刻机的光掩膜限制(即网罩尺寸(photomask limit or reticle size),26 x 33 平方毫米)内设计的。
图 1. 训练 ML 模型所用计算量的变化趋势
芯片的使用有几个显著的优点。通过将大型单片芯片分解为更小、良率可控的芯片,设计人员可以定制不同的工艺技术,以优化特定功能,例如,使用最先进的工艺节点制造计算芯片,而使用老一代工艺节点制造以模拟为中心的 IO 芯片和存储器芯片。这种模块化方法不仅简化了制造流程,还有利于快速系统集成,尤其是在使用标准化芯片接口时。通过利用现成的芯片,这种方法有望大大降低制造成本和设计周期。
随着基于芯片的封装系统规模和复杂性的增长,三维集成和晶圆级系统集成将带来卓越的能效、优异的性能和更高的成本效益。然而,设计人员在每一代产品中都熟悉的几个关键问题,在当今更大、更复杂的芯片系统中仍然构成重大挑战。这些挑战包括热设计功率(TDP)、功率传输网络(PDN)损耗、机械和热应力、网络拓扑和路由算法、互连吞吐量、能效、延迟、可制造性、冗余和可修复性、可测试性等。应对这些挑战对于确保先进半导体解决方案的性能和良率至关重要。
本文结构如下。第二节概述了先进的封装技术。第三节讨论大型 CPU/GPU 扩展系统中各种封装技术的芯片到芯片互连。第四节深入探讨芯片组互连设计的实际问题,如串行接口与并行接口、芯片组 I/F 信号、通道路由和信号完整性、凸点图规划、时钟方案、缺陷修复、ESD 路线图和电源传输。第五部分介绍了全面的 3DIC 设计流程。最后,第六部分探讨了未来的发展趋势。
先进封装技术与新能力
总统而言,先进封装技术可分为 2D、2.xD(包括 2.1D、2.3D 和 2.5D)和 3D 封装技术。 根据这一分类,如果芯片直接放置在封装基板上,则被视为 2D 封装。如果使用中介层,如薄膜、桥接器或无源中介层,则属于 2.xD 类别。具体来说,如果中间层是带有硅通孔(TSV)的有源芯片,则属于 3D 封装。
虽然这种分类很直观,但也有一定的随意性。随着封装技术的不断发展,这些类别之间的界限可能会变得越来越模糊。为了简化讨论,大多数 2.xD 中间技术通常被归入 2.5D 类别。此外,2D、2.5D 和 3D 集成技术也有可能在先进封装解决方案中并存,广义上的 3D-IC 就是指这些解决方案。无论如何区分,主要重点仍然是利用这些技术实现半导体器件的卓越性能、效率和功能。
图 2 展示了台积电不断发展的 3DFabric技术组合。作为广泛采用的先进封装技术的一个例子,3DFabric 是一套全面的集成技术,可将多个芯片集成在一起,物理距离更近,互连密度更高,而且全部由单一供应商提供。这种集成技术可实现更小的外形尺寸、更好的电气性能和更高的数据带宽。更重要的是,这些技术允许系统设计人员将以前的单片系统芯片分割成芯片组,并在封装内构建功能更强大的系统。不同的 3DFabric 封装选项保持了一致性。这种一致性是有益的,因为 3D-IC 的复杂性要求与可制造性有关的设计规则在大批量制造之前是兼容和一致的。
图 2. 台积公司 3DFabric 技术组合
不同的应用领域产生了两种不同的封装平台。第一个是片上基板(CoWoS)平台,该平台自 2012 年起投入生产,主要用于高性能计算。它有 3 个子系列。CoWoS-S 具有硅中介层(silicon interposer),允许使用非常密集的金属线(W/S = 0.4/0.4µm)。CoWoS-R的再分布层(RDL)嵌入在有机中间件中,布线密度较粗(W/S = 2/2µm)。CoWoS-L 结合了 -R 和 -S 的优点:局部硅互连 (LSI) 可实现高布线密度,有机基板中的再分布层 (RDL) 可实现更好的电气性能。其中,CoWoS-S或CoWoS-L选项还在硅互联器或桥中嵌入了深沟去耦电容(DTC:deep-trench decoupling capacitors),以增强功率传输。
第二种是集成风扇输出(InFO)平台。InFO 自 2016 年起开始量产,最初是受具有成本效益的移动应用驱动。InFO 封装上封装(InFO-PoP)是首个使用细间距铜 RDL 将 SoC 与存储器封装集成的 3D Fan-Out 晶圆级封装。由于其成本、外形尺寸和更好的信号完整性,InFO 技术已发展出许多变体,并在很大程度上扩展了 HPC 应用中更多功能芯片的集成。InFO 平台还具有先进的选项,如用于更细间距金属布线的本地硅桥,以及用于卓越功率传输的嵌入式去耦电容器。InFO 是一种芯片优先(chips first)方法,芯片面朝下放置在临时载体上,然后在其周围建立 RDL。
另一方面,CoWoS 是一种芯片后置(chips last)方法,首先制造芯片,然后将其放置到硅中介层上,再将中介层连接到基板上。制造步骤的这种区别会影响集成密度和热管理。具体来说,在芯片先行方法中,硅将在随后的周期中经历热循环。后期步骤缺陷的成本也明显高于芯片后置法。
三维堆叠技术已广泛应用于内存产品,包括高带宽内存(HBM)和 NAND 闪存,并被芯片制造商采用以提高计算密度和数据带宽。集成芯片系统(SoIC)就是用于这种三维芯片堆叠。它包括带有微凸块的 SoIC-P(间距为 18 至 25 微米)和带有高级键合的 SoIC-X(间距为 3 至 9 微米或以下)。
SoIC 实现了垂直堆叠配置中多个芯片的无缝集成,为系统设计和性能优化提供了新的可能性。 此外,SoIC 还可与 CoWoS 或 InFO 结合,形成功能更强大、更灵活的计算机系统。
芯片制造商和外包半导体组装与测试 (OSAT) 提供商提供了一系列先进的封装技术 ,每种技术在信号完整性、互连密度、可制造性和热管理方面都有独特的(不)优势和权衡。例如,英特尔的嵌入式多芯片互连桥接器(EMIB)和 AMD 的高架扇出式桥接器(EFB),都采用了无 TSV 的高密度无源桥接器,并辅以额外的 RDL 来增强电源完整性。特定封装技术的选择取决于具体的应用要求和所需的性能特征,尤其是在高性能计算中,速度和能效至关重要。这也给互连设计带来了限制和挑战,下文将对此进行探讨。
Die to Die互连应用
图 3 显示了从凸点间距扩展的角度来看芯片封装的演变过程,从传统的 2D 标准封装类型或凸点间距为 110~130µm 的多芯片模块 (MCM),到间距为 ~40µm 的 2.5D 高级封装类型(如 CoWoS/InFO),再到间距小于 9µm 的 3D 晶圆上芯片或晶圆上芯片类型(如 SoIC)。随着凸块间距的减小,在给定面积内芯片到芯片信号的数量会以四倍的速度增加,从而提高带宽密度。
在间距缩放的背景下,电路架构的选择在很大程度上取决于可达到的范围、带宽、能效和延迟等因素。例如,MCM 封装中通常使用工作频率约为 56/112Gbps 的高速串行器/解串器(SerDes),以最大限度地提高每个引脚的数据传输率。相比之下,2.5D 中介层通常采用高速并行数据总线,因为它们具有更高的能效和面积效率。与此同时,先进的 3D 堆叠技术最受益于简单、低速的数据总线,这种总线使用最少的 CMOS 缓冲器(buffers)和触发器(flip-flops),没有均衡器(equalizer)或校准电路(calibration circuits),从而实现了最佳的面积带宽密度和能效。
图 3. 凸块间距缩放透视图(XSR(extreme short reach):极短距离,UCIe(Universal Chiplets Interconnect Express):通用芯片互连快线)
图 4 描述了多个芯片用于人工智能应用的计算性能扩展和缩小的示例。Chiplet之间的die-to-die互连可分为四种类型:1) 计算到计算和计算到 IO:采用 CoWoS/InFO 技术的 UCIeTM PHY,2) 计算到内存:(在CoWoS技术上的HBM PHY) 3) 计算到 SRAM:采用 SoIC 技术的 3D 堆叠;以及 4) IO chiplet 到外部 IO:采用标准封装技术的 XSR-Serdes。
图 4. Die-to-die 的互连应用
目前最广泛使用的人工智能加速器都采用这种拓扑结构,以最大限度地提高计算性能和内存访问带宽。晶圆级系统等竞争技术让我们看到了未来计算系统的可能候选者。这些系统的互连和网络拓扑结构也需要相应发展,以满足系统性能需求。
Chiplet互连设计考虑因素
A.Chiplet互连设计目标和 DTCO
将以前的单片 SoC 分解为多个 chiplet,由高带宽芯片组互连连接,可实现更灵活的系统分区,提高良率,并利用现成的芯片组缩短周转时间。Chiplet接口的标准化是一个重要的里程碑,UCIe就是一个例子。
在此之前,业界采用了几种芯片接口来满足芯片系统的要求,强调高带宽密度、低延迟和高能效。著名的例子包括高级互连总线(AIB:Advanced Interconnect Bus)、束线(BoW:Bunch of Wires)、开放式高带宽接口(OpenHBI:Open High Bandwidth Interface)和 Lipincon(台积电专有)。
图 5 全面概述了多方面的设计和技术协同优化 (DTCO),旨在满足基于 2.5D 或 3D 芯片的系统中高速互连的性能和制造目标。DTCO 的范围涵盖了广泛的考虑因素,包括但不限于以下方面:
1、器件级优化:重点是提高晶体管带宽和噪声性能,从而提高 IO 能效。
2、封装优化:通过平衡线间距、层厚度和通孔封装等关键参数来优化中间件上的封装设计规则,对电源完整性(PI)、信号完整性(SI)、可布线性和可制造性至关重要。
3、ESD:在芯片系统的 ESD 保护和 ESD 建模方面出现了新的挑战。必须仔细评估先进封装的 ESD 额定值,以确保 ESD 面积和电容开销不会妨碍 IO 能效。
4、电源传输网络 (PDN):这需要管理电迁移(EM)和红外电压降、电压骤降以及源于电源传输的串扰。
5、热管理:主要挑战包括准确模拟热点,缓解热循环引起的问题,如时序漂移、机械应力和电迁移。这涉及在设计阶段[51]或运行时[52]实施解决方案,将器件保持在安全温度范围内,从而保持性能、可靠性和使用寿命。
6、设计可测试性、可修复性和可靠性:确保这些方面有助于实现有效的短期测试和长期使用寿命,这对产品的成功至关重要。
7、设计签核流程:高效的人工智能辅助 EDA 工具和流程对于提高生产率和优化越来越重要。
图 5. Chiplet 互连设计考虑因素
B.串行与并行数据总线
采用标准封装(MCM 或 2D)时,信号凸块和金属线的间距较粗。如图 6-a 所示,人们不得不使用带差分信号的串行链路(如 PCIe-32/64Gbps、CEI-112/224Gbps),最大限度地提高每个引脚的数据带宽密度。
先进的封装技术(2.5D)允许在每个信号引脚上使用较低的数据传输速率,而在单位几何尺寸上使用更多的并行单端信号,以最大限度地提高海滨带宽密度或区域带宽密度(如 4-32Gbps 的 UCIe x64)。并行接口(图 6-b)在几个方面非常突出。
首先,并行接口有一个用于抖动和偏移跟踪的前向时钟,无需每线路时钟数据恢复(CDR)机制,从而降低了系统的复杂性和延迟。其次,并行接口的较低数据速率运行意味着系统受信道损耗、抖动和串扰的影响较小。所需的信道均衡(EQ)更少,从而消除了电路开销,实现了更高的带宽密度和更高的能效。
对于三维堆叠,在信号密度(间距 P ≤ 9μm)下,三维互连电路面积应小于凸块面积(P2),以最大限度地提高互连效率(带宽密度*能效)。在这种情况下,并行数据总线的速度限制为 5Gbps,以简化时序。无需校准和适配,从而有效降低了功耗、延迟和面积开销。UCIe-3D 具有这种精神(图 6-c)。
图 6. Die-to-die的互连应用
C.芯片到芯片的互连信号
先进的封装技术使芯片之间的距离更近,减少了互连负载,提高了信号完整性、数据传输速率和能效。非回零 (NRZ:Non-return to zero) 和 4 级脉冲幅度调制 (PAM4) 信号可能适用于不同的运行速度。在图 7 中,核心电源(如 Vdd=0.75V)上通常使用 SST(源串联端接)驱动器,以获得最佳眼缘和阻抗匹配。有人采用 NFET-NFET 驱动器在低 VDDQ(如
当 PAM4 奈奎斯特(Nyquist)频率比 NRZ 奈奎斯特频率有显著的插入损耗优势时,PAM4 就具有优势,但它在中间电平消耗直流电流,因此不太适合低损耗高级封装通道。另一种低功耗驱动器选择是交流耦合,它可以降低驱动器强度和信号摆幅,从而降低功耗。同时双向(SBD)数据传输也能使给定海滨的数据带宽增加一倍。
图 7. Die-to-die互连信号:(a)SST 驱动器(b)低 VDDQ NRZ 驱动器(c)交流耦合 [54] (d)同时双向 [56]。
D.通道路由性和完整性分析
对于高布线密度(例如,最小间距为 0.4µm),需要适当的信号间屏蔽,以实现充分的串扰隔离和更好的信号完整性。
如图 8 所示,晶圆代工厂内部的通道优化涉及许多指标,如介质厚度、金属间距、金属厚度、可用金属层、通孔外壳、堆叠规则等。每种先进技术的中介层都要进行设计和技术的共同优化,这通常涉及到推动设计规则,以保持可制造性、可布线性和信号完整性(SI,包括插入损耗和串扰,如图所示)之间的良好平衡。
图 8. 通道路由性和信号完整性优化
图 9 展示了 UCIe D2D 路由设计的两个示例,采用两种不同的代表性封装和不同的屏蔽方式。InFO(硅桥)具有 2 微米厚金属的局部硅互连,InFO(有机基板)具有 2.3 微米厚金属的 RDL。两者都有 4 层金属用于信号路由,另有 1 层用于电源网。前者的金属宽度/间距粒度更小。由于两种情况的信号间距都是 8 微米,前者的金属屏蔽更宽,信号与信号之间的间距稍大。因此,对于 x64 UCIe 外形,前者能够以 32Gbps 的速度运行,而后者由于串扰更严重,只能以 16Gbps 的速度运行 x32 数据通道。
图 9. 通道优化
E.2.5D 和 3D 外形
一定的互连模块外形尺寸,包括模块几何形状、信号顺序、凸块间距、多模块堆叠等,对于确保不同chiplet供应商之间的集成兼容性至关重要。 虽然这种标准化给芯片生态系统带来了僵化,但却简化了 IP 开发--只需支持 IP 的有限变体。不过,需要注意的是,就面积、功耗和成本而言,特定的外形尺寸不一定总是最佳的。
以 UCIe 为例:最初发布的是 x64(64 Tx + 64 Rx)外形尺寸,随后又发布了 x32(32 Tx + 32 Rx)外形尺寸,用于 RDL 层数较少的低成本高级封装。最初的 10 列模块采用 45 微米凸点间距。为了进一步提高面积效率,该联盟后来推出了适用于较小凸点间距(50µm)的 8 柱模块。这些连续的调整在成本和性能之间取得了平衡,以适应不同应用的不同要求。
当前的 UCIe 协议支持对称双向数据收发,是同构 xPU 芯片间数据通信的典型方式。
相比之下,芯片生态系统的重要组成部分--高带宽内存(HBM)接口却显示出非对称的内存访问(读/写)带宽。为了在不引起严重信号完整性问题的情况下扩展接口带宽,即将推出的 HBM4 将双向数据 IO 数量翻了一番,从 1024 个增加到 2048 个。扩展 HBM 以提高带宽通常会受到路由拥塞和信号完整性问题的限制。通过将基础芯片逻辑过渡到先进工艺节点,我们可以缩短互连线路,提高信号完整性和速度。另外,利用类似 UCIe 的 SerDes IO 作为 HBM 接口,可以用更少的信号路由实现更高的通道速率,在提高信号完整性的同时保持相同的带宽密度。
数据转换器和逻辑处理器之间的接口是芯片组的另一个重要应用。JESD204D 是定义数据转换器高速串行接口的最新标准。它包括 ADC(模数转换器)的数据接收接口和 DAC(数模转换器)的数据发送接口。这些标准适用于 PCB 级或多芯片模块芯片集成。不过,用于高级封装中数据转换器的芯片组标准尚未制定。
虽然可以设想制定一个通用的芯片组标准,以解决三种独特类型的系统--同构双向内核对内核接口、非对称内存访问接口和单向数据转换器接口--但每个系统仍需要不同的外形尺寸,以实现最佳性能和效率。
三维堆叠是实现更高能效的自然选择,这主要是因为较短的芯片间路由大大降低了芯片间数据移动所需的能量。三维互连集群对于形成具有固有时序稳健性的硬 IP 块至关重要,如图 6-c 所示。这种内置的时序稳健性允许模块化时序签核,确保三维堆栈中每个芯片的时序验证都能以独立和自足的方式进行。
在图 10 中,我们提出了一种 AB|BA 模式的三维集群结构,其中模式 A 代表发射器(TX),模式 B 代表接收器(RX),反之亦然。正方形的 A/B 图案可根据系统要求配置成不同大小,如 4x4、8x8 或 20x20。RX 和 TX 时钟位于各自区域的中心,为每个 I/O 引脚和整个芯片实现了最佳平衡。电源和地线在 IP 集群内对称分布。这种配置的优势在于,设计具有特定多栅极方向的单个 IP 块时,假定逻辑级引脚重映射可在Chiplet级轻松实现,则该 IP 块可适应任何Chiplet方向。
图 10. 通用三维凹凸贴图外形尺寸
这种结构有助于轻松实现 SoC 级可扩展性,通过跨 SoC 的 IP 实例化实现各种chiplet-to-chiplet的堆叠方案。我们为面对面(F2B)和面对面(F2F)连接中的 SoC 级可扩展性提出了四种选择:X 方向镜像或阶跃,Y 方向镜像或阶跃。
图 11 展示了两个集成示例:
1. 案例 1:"X-镜像/Y-镜像/D2D 之间的镜像"--该配置支持所有 F2F 和 F2B die-to-die 堆叠方案。
2. 情况 2:"X-阶跃/Y-阶跃/D2D 之间无镜像"--此设置具有跨裸片的相同凸块映射。它支持 F2F 堆叠,但要求 F2B 堆叠时旋转 90 度。
图 11. 支持任意三维芯片堆叠(F2F/F2B 或旋转)的 SoC 级可扩展性。
这些灵活的集成方法可确保 IP 集群在各种芯片堆叠配置中得到有效利用,从而提高 SoC 设计的可扩展性和效率。
F.通道偏移和时钟对齐
在并行数据总线和转发时钟拓扑结构的基础上,还需要对齐数据通道和时钟通道,从而最大限度地减少通道间的偏移。在凹凸图规划中,通过 Tx 和 Rx 之间的反镜像物理对称来实现车道与车道之间的匹配。但是,当要连接两种不同的外形尺寸时,物理对称性就不成立了。例如,8 列 UCIe 与 10 列 UCIe 接口时,通道本质上是不匹配的。
此外,随机电路失配和片上/封装(on-die/on-package)线失配也会增加额外的偏斜。我们需要在叶时钟树(eaf clock tree)上为每个通道分配足够的偏斜调整范围,以便在发射器和/或接收器上实现每个通道的偏斜校准。接收器上的数据采样时钟进一步调整到 Rx 数据眼的中心,以获得最佳的左眼和右眼余量。
图 12 展示了用于生成前向时钟的两种时钟拓扑结构。边缘对齐拓扑(图 12-a)的数据转换和时钟转换是对齐的;在 Rx 中采用本地 DLL 生成 90 度相移的时钟,对 Rx 数据眼进行采样。边缘对齐拓扑旨在减少电路和提高能效,但它对温度或电压漂移引起的不匹配很敏感,因此只适合数据速率较低的应用(如 20Gbps 以下)。延迟匹配拓扑(图 12-b)在 Tx 端生成 I/Q 时钟(使用 DLL 或 PLL 和相位中介层),I 时钟进入数据路径,Q 时钟转发到 Rx。时钟和数据路径在结构上相匹配,以保持良好的抖动跟踪和延迟跟踪。
图 12. 边缘对齐结构与延迟匹配结构的对比
在大多数情况下,发送die和接收die采用独立的 PLL 和时钟域。为了在两个 PLL 域之间实现稳健的时钟域交叉,通常需要先进先出 (FIFO) 数据缓冲器,这会产生额外的功耗和延迟(图 13-a)。对于像内核到内存连接这样的接口,在两个堆叠芯片之间强制使用单一时钟域是可行的。在图 13-b 中,我们提出了一种在两个裸片之间实现单时钟域的替代方案,即 PLL1 的主时钟从主裸片转发到副裸片,然后再返回主裸片。这样,3D 芯片到芯片接口就可以在没有先进先出器的情况下传输/接收数据。在第一个捕获 DFF 边界处,可以保留与图 13-a 相同的时序余量。在主芯片的 Rx DFF 之后重新捕获数据的时序裕量会受到两个转发时钟路径延迟的轻微影响,但这是可以控制的。
图 13. 有无 FIFO 的数据同步Fig.
G.冗余和可修复性
冗余性和可修复性是微处理器领域广泛研究的课题。确定了三种不同的冗余策略:
1、组件级冗余:这涉及多个并行功能单元,如多个 CPU 内核。在这种安排下,一个或多个内核的故障不会影响系统的整体功能。
2、阵列冗余:这种类型的冗余增加了备用结构,可以替代有缺陷的结构。阵列冗余的常见应用是在高速缓冲存储器中,用备用元素替代故障元素,以保持性能。
3、动态队列冗余:这种方法要求能够动态地标记和禁用有缺陷的元素,从而防止它们的使用并保持系统的完整性。
通过利用这些冗余策略,处理器可以实现更高的可靠性和更简易的可修复性,即使在出现故障时也能确保稳定的性能。
由于die-to-die之间是通过密集的微凸块或高级键合连接的,因此缺陷检测和修复对于保证芯片封装后的良品率至关重要。上述三种策略都适用于chiplet互连。
图 14 是使用 "移位和切换修复 "(Shift and Switch Repai)概念修复三个故障通道的示例,硬件开销仅为十分之一的冗余。基于二项分布的概率计算表明,这种 30+3 联合修复方法的故障率比 3 个独立的 10+1 组低 1000 倍。
图 14. 冗余和修复( Redundancy and repair)
对于汽车等关键任务应用,人工智能/ML 正在形成,处理器故障的风险很高,因此采用动态可靠性管理技术是有益的,在这种技术下,处理器可以对不断变化的应用行为做出响应,以保持其寿命可靠性目标。
要在可修复性和信号完整性之间取得平衡,就必须进行战略性权衡。例如,分离电源和接地凸块有利于防止永久性短路故障 。不过,这种方法可能会增加面积开销或影响信号完整性。
H.ESD 迁移
随着业界推动更高带宽的发展,ESD 结构必须相应扩展,以防止 ESD 二极管的大尺寸和高电容成为扩展瓶颈。如果不能解决这一问题,IO 能效将受到限制。我们需要制定一个积极的 ESD路线图。图 15 强调了 ESD 电容和面积扩展的趋势,同时还显示了行业支持的电荷器件模型 (CDM) 电压的降低。
图15.ESD路线图Fig. 15. ESD roadmap
I.电力传输
以 UCIe 10 列高级封装为例:在 32Gbps 运行速度和 0.6pJ/bit 能效(0.75 伏)条件下,基于 388.8 微米 x1000 微米的 x64 通道模块尺寸,电流密度可达 4.1A/mm² 以上。在如此高的电流密度下,我们观察到电源/接地凸点存在严重的电磁 (EM) 可靠性问题,其值比设计规则允许的电磁限制高出三倍。通过改变凸点材料,这一问题得到了缓解,但我们还必须增加更多的电源/接地凸点,并更新 UCIe 凸点图,以提高可靠性和性能。
此外,UCIe 规范还支持时钟门控模式。从空闲模式进入任务模式会引入最坏情况下的动态电流 (di/dt),导致电压大幅下降。由于时序和电压裕量减少,这将导致更高的比特误差。降低 di/dt 的最有效方法是依靠芯片或封装上的去耦电容器来抑制噪声纹波。去耦电容策略包括从上到下(见图 16-a)的利用,例如 A) 通常在 µF 范围内的封装上分立去耦电容器 (OPD),B) 封装内去耦电容器,如 Si-interposer 上的嵌入式深沟电容器 (eDTC),电容密度大于 1000nF/mm2、 C) 片上去耦电容器,包括电容密度约为 50 nF/mm² 的超高密度 MIM 电容器 (SHDMIM) 和电容密度约为 10 nF/mm² 的器件电容器。位于顶模上或顶模附近的电容器串联电阻较低,但电容密度也较低。随着与顶模距离的增加,串联电阻也会增加。因此,在确定最佳去耦电容器策略时,必须考虑各种因素,包括技术、成本、面积和噪声规格。
图 16. 电力输送网络的去耦电容器策略
图 16-b 显示了功率阻抗优化示例和电压纹波分析结果。 不同的电容器用于抑制相应频率范围内的功率阻抗。OPD 可增强 1MHz~100MHz 范围内的功率阻抗。片上 SHDMIM 可抑制 200MHz 以上的高频部分。而额外的封装内 eDTC 可以进一步抑制阻抗,使频率范围更低,甚至达到 40MHz。使用 eDTC 后,电压纹波从 102.4mVpp 抑制到 32.07mVpp,接近目标规格 30mVpp。
最后,如果系统超出了电压下降容限,则必须实施全面的系统级策略,以满足低误码率的要求。潜在的解决方案包括
a) 通过车道交错来降低 di/dt,即每次将车道从空闲状态过渡到空闲状态。虽然这种方法可以缓解电压下降,但其缺点是会增加链路延迟。
b) 通过在时钟门控期间增加背景电流来降低 di/dt。这可以通过保持部分或全部空闲通道处于激活状态来实现。这种方法虽然有效,但功耗较高。
c) 通过降低运行数据速率来降低 di/dt,这虽然有助于管理电压下降,但会导致系统性能下降。
全面的 3DIC 设计流程
如图 17-a 所示,先进的封装架构包含多种封装选项。这些选项包括改变每个层面的die数量,以及集成各种无源器件,如深沟槽电容器 (DTC) 和集成无源器件 (IPD)。该架构还支持不同类型的水平连接,包括硅中介层和有机中介层,以及各种垂直连接,如硅通孔(TSV)、中介层通孔(TIV)和模具通孔(TMV)。此外,它还提供多种接口类型,包括高级键合、微凸块和 C4 凸块,以及不同的堆叠方向,如面朝下、面朝上、面对面和面对背。
图 17. (a) 丰富的 3DIC 架构选择 (b) 3Dblox 统一基础设施。
单个或多个供应商提供的各种封装技术,再加上众多可能的组合,使设计过程变得非常复杂。此外,各种物理集成和验证任务需要不同的 EDA 工具,涉及多个 IP 和工具供应商。当前的 EDA 工具、工作流程和方法已经发生了显著变化,以满足复杂 3D 集成的需求。
为了应对 3D-IC 设计中的挑战,3Dblox 开放标准已经建立并获得了业界的广泛认可。如图 17-a 所示,3Dblox 采用模块化方法,将三维封装中的每个物理组件分类并抽象为特定模块。设计三维系统时,需要将这些模块实例化,使用高级编程语言创建相互连接的对象,并按层次组织,类似于传统的 SoC。
3DBlox 的主要特点见图 17-b。为了简化设计流程,我们将断言直接集成到语言中,从而实现了自顶向下、逐层正确构造的设计方法。分层实例化功能增强了芯片的重复使用,提高了设计效率。随着主要 EDA 供应商和半导体制造商采用 3Dblox,由于互操作性的提高,芯片集成变得更加无缝和高效。这种集成将进一步加快 3D-IC 生态系统的发展和成熟。
未来发展趋势
A.设计模块化
针对支持 4 至 32 Gbps 数据传输速率的高级封装,定义了六种 UCIe 外形。图 18 (a) 显示了这些外形尺寸的一个示例。由于凸点间距、列数、数据速率和技术节点各不相同,知识产权(IP)的开发成为一个耗时耗力的过程。为了缓解这一挑战,我们采用了模块化概念和编译器兼容方案,如图 18(b) 所示。
图 18. (a) UCIe 2.0 bumpmap 示例 (b) Chiplet 输入/输出的模块化设计。
在这种方法中,芯片与芯片之间的互连被划分为可重复块(如 IO 通道)和常用共享块(包括 DLL、PLL、DCDL 和校准电路)。特定的平面图元素(如时钟树)可以定制和编译,以满足不同的目标规格。
B.带宽和能效扩展
带宽密度和能效仍然是下一代芯片组互连的重点。
封装凸点间距和技术节点对带宽密度有重大影响。图 19 展示了根据我们使用实际工艺和封装技术缩放因子进行的一阶估算得出的面积带宽密度趋势。要提高带宽密度,可以提高链路数据速率和/或减小互连凸点间距。然而,更高的数据速率需要更强的电路驱动强度和校准,从而导致更大的电路面积。因此,可能需要调整凸块间距。例如,对于 N7 技术,45 微米的凸块间距 (P45) 可支持 16Gbps 速率,而 24Gbps 和 32Gbps 速率则分别需要 55 微米 (P55) 和 65 微米 (P65),导致 16Gbps 速率之后的区域带宽密度下降。相比之下,N4/N5(4 纳米/5 纳米)技术可提高带宽密度,数据传输率可达 24Gbps。N3 允许进一步提高带宽。设计和技术协同优化可能会稍微改变趋势线,但总体而言,N3(3 纳米)等更先进的技术可实现更高的面积/岸线带宽密度和能效。
图 19. 技术和带宽缩放(注:P30/C16 指 30µm 凸块间距,UCIe 16 列外形尺寸)
从海岸线带宽密度(shoreline bandwidth density)的不同角度来看,上述研究基于 UCIe 凸点图约束,结果是较高的数据速率与较高的海岸线带宽密度相关。这与文献中的评估形成鲜明对比,后者在 x 和 y 两个方向上都使用了间距缩放。在保持凹凸受限的情况下,凹凸间距随数据传输速率降低而缩放,因此海岸线带宽密度保持不变。在这种情况下,由于电路复杂性降低,较低的数据速率有望提高能效。相反,技术扩展可以支持更复杂的设计,并提高给定凸点间距的数据速率,从而提高岸线带宽(例如,从 1.5 Tb/s/mm 提高到 2 Tb/s/mm),如图 20 所示。
图 20. 扩大规模,提高能效
C.大型系统
由于视网膜尺寸的限制,最近人工智能/ML 发展的趋势是在晶圆级扩大规模(图 21)。通过结合 3DFabric(或同类产品)提供的解决方案,我们可以有效地利用 SoIC(用于集成 SRAM+CPU 和 HBM+GPU)、LSI(用于集成 CPU+GPU(高密度/近距离))、LSI(用于将 xPU 集成到 I/O 芯片)、无源 LSI(用于 eDTC(用于封装上解耦以降低电源噪声))以及 RDL(用于大规模集成的电源传输和更远距离的数据传输)。这种晶圆级封装可减轻视网膜尺寸限制所带来的制约,同时在不久的将来,晶圆上的网络和异质(串行和并行)[18]或混合(光和电)链接对于 xPU 与 xPU 之间的高效互连也是必要的。
除晶圆级封装外,扇出面板级封装(FOPLP)也即将问世,有望提高封装吞吐量、降低成本,并有可能在面板级实现更大的集成系统,而在整个封装过程中,翘曲控制仍是一项重大挑战。
图 21. 系统级晶片放大(资料来源:台积电)
与此同时,对更高互联数据带宽密度的渴求仍在继续,例如,UCIe 联盟正在制定 48/64Gbpsie 间互联提案。对于系统的升级和扩展,封装光波导和共封装光引擎仍然对业界具有吸引力。
更大的系统需要采用集成磁性元件的垂直电源传输,以实现有效的电压调节。CPU、GPU、HBM、SerDes、光学引擎和电压调节器的大规模集成是一项重大任务,超越了现有的一些工程技术[。要实现这一目标,需要各行业合作伙伴通力合作,管理技术堆栈的不同方面,以实现高性能,同时确保卓越的能效、信号完整性、热管理和结构稳健性。
随着芯片生态系统变得更加强大和 3D-IC 设计方法的进步,新的可能性和更大的创新将会出现。
致谢本文作者:
Shenggao Li, Sr. Member, IEEE, Mu-Shan Lin, and Wei-Chih Chen, Chien-Chun Tsai
来源:半导体行业观察