摘要:过去,几乎所有冗余数据路径都包含在使用相对较厚的硅基板的平面芯片中。但随着芯片制造商从平面 SoC 迁移到多芯片组件,封装中的许多数据路径都位于外部。芯片组需要与其他芯片组以及分散在整个封装中的各种存储器进行通信,并且需要来回传输更多数据,这会由于线路电阻而产
AI时代的芯片困境:多芯片封装下的数据路径冗余与热管理挑战。
人工智能的普及极大地增加了需要处理、存储和移动的数据量,加速了数据传输信号路径的老化,并迫使芯片制造商在互连中建立更多的冗余。
过去,几乎所有冗余数据路径都包含在使用相对较厚的硅基板的平面芯片中。但随着芯片制造商从平面 SoC 迁移到多芯片组件,封装中的许多数据路径都位于外部。芯片组需要与其他芯片组以及分散在整个封装中的各种存储器进行通信,并且需要来回传输更多数据,这会由于线路电阻而产生热量。此外,为了加快信号传输速度,基板需要减薄,从而降低热导率。
由此可见,潜在问题只会越来越多。先进的封装 —— 尤其是在大型数据中心使用的封装 —— 配备了不同的处理元件,其中许多元件需要长时间全速运行。这些处理器会产生更多热量,而当这些热量加到互连电阻上时,热量的积聚会加速电迁移,从而比过去更快地减少或完全关闭数据路径。
为了延长这些非常昂贵的多芯片系统的使用寿命,芯片制造商已经开始添加比任何时候使用的更多的信号路径,甚至可能在芯片的整个使用寿命期间都使用更多的信号路径。
“在机器学习训练中,错误的后果往往是灾难性的,” 英特尔代工高级副总裁兼总经理 Kevin O'Buckley 表示。“我们对从计算插槽到主板、机架,再到构成一个完整系统的整个数据中心所展现出的所有创新感到惊叹。这真是太神奇了。但是,从错误的角度来看,错误的数量会以二次方、三次方、幂次方和幂次方倍增,从而成倍增加。因此,现在我们投入了大量额外的精力,除了某些非常独特的高性能计算 (HPC) 应用外,我从未见过如此多的关注。这主要体现在内存校正等方面。我们添加了更多的冗余、更多的奇偶校验、更多用于内存检查的复杂算法和代码。但这也扩展到了连接链路。在某些连接链路中实现冗余和奇偶校验真的非常重要。”
这也是大多数芯片制造商在将芯片堆叠在中介层上和其他芯片之上之前从未考虑过的事情。
Alphawave Semi 公司 IP 产品营销副总裁 Letizia Giuliano 表示:“封装内连接性更强,线路更多,而且采用 3D 堆叠,因此我们需要创建一个冗余结构,以便在制造过程中或器件使用寿命期间进行修复。我们需要考虑通道修复、芯片冗余,还需要考虑校正。这会造成更多故障点,现在需要找到一种方法来纠正这些故障。先进封装比标准封装更容易发生故障,因为先进封装拥有更多通道,而且封装互连更复杂。”
制造和组装工艺也需要冗余。当产量足够时,这些工艺可能需要数年才能成熟。但是,市面上有如此多的工艺和封装选项,而且大型系统公司开发了如此多的一次性设计,以至于许多工艺永远无法完全成熟。因此,为了获得足够的良率,设计规则需要更加保守,这反过来又需要更多的冗余。
Cadence 高级产品总监 Mick Posner 表示:“多芯片设计总是存在机械问题,尤其是当封装尺寸变得非常大时。你会遇到弯曲之类的问题。但一旦你添加了 3D 堆栈,你的机械应力就会变得非常合理。在 CoWoS 和 EMIB 上,这些链路的制造仍处于成熟阶段。UCIe 本身定义了冗余。因此,在采用 UCIe 的高级封装中,你有 64 个发送和 64 个接收,并且部分规范定义了每组四个冗余链路。从根本上说,它会启动,当链路启动时,它会查看该链路是否处于活动状态,或者是否为死链路。UCIe 可以重新映射其中一条互连线路,这是规范中内置的功能。我们看到的是,你需要超越这一点。”
热致电迁移已广为人知,并可在设计流程早期进行有效模拟。特定工作负载产生的热量以及定制的影响尚不明确。此外,这里还引入了一些新元素,尤其是混合键合。
“如果你看一下台积电的路线图,你会发现他们从 CoWoS-S 开始,然后发展到 CoWoS-R 和 CoWoS-L,” 日月光高级副总裁 Steven Tsai 表示。 “由于芯片尺寸越来越大,中介层无法以成本效益的方式运行,所以他们不得不转向 RDL 和桥接技术。这更容易进行设计布线,而且在成本方面,可能比硅工艺更好。这是行业趋势。但由于间距越来越窄,混合键合会带来更多问题。”
不同材料的热膨胀系数也不同。晶格失配引起的热效应会因晶体管和信号路径的高利用率而被放大。同样,时间相关的介电击穿虽然已被充分理解,但会随着数据密集型人工智能活动的开展而加速。
过去,大多数与热相关的冗余仅限于军事 / 航空航天和汽车应用,这些应用一旦发生故障,其影响至关重要,对安全至关重要。直到最近,几乎所有为这些市场开发的芯片都依赖于较老的、久经考验的工艺技术。但随着人工智能在这些应用中扮演着越来越重要的角色,这些市场正转向最先进的工艺节点和多芯片芯片组件,冗余和弹性在这些设计中发挥着越来越重要的作用。
无论目标市场是哪个终端市场,由于人工智能驱动的数据爆炸式增长,对能够在更短时间内处理更多数据的芯片的需求日益增长。
所有这些都会增加成本,但多芯片设计与在光罩极限下开发或通过拼接来超越这些极限的单片平面 SoC 之间的比较并非易事。良率、可靠性和预期寿命都各有其成本,而这些因素的要求会因应用和工作负载的不同而有所差异。
“想象一下数据中心里的计算托盘,有人认为所有部件都应该集成在一块单片主板上,” 新思科技高级副总裁兼 IP 事业部负责人 John Koeter 说道。“子卡会引发信号完整性和其他问题,并可能限制性能。但如果某个子卡坏了,你可以移除它并插入新的,而不必扔掉整个托盘。所以这里存在着所有这些有趣的动态。考虑到并行信号的数量,通道冗余和芯片间修复是绝对必要的。”
其他人也同意这一点。Eliyan 首席执行官兼联合创始人 Ramin Farjadrad 表示:“过去,人们在一块芯片上有 100、300、500 个 SerDes。这仍然是一个很大的数字。但是,如果你开始使用数千个 SerDes、数千个端口(因为 die-to-die 为你提供了这种高级封装等中的标准细间距凸块),那么如果其中一个出现故障,你也不想扔掉整个芯片。所以你开始想,这只是另一种互连。过去,如果某个东西出现故障,那并不那么严重。但是如果你有 10,000 个这样的接口,它们发生故障的几率就是 1/ 10,000。这就是你想要添加冗余的地方,这是一种降低这种概率的非常有效的方法。”
这也是硬件加速验证变得如此普遍的原因之一,无论是在本地还是在云端。
Koeter 表示:“从 IP 供应商的角度来看,仿真这些长数据包变得极其重要,因为你无法在动态仿真中找到它们。” “仿真的另一个真正用途是向链路中注入大量噪声,并确保链路能够正常恢复或进入检测模式。因此,对于 IP 供应商而言,仿真具有多重优势。它不仅能加速标准验证,还能在噪声和信号完整性方面进行真实世界的仿真。我们交付的所有物理 IP 都附带固件。我们不断调整固件,以确保 PHY 发挥最佳性能。我们正在与一些领先的超大规模厂商合作,他们非常明确地表示:‘假设 PCI Express 中描述的通道长度为 32db(通道损耗预算)。你的 IP 最好能够处理 35db。’如果规范要求 10-6 比特误码率,我们就必须能够处理高出两个数量级的误码率。这样,IP 就不仅仅是符合规范了,规范只是最低要求,坦率地说,根本不够。它需要有数量级的裕度才能在非常稳健的数据中心环境中工作。
性能方面也需要大幅提升,这为光子学的发展提供了巨大的动力。目前,所有主要的代工厂和 OSAT 厂商都在讨论光子学,认为它是一个非常现实的未来发展方向,而非一个模糊的可能性。
图 1:台积电未来 HPC/AI 平台。请注意图片右侧的光子学部分。资料来源:台积电
图 2:三星代工厂的光子学路线图。资料来源:三星
图 3:英特尔代工厂的光子学路线图。资料来源:英特尔
Arteris 首席营销官 Michal Siwinski 表示:“人们将能够以更快的速度和更大的带宽传输更多数据。这正在服务器机架之间发生。对于芯片设计而言,这意味着通道的带宽将变得更宽,因为突然之间,您不再仅仅受限于物理层的功能。需求是超宽和超快。所以基本上,您将从双车道高速公路转向五车道高速公路。随着使用更粗的光纤、更多的光学器件、更好的连接、更好的 A/D 和 D/A 转换器,实际的计算量将会增加,因为您不再受到限制。”
最终结果是,信号是全电信号,还是先转换为光信号再转换为电信号,都无关紧要。处理和存储仍然是电信号。因此,虽然光子技术速度更快,传输光信号的功耗更低,但这些信号迟早必须转换回电信号。数据量越大,散热问题也就越多,对冗余的需求也就越大。
“如果参数数量从十亿增加到万亿,计算的信息数据比特数就会增加,”Siwinski 说道。“芯片上的总线越来越大,因为你需要更多的地址空间来跟上软件端参数数量的指数级增长,但总线宽度却在线性扩展。所以现在所有数据都在一条巨大的高速公路上同时移动,而且必须保持相同的频率、相同的延迟,所有一切都相同。你正在做越来越多的事情,因为你拥有所有这些 LLM 模型,你必须在一个芯片内以及跨多个芯片计算它们。”
光子技术也带来了其他问题。Alphawave Semi 公司产品营销经理 Todd Bermensolo 表示:“光子将成为从芯片中获取数据的更佳方式。现在的问题是,当你将硅光子器件堆叠在中介层上时,它们与电子元件之间的距离能有多近。当你将两片晶圆压合在一起时,你必须使用某种互连技术将它们连接在一起,例如构建层。但这最终会成为一个极具挑战性的互连方案。SerDes 现在必须处理这些截然不同的元件,并确保能够将其传输到需要的位置。”
结论数据路径冗余并非新概念。然而,如今的情况不同,由于工艺不成熟以及所有组件利用率更高,冗余正在向芯片外转移。在高负荷使用下,电路老化得更快,其连接也同样如此。
这给高级设计增加了另一层复杂性,因为需要标记数据路径的完全或部分关闭,并且系统需要足够智能,能够将数据重新路由到其他电路。所有这些都需要提前设计,并在芯片的整个生命周期内进行监控 —— 如果设计不当,芯片的生命周期可能会比设计团队预期的要短得多。
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。
想要获取半导体产业的前沿洞见、技术速递、趋势解析,关注我们!
来源:半导体产业纵横