CPO技术,开始商业化

B站影视 日本电影 2025-06-03 17:06 2

摘要:基于共封装光学器件 (CPO) 的网络交换机已开始商业化,能够以每秒太比特的速度路由信号,但在光纤到光子 IC 对准、热缓解和光学测试策略方面仍然存在制造挑战。

共封装光学器件能为高耗电数据中心带来亟需的带宽和能效提升。

基于共封装光学器件 (CPO) 的网络交换机已开始商业化,能够以每秒太比特的速度路由信号,但在光纤到光子 IC 对准、热缓解和光学测试策略方面仍然存在制造挑战。

通过将光电数据转换尽可能靠近数据中心的 GPU/ASIC 交换机,CPO 显著提升了带宽,并降低了运行生成式 AI 和大型语言模型所需的功耗。采用共封装光学器件有望大幅降低训练 AI 模型的能源成本,并显著提高数据中心的能源效率。

Amkor Technology 产品营销副总裁 David Clark 表示:“尽管当今的 AI 加速器、GPU 和高容量网络交换机正在快速突破计算能力的界限,但它们却受到芯片级、主板级、托盘级和机架级互连瓶颈的制约。CPO通过提供 1 Tbps/mm 的带宽密度,实现更高的前面板端口密度,并在日益拥挤的数据中心优化宝贵的机架空间,打破了这些限制。”

如今,在数据中心中,计算机机架中的网络交换机由 GPU/ASIC 芯片组成,这些芯片通过 PCB 电连接到机架前端的可插拔光收发器。这些光收发器集成了激光器、光路、DSP 和其他电子设备。这些设备通过电连接到交换机,并通过光连接到穿过数据中心的光纤。

这种方法有效,但效率低下。电路板上的电子走线会消耗大量功率,并且由于信号损耗、引脚数量和串扰的限制,会限制数据传输的速度和密度。这时,光互连就应运而生了。

英特尔高级系统组装与测试业务部副总裁兼总经理Mark Gardner表示:“由于光纤传输损耗低,光信号传输能够扩大覆盖范围,并且已实现商业标准化,并以可插拔光纤I/O的形式在主板和机架级广泛应用。在当今的可插拔光纤I/O模块中,光纤I/O信号引擎位于交换机/计算节点的封装外部。因此,由于计算/交换机/FPFA节点与光纤引擎之间的电气连接,带宽、能效和延迟的瓶颈仍然存在。”

图1:共封装制造和组装的工艺步骤。来源:ASE

CPO中的关键光学元件包括激光发射器、光电探测器、波导、调制器和硅光子集成电路 (PIC)。调制器通常是微环或马赫曾德尔调制器,它将电信号转换为光信号,同时控制这些光信号的传输。

Gardner 表示:“基于硅光子的光学 I/O 芯片通常采用密集波分复用 (DWDM) 技术,取代了可插拔收发器中的光学引擎。这允许每个光纤端口的数据带宽扩展。” 此外,由于硅光子器件微型化的进步,这些芯片的尺寸正在缩小,从而能够与计算节点在先进的封装中集成。这种集成将电信号传输距离缩短至 100µm,从而突破了封装外电信号传输中存在的功率、带宽密度和延迟瓶颈。

在一种CPO配置中,计算芯片被4或8个硅光子IC收发器芯片包围。这些芯片将被封装在一起,但激光器除外,因为激光器的可靠性最低,所以通常单独封装。“共封装光学器件的主要优势在于,它能够显著降低高速数据传输相关的功耗,从使用可插拔模块时的约15 pJ/bit降至约5 pJ/bit(预计会降至

共封装光学元件还能提高信号完整性,因为更短的光信号路径具有更低的寄生损耗。“通过将光学引擎与交换芯片直接封装在一起,电信号传输的距离大大缩短,”新思科技光子解决方案研发工程总监 Sander Roosendaal 表示。“电气走线长度的缩短意味着 SerDes(串行器/解串器)组件需要处理的信号损耗要低得多(1 到 2 dB,而标准设计则超过 20 dB)。虽然基于光子 IC 的收发器(CPO 的核心)在尺寸相似的情况下可以提供传统收发器约 10 倍的性能,但共封装本身直接解决了限制可插拔解决方案的电气接口瓶颈,为未来数据密集型系统提供了功率和性能的关键飞跃。”

尽管共封装光学器件具有诸多优势,但它仍面临诸多制造挑战,包括如何实现卓越的光纤到光子集成电路 (PIC) 对准精度。在共封装光学器件 (CPO) 中,光纤和光子集成电路 (PIC) 采用无源或有源对准工艺共集成在同一封装中。光纤与芯片上波导面的精确对准对于光信号的有效耦合至关重要。最常见的无源对准工艺是 V 型槽。

GlobalFoundries 的 Gupta 表示:“V 型槽方法等技术通过将光纤直接(且永久地)连接到 PIC,实现了最低损耗接口。折射率匹配材料和粘合剂可用于最大程度地减少光传输路径上折射率变化造成的损耗。虽然可拆卸光纤解决方案增强了光纤接口的可修复性,但光通常会穿过各种转向镜和材料接口,导致每个光纤接口增加约 1dB 的损耗。”

事实上,大规模连接光纤的挑战是阻碍CPO进入量产的关键因素之一。“将芯片上的微型硅波导连接到外部光纤是封装集成光学器件中最困难的任务之一,”新思科技业务开发经理Mitch Heins表示。在标准单模 (SM) 光纤和绝缘体上硅 (SOI) 波导之间高效耦合光非常具有挑战性。这种困难的产生是因为光纤和 SOI 波导的折射率对比、尺寸和横截面形状差异很大,导致光在它们内部的分布不匹配。典型的 SM 光纤要大得多,直径为 8µm 到 10µm,而 SOI 波导的尺寸可能只有 500nm x 220nm。这种尺度差异就像试图将篮球大小的管子与豌豆大小的管子对齐,这会导致大部分光损失。除了基本的模式失配之外,波导端面必须非常抛光,并且光纤和 SOI 波导本身之间的对准是影响耦合损耗的关键因素。

Heins 解释说,主动对准技术使用外部操纵器(或具有六个自由度的精密对准系统)来移动光纤或光纤阵列,同时光功率通过波导或 PIC 传输。当达到最大光功率时,光纤将永久连接到波导上。

Promex首席执行官Dick Otte表示:“第一个挑战是让光纤和光子集成电路在零点几微米的精度内对准,以最大限度地减少信号损耗。我们试图将损耗降低到1dB左右,这是可以实现的。” “第二个挑战是如何长期固定光纤。这关系到物理结构的稳定性以及固定光纤的环氧树脂或酰化物。许多人仍在使用V型槽方法,这是一种非常有效的方案,并且已有充分的文献记载。现在正在发生的变化是,我们现在对准的是阵列,而不是单根光纤,这是一个重要的进步。它大大降低了每次对准的成本。我预计,随着数据速率的提高,阵列的数量将大幅增加。”

然而,从单模光纤到光纤阵列的转变带来了巨大的对准挑战。“对于多通道设备,例如耦合到光栅耦合器阵列的光纤阵列,对准过程需要仔细调整,以确保整个阵列位置正确并与芯片特征平行,”Synopsys 的 Heins 表示。“自动化系统通常使用光反馈,首先找到光信号,然后执行梯度搜索,以同时优化多条光纤的耦合效率。这可能涉及使用精密平台的复杂扫描模式。”

Heins 指出,其规格包括:0.1µm 对准精度(以实现低功耗)、

英特尔的 Gardner 表示:“允许精确对准的典型光学特征可能包括在 PIC 上制造的 V 型槽等结构,或镜子或透镜等微光学元件,以允许光信号从光纤路由到 PIC。”

图2:两种可能的CPO配置显示了光纤阵列单元的不同定位,这会影响光耦合。来源:ASE

与电子集成电路一样,光子集成电路对温度变化很敏感。

英特尔的Gardner表示:“由于封装中的高功率器件(例如GPU、ASIC或开关芯片)引起的热波动,会导致同封装PIC中光子器件的温度波动。这些波动会影响光子器件(例如环形谐振器和调制器)的功能和性能。这些器件对温度变化敏感,通常在温度窗口内工作时效果最佳。集成环境导致的意外温度变化可能会导致谐振偏移,进而导致性能或功能下降。”

温度波动看似微小,但影响却十分显著。“在大多数光子系统中,1°C 的温度变化通常会导致约 0.1nm 的波长偏移,”Amkor 的 Clark 指出。“在当今的系统中,大多数实现方案采用单波长和微环调制器架构,这些架构对热效应的敏感度相对较低或可控。然而,随着 CPO 的不断发展,带宽需求持续增长,光纤束也需要减少。我们可能会看到密集波分复用 (DWDM) 架构的引入。在这种情况下,温度和波长稳定性变得更加关键,并将带来新的封装挑战。”

在封装层面,我们精心选择热界面材料堆叠,以减少 PIC 的温度波动,并将其保持在预定义的范围内。“我们还会考虑可能需要哪些热管理方法,以确保光学元件在其温度范围内——即使考虑到整体热边界条件和/或封装级功率分布的大幅变化,”Gardner 说道。“在 PIC 或其配套的 EIC 内部,我们部署了传感和控制电路 IP,以便在 PIC 温度范围内保持性能和功能。”

GlobalFoundries 的 Gupta 对热缓解方案表示赞同。“光学接口与大型热源的接近性带来了挑战,必须谨慎管理。由于高温下复合半导体光源的波长偏移和可靠性问题,大多数共封装光学系统都使用外部激光器。光学接口的机械设计和特性(例如光纤连接)必须考虑硅与有机或聚合物材料之间的热膨胀差异。此外,片上器件需要在更高温度(>105°C)下进行特性和鉴定,以确保最佳性能。调制器具有局部加热器,用于调节干涉和谐振器件的波长。虽然光电二极管在高温下可能会表现出更高的暗电流,但它们的设计旨在缓解可靠性问题。”

此外,还有其他挑战。“据我所知,激光器故障仍然是这些系统中导致缺陷的最大单一原因,”Promex 的 Otte 说道。“因此,确保芯片良好运行的关键很大程度上在于激光器的良好运行。人们正在努力对其进行老化测试。随着多波长激光器的出现,未来几年对激光器的要求将更加严格。”

确保可靠性对于任何新技术来说都是一项挑战,尤其是在涉及多芯片集成时,难度尤其大。“由于光接口与 ASIC/xPU 位于同一电路板或中介层上,因此对已知良好芯片/模块 (KGD/KGM) 的需求变得至关重要,”GlobalFoundries 的 Gupta 表示。“电光功能测试平台和用于确定 KGD/KGM 的测试是活跃的研究领域。大型测试平台公司在今年早些时候的光纤通信 (OFC) 会议上宣布了这一领域的进展。虽然电气测试已经取得了重大进展,但用于快速(非永久性)对准光纤探头的光学测试解决方案仍在开发中。”

随着行业从可插拔收发器向一体封装光学器件转型,内置可靠性比以往任何时候都更加重要,尤其是在计算芯片成本高昂的情况下。“一体封装光学器件并非依赖于使用可插拔模块快速更换故障单元的能力,而是专注于增强组件和封装的固有可靠性,采用冗余设计,并实施集成监控和自我校正,从而解决故障问题,”Synopsys 的 Roosendaal 表示。他将这些策略描述为:

高可靠性设计: 硅光子元件本身,例如无源器件、锗光电探测器、耗尽型调制器和集成加热器,正在开发具有高内在可靠性的产品,其中许多元件的故障率非常低(例如,低于一次故障率 - FIT)。硅基混合封装 III-V 族激光器也已证明其可靠性符合 Telcordia GR468 等标准。在封装方面实现高可靠性至关重要,包括组装工艺、材料(例如粘合剂)和结构,这已通过 JEDEC 应力测试(包括热循环和湿热)等严格测试得到验证。

集成冗余: 由于更换故障组件较为困难,设计中融入了备份功能。一个关键的例子是包含冗余激光器。如果主激光器性能下降或发生故障,可以切换备用激光器(通常是自动切换)以维持运行。这种切换速度非常快,可以最大限度地减少停机时间。同样,对于复杂的光子集成电路,可以在设计和制造过程中加入额外的组件作为备份。使用激光器阵列时,单个激光器的故障仅影响链路的一小部分,与光频梳等单点故障源相比,也能提供更高的可靠性。具有低组件应力水平的容错设计至关重要。

集成监控和自校正: 更先进的设计包括集成监控器和控制电子设备,可以检测性能下降或故障。例如,可以监控活动激光器的性能下降,从而触发切换到冗余激光器。此外,在可能的情况下,还集成了内置自检 (BiST) 功能,用于检查电子连接和功能。使用忆阻器等非易失性元件,有可能实现某些光子器件的制造后误差校正。

注重高制造良率和早期测试: 鉴于其复杂性和集成性,确保组件和组装模块在部署前正常工作至关重要。测试在各个阶段都至关重要,包括晶圆级和芯片级测试,以便尽早识别和移除缺陷部件。如果早期阶段的故障覆盖率不足,像CPO这样的复杂多芯片组件可能会在模块级遭遇灾难性的良率损失。评估故障部件有助于改进早期工艺。

GlobalFoundries 的 Gupta 表示同意,对于光子器件,Telecordia GR-468-CORE 通常用于可靠性评估。“然而,随着硅光子封装技术越来越趋近 CMOS,GlobalFoundries 也开始使用基于 JEDEC 的可靠性规范。光子器件需要在更宽的温度范围(>105°C)下进行特性测试。硅作为一种材料系统,本质上比某些化合物半导体解决方案更可靠。”

目前,2.5D和3D封装方法均应用于共封装光学器件。在 2.5D 封装中,EIC 和 PIC 并排放置在硅中介层上,并通过硅中介层实现电连接。铜柱微凸块和硅通孔提供互连。

Amkor 的克拉克表示:“中介层的另一个优势是可以进一步集成波导、光栅或滤波器,从而耦合光信号。这些光学特性的形成通常与前端 CMOS 代工工艺高度兼容,这些工艺采用传统的氮化硅、二氧化硅甚至聚酰亚胺层构建而成。”

3D CPO 利用混合键合等新工艺,出于散热考虑,将电子 IC 置于光子 IC 之上。但英特尔进一步细分了选项。

Gardner 表示:“在评估 CPO 的 PIC、EIC 策略时,主要有两种方法:单片集成,即在同一芯片上共制光子电路 (PIC) 和相关电子电路 (EIC);以及 3D 芯片堆叠集成,即分别制造 PIC 和 EIC,然后进行 3D 键合。” “单片 PIC(PIC 和 EIC 集成在同一芯片上)集成在带有 xPU (2.5D) 的 EMIB 封装中,可实现紧密的电耦合,并将 PIC 和 EIC 电路之间芯片内的寄生效应降至最低,从而提高能效并降低延迟。此外,它还简化了散热方面和封装配置。然而,单片 PIC 限制了电子 IC 尖端节点的使用,而这对于 I/O 带宽密度扩展至关重要。”

3D 技术还带来了其他优势。Gardner 表示:“PIC 和 EIC 的芯片堆叠集成允许每个芯片采用其最佳工艺制造——电子 IC 采用先进的 CMOS 节点,而光子器件则采用硅光子等高性能平台。这在每个领域都能带来良好的性能,并提高设计模块化和可重用性。然而,由于 TSV、HBI 等先进技术,组装、热管理的复杂性和封装成本的增加也随之增加。3D PIC/EIC 堆叠可以与 xPU 集成在带有 EMIB 的先进封装中,从而形成 3.5D CPO 解决方案。”

共封装光学器件是先进封装领域一个充满希望的前沿技术,它能为高耗电数据中心带来亟需的带宽和能效提升。幸运的是,许多适用于硅电子技术的技术也适用于硅光子技术。

即便如此,要大规模生产这些先进的封装,需要准确而精密的方法将光纤与光子集成电路对准,具有非常低的信号损耗、先进的热管理策略、光学元件的测试方法以及一定程度的内置自检和冗余,以确保在人工智能数据中心持续运行条件下的高可靠性。

来源:半导体产业纵横一点号

相关推荐