摘要:随着半导体逐渐进入曾经被认为难以承受的环境,人们对可靠性的期望也正在被重新定义。从太空真空和喷气发动机内部,到深度工业自动化和电气化传动系统,芯片如今必须承受极端温度波动、腐蚀性环境、机械振动、辐射和不可预测的功率循环,同时还要提供日益复杂的功能。这种转变迫使
在任务和安全关键型应用中,先右移,然后左移对于测试和检查变得越来越常见。
随着半导体逐渐进入曾经被认为难以承受的环境,人们对可靠性的期望也正在被重新定义。从太空真空和喷气发动机内部,到深度工业自动化和电气化传动系统,芯片如今必须承受极端温度波动、腐蚀性环境、机械振动、辐射和不可预测的功率循环,同时还要提供日益复杂的功能。这种转变迫使测试和计量流程快速发展,以满足日益增长的可靠性需求。
过去,设备认证基于静态标准和相对狭窄的用例假设。但如今,严苛应用的多样性,加上日益增长的系统集成和异构封装,正在打破这些假设。单靠压力测试已远远不够。制造商现在必须验证性能并预测特定任务条件下的性能下降,在这些条件下,热循环、高压或振动是正常的工作状态,而非极端情况。这种验证始于晶圆阶段,而不仅仅是后端。
“现在一切都与人工智能有关,” Microtronic首席营销官 Mike LaTorraca 表示。“我们看到数据中心、航空航天和国防等领域的需求正在大幅增长——这些应用领域的芯片极其宝贵,且对任务至关重要。这些客户正在进行低混合、高复杂度、小批量生产,他们希望在部署之前确保设备经过正确的老化和认证。”
测试团队如今面临着双重挑战:既要扩展现有协议的准确性和覆盖范围,又要采用新的系统级验证方法、预测分析和故障建模,涵盖生产前、生产中和生产后的各个环节。日益增强的环境变化正推动着前端和后端转向更具适应性、更稳健的认证和可靠性测试策略。
Advantest客户项目和业务开发高级总监Davette Berry表示:“专注于恶劣环境的客户希望他们的资质测试能够使用与生产或现场操作相同的测试内容和数据端口。这能增强客户信心,确保在压力下测试的内容在实际应用中具有实际意义。”
系统级测试 (SLT) 曾被视为最终的安全保障,如今正逐渐成为识别早期自动化测试中遗漏故障模式的必要步骤。虽然传统的老化测试技术仍然被广泛用于加速早期故障,通常是通过升高温度和电压来实现,但半导体系统日益复杂和脆弱,促使人们转向更具情境感知的可靠性测试。
“老化测试是为了消除制造缺陷,”贝里说,“但它并非用于捕捉在实际工作负载下测试完整系统时出现的各种故障机制,尤其是在热应力下。”
这就是 SLT 的价值所在。与基于矢量的 ATE(在引脚或逻辑级应用特定测试模式)不同,SLT 评估接近最终组装的芯片或模块,包括板级组件、固件、内存和其他系统元素,从而更贴近真实世界的运行。这使得它在发现运行压力下出现的交互故障方面尤为有效。
系统级真实性与环境压力的结合,使测试工程师能够发现热不稳定性、边缘接触问题以及封装相关故障,而这些故障原本可能无法检测到。在先进的封装中,具有不同热特性的异构芯片共用一个基板,故障可能源于整个模块的热梯度、材料不匹配和工作负载变化的累积效应,而非单个元件。
将 SLT 集成到测试流程中,还能帮助制造商在产品生命周期的早期做出更明智的决策。其理念是先通过真实的系统级压力测试收集丰富的故障数据,实现“右移”,然后通过将这些数据反馈到 ATE 晶圆级测试、设计和制造流程中,实现“左移”。
泰瑞达业务战略总监 Natalian Der 表示:“我们看到越来越多的客户最初利用 SLT 向右移动,以发现未知的故障机制。然后,他们利用这些数据,向左移动,以改进测试模式、调整工艺窗口或改进封装材料。这是一个持续的学习循环。”
在处理 2.5D 中介层或垂直集成芯片堆栈等先进封装配置时,这种方法尤为重要。
“封装越复杂,SLT 的价值就越大,”Berry 补充道。“你测试的不仅仅是一块独立的芯片,而是整个系统。而这正是许多可靠性问题开始显现的地方。”
SLT 的另一个优势是它在设计与制造之间搭建了更直接的桥梁。SLT 中使用的相同数据端口和接口通常可以在现场部署期间的系统监控中重复使用。
Advantest 的 Berry 表示:“例如,在汽车中,设备通常通过 CAN(控制器局域网)总线或其他接口进行轮询以检查状态。如果我们在 SLT 中使用相同的数据端口,测试覆盖率在最终用途认证中就会变得更加重要。这减少了重复工作,并提高了对现场可靠性的信心。”
一些公司甚至扩展了这个想法,以支持现场重新认证,即在电路板组装后,甚至在部署后,在运行负载下对之前测试过的设备进行重新认证。
西门子 EDA公司 Tessent 高级工程总监 Nilanjan Mukherjee 表示:“高质量需要在两个层面得到保证。首先,在芯片层面,保证芯片为已知良好芯片 (KGD) 至关重要,因为集成后丢弃已封装器件的成本过高。其次,为了促进 KGD 的集成,必须在芯片和封装层面谨慎实施 DFT 策略,以帮助测试/修复芯片之间的高速互连(包括 TSV),从而最大限度地减少潜在故障并提高良率。”
随着芯片越来越多地部署在不容许出现故障的环境中,可靠性预测策略变得至关重要。单靠传统的认证方法已远远不够。制造商现在正在关联芯片整个生命周期的数据,从晶圆检测和测试到现场操作,以预测并预防故障的发生。
Microtronic 应用总监 Errol Akomer 表示:“我们专注于在生产线早期识别出性能最强的芯片,并使用保护带和数字墨水输出技术来剔除那些可能通过基本测试但容易出现长期故障的边缘芯片或‘残缺芯片’。” “这一流程对于面向汽车、航空航天和数据中心市场的芯片尤为重要,因为这些市场的芯片寿命和文档记录至关重要。”
通过关联光刻和 CMP 后阶段的宏观缺陷,该公司为每个晶圆建立了全面的历史记录,使制造商能够在最终测试和封装之前排除可疑芯片。
图 1:自旋宏缺陷。来源:Microtronic
Onto Innovation产品营销总监 Woo Young Han 表示:“任何用于恶劣环境(例如汽车应用)的芯片的视觉缺陷都应被视为对可靠性的潜在威胁。虽然这些外观缺陷最初可能不会影响芯片的电气性能,但随着时间的推移,随着芯片在实际条件下运行,它们可能会导致可靠性问题。这凸显了对汽车级芯片进行 100% 出厂质量保证 (OQA) 视觉检查和在极端温度下进行电气测试的重要性。”
另一方面,一旦芯片通过认证,嵌入式代理就可以在芯片的整个生命周期内提供实时数据,首先是在生产测试期间,然后是在系统运行期间。proteanTecs 测试与分析副总裁 Alex Burlak 解释说:“我们的技术既支持测试决策,也支持现场健康监测。它能够洞察芯片在实际工作负载条件下的裕度、功耗行为和性能。这些都是仅靠传统测试设置无法获得的洞察。”
这种融合之所以格外强大,是因为它在闭合反馈回路中发挥了重要作用。Microtronic 早期晶圆筛选的数据有助于在最终组装前剔除高风险芯片。proteanTecs 的嵌入式代理一旦部署,就能检测到细微的退化或意外的热异常或电压异常,从而提供可追溯到制造或组装决策的洞察。这些技术相结合,能够更主动地进行认证和工艺控制,尤其是在小批量、高可靠性市场中,因为在这些市场中,测试逃逸会带来巨大的风险。
本质上,如今的预测可靠性关乎关联性,将光学检测、嵌入式遥测和机器学习相结合,以预测故障机制,并不断改进。这种集成数据循环正迅速成为确保最坚固的芯片在极端环境下从晶圆到部署的整个过程中能够顺利运行的关键。
Mukherjee 表示:“随着电子产品持续主导汽车、电信、数据中心、医疗保健等领域,为了保持可靠性和安全性,需要在整个生命周期内对集成电路进行持续监控。能够促进结构测试和常规功能测试的技术对于监控至关重要,并有助于快速解决潜在故障。”
这种遥测驱动的方法在生产过程中提供了两大优势:更精准的异常值检测和更智能的测试优化。每个芯片的预测配置文件并非仅仅依赖于固定阈值或基于总体的限制,而是会标记出偏离预期行为的异常,即使这些异常在典型的测试范围内。
“一块芯片可能落在测量分布范围内,但根据其参数特征,预计其行为会有所不同,”Burlak 解释道。“通过将预测值与实际测量值进行比较,客户可以标记出原本可能检测不到的细微异常值。这正是行业的发展方向——迈向主动可靠性,而不仅仅是被动故障分析。”
这种粒度级别不仅提升了质量,也为动态性能调整打开了大门。客户可以使用相同的数据来调整每个芯片的电压和频率设置,从而根据应用需求优化功耗或提高性能。
Teradyne 的 Der 认为这种演变与更广泛的趋势相符。“业界需要更智能、更快速且不损害质量的测试,”她说道。“如果能够使用嵌入式遥测和机器学习进行有针对性的筛查,而不是暴力覆盖,就能降低测试成本,同时提升可信度。”
测试和现场数据的集成构建了持续的可靠性循环。这种反馈可以改进设计、指导流程调整,甚至实现部分认证流程的自动化。
意法半导体功率和分立器件事业部首席技术官兼技术沟通经理 Gianfranco Di Marco 表示:“实时监控使我们能够在可靠性预测与实际行为之间建立闭环。我们不仅通过加速压力测试来验证模型,还利用现场返回数据来验证,从而能够优化测试覆盖率和预期使用寿命。”
意法半导体还在其工业和汽车芯片中嵌入遥测功能,使客户能够实时评估设备健康状况。“对于坚固耐用的边缘人工智能和自动化而言,这些功能至关重要,”Di Marco 表示。“它们支持预测性维护策略,从而减少停机时间并延长使用寿命。”
相同的数据可用于识别与故障相关的使用模式,例如温度峰值、机械冲击或电压瞬变,并相应地改进资格策略。
“我们监测的常见趋势包括热波动模式、振动水平和湿度暴露,”迪马科说。“当这些指标偏离预期范围时,我们就知道我们正在接近风险状况,即使芯片还没有出现故障。”
无论是运往轨道、汽车发动机内部,还是工厂车间,暴露于恶劣环境下的芯片都必须通过严格的资质认证。如今,这些标准因市场而异,并且为了跟上技术的复杂性而快速发展。但它们也开始趋同。
Microchip 高可靠性和射频业务部副总裁 Leon Gross 表示:“在航空航天和国防领域,我们遵循 MIL-PRF-38535 和 MIL-STD-883 标准,这些标准要求产品具备抗辐射性能、逐批认证和完全可追溯性。在汽车领域,我们遵循 AEC-Q100 和 AQG-324 标准,这些标准注重工艺控制和大批量可靠性。但我们越来越看到这些标准趋同。现在,汽车客户要求提供航空航天风格的文档和任务剖面测试。”
这种融合的驱动力源于一种共同的需求,即在故障发生之前进行预测。传统标准虽然稳健,但并非总能准确预测。随着边缘设备承担越来越多的计算和人工智能功能,并且必须在更高强度的负载下保持更长时间的运行,设计人员要求认证流程能够反映实际用例。
“我们正在与客户合作,制定基于任务概况的资格认证策略,”格罗斯说道。“这意味着要定义切合实际的温度循环、机械应力模式和功耗概况,然后根据这些条件进行测试,而不是依赖通用规格。”
认证流程也在不断扩展,涵盖加速寿命测试、增强应力模型,甚至现场遥测反馈回路。这使得工程师能够在实际工作负载下验证性能,并利用这些数据来改进预测模型。
意法半导体的 Di Marco 表示:“我们将模型预测与实际压力测试和现场返回数据进行比较。任何偏差都会成为一种反馈机制,帮助我们改进测试条件和可靠性预期,确保我们的产品不断改进。”
proteanTecs 的 Burlak 指出,人工智能驱动的现场遥测技术正在开始增强资质认证。“虽然资质认证标准仍然需要,但遥测技术可以让你将可靠性视为一个生命周期问题,而不是一次性的障碍,”他说道。“这就是标准的发展方向——朝着更动态、更情境感知的资质认证迈进。”
由于用于恶劣环境的芯片会承受更严格的热应力和机械应力,即使是微小的计量疏忽也可能导致严重的良率和可靠性问题。在晶圆级尤其如此,因为热膨胀、探针错位或结构缺陷都可能引入潜在的损伤,并在数月后显现出来。
Onto 公司的 Han 表示:“汽车级半导体晶圆需要在很宽的温度范围内进行电气测试,通常温度范围为 -30°C 至 150°C。这些温度波动会引起显著的热膨胀和收缩,晶圆直径的变化幅度可能超过 100µm。探针卡的设计旨在跟踪晶圆的热膨胀。然而,晶圆基板和探针卡材料之间的热膨胀系数 (CTE) 差异可能会导致对准误差。”
这种错位会导致探针尖端接触非预期区域,从而造成机械损伤,例如划痕、焊盘变形或探针标记异常。为了发现这些问题,Onto 开发了自动化探针标记检测和高分辨率成像系统,可实时监测探针引起的损伤。先进的模式识别算法可在晶圆进入下一阶段之前检测到异常,从而实现探针对准的动态校准并最大限度地降低应力。
腐蚀检测是另一个日益受到关注的问题,特别是对于航空航天和工业应用,长期暴露于湿气或污染物中会导致缓慢降解。
“监测腐蚀导致的材料和结构退化至关重要,”韩教授说道。“腐蚀可以表现为点蚀、开裂、变色等各种形式,是一个主要问题,尤其是在航空航天和汽车芯片领域。”
这些缺陷并不局限于正面。背面晶圆处理也日益成为薄弱环节,尤其是在高通量或传统设备中。Microtronic 的 Akomer 表示:“我们见过被划伤的晶圆,尤其是在背面,细小的颗粒或残留物会导致晶圆变形,从而影响有源面芯片。这种损伤在标准检测中可能被忽视,但在反复的热循环下,它可能会变成裂纹或分层点。”
图2:背面污染造成的宏观缺陷示例。来源:Microtronic
这些类型的机械和结构问题表明,在整个半导体生命周期中,对持续检测和自适应测试的需求日益增长。随着封装密度越来越高、材料越来越多样化,即使是微小的物理差异,也可能在热应力、机械应力或电应力作用下引发可靠性故障。这推动着检测技术超越静态检查点,发展成为动态的、反馈驱动的系统,为探针优化、工艺控制甚至封装设计提供信息。
归根结底,在恶劣环境下管理可靠性并非仅仅解决单一挑战,而是要将设计、测试和计量的每个阶段与最终用途任务概况相协调。从宏观缺陷检测到嵌入式健康监测器和实时现场遥测,每种工具都有助于构建针对不可预测操作条件的多层级防御。最终目标不仅仅是达到资格门槛,而是确保在现实世界中最严苛的条件下,在多年的部署中保持韧性。
随着芯片进一步深入恶劣且不可预测的环境,业界正在重新思考可靠性的真正含义。传统的认证方法和 ATE 策略仍然至关重要,但仅靠它们已远远不够。可靠性的未来在于一种分层方法——结合压力测试、系统级分析、人工智能驱动的遥测以及从晶圆到现场部署的动态反馈回路。从晶圆阶段通过宏观缺陷检测识别潜在故障区域,到了解嵌入式监视器如何实时检测老化,生命周期的每个阶段如今都对确保长期功能和安全性发挥着作用。
与此同时,测试和计量工作流程必须更具适应性、集成度和预测性。系统级测试正在捕捉静态老化测试遗漏的故障,遥测技术正在模糊测试与现场诊断之间的界限,而人工智能正在将可靠性从固定指标转变为动态模型。这些转变不仅仅关乎在恶劣环境下的生存。我们的目标是构建一个具有韧性的半导体生态系统,使其能够随着每台设备的交付而进行预测、调整和改进。
对于制造商来说,信息很明确——认证并不会随着测试通过而结束。认证始于芯片在现实世界中启动时。
来源:半导体产业纵横一点号