摘要:在半导体江湖里,流传着一句“黑话”:一片 wafer 要是能从头到尾零缺陷,那一定是你没放大看。
在半导体江湖里,流传着一句“黑话”:一片 wafer 要是能从头到尾零缺陷,那一定是你没放大看。
毕竟,指甲盖大小的面积里塞着上百颗 Die、上百亿个晶体管,随便一个原子站错队,都可能导致整颗芯片“社死”。今天,咱们就掰开揉碎聊聊——为什么你手里的处理器明明“缺胳膊少腿”,却依旧能活蹦乱跳?
从“玻璃心”到“钢铁战士”,一颗芯片要闯多少关?
先给没混过 Fab 的同学补补课:现代 SoC 的出生流程,比《流浪地球》的行星发动机还复杂。
光刻、刻蚀、沉积、离子注入、CMP、EUV……几十道主工序、上百道子工序,只要有一步“打喷嚏”,就会在硅片表面留下“胎记”——我们统称 defect。
- 有的像“陨石坑”,直径几十纳米,直接击穿栅氧;
- 有的像“干涸河床”,金属填铜没填平,开路断路随缘;
- 还有的更隐蔽,ESD 防护没做好,测试一切正常,到客户手里半年才突然“暴毙”。
据台积电 2020 年论文数据,5 nm 初期每平方厘米 defect 密度(D0)高达 0.2~0.3 颗。换算下来,一颗 100 mm² 的手机 SoC,裸片良率只有 30% 出头——七成直接报废,连封装厂的大门都进不去。
“良率”到底怎么算?为什么三星 5 nm 一度“腰斩”?
行业里常用的是 Poisson 模型:
`Yield = e^(-D0×A)`
其中 A 是芯片面积。D0 越高、面积越大,良率越惨。
三星 5 nm 早期 D0 约 0.3,100 mm² 的 Exynos 2200 理论良率 26%,再加上滑片(dicing)时的微裂纹、金属飞溅,实际能跑的只有 20% 左右。换句话说,花 6000 美元一片的 12 英寸 wafer,最终合格芯片不到 120 颗,单颗成本 50 美元——这还没算研发摊销,老板看了直接血压拉满。
于是 Fab 里出现两大“特种部队”:
1. YE(Yield Enhancement):负责蹲守电镜,像法医一样给每颗 defect 做“尸检”,反向追溯是哪台机台、哪道菜谱、甚至哪瓶光刻胶出了问题;
2. PEE(Process Equipment Engineer):7×24 守着机台,把粒子数、金属污染、温度均匀性全部卷到 ppb(十亿分之一)级别。
良率每提升 1%,利润就能多出 1 亿美元。这不是 KPI,是生命线。
芯片也会“断臂求生”:冗余、修复、屏蔽,三板斧走起
既然 defect 避无可避,如何让“带病上岗”的晶体管不影响终端体验?芯片公司祭出三把瑞士军刀:
1. 存储器自带“备胎”
SRAM、DRAM 天生适合 ECC + redundancy。
- 5 nm 的 L3 Cache 一般在 16~32 MB,每 512 bit 就塞 8 bit 校验,再留 2% 冗余行/列。局部 bit 失效?直接 map 到备胎,用户无感。
- NAND 闪存更狠,128 层 TLC 出厂就允许 2% 坏块,控制器重映射后照样“满血”。
2. DFT 电路“用完即弃”
Design-for-Test 的压缩/解压缩逻辑、扫描链、BIST 控制器,一旦通过终测就躺平。它们坏了?只要不在关键路径,直接无视。业内戏称:“测试电路就是一次性打工人。”
3. 核心/单元“屏蔽降级”
八核 CPU 有一组缓存 defect?熔断对应的激光熔丝,BIOS 启动只认六核,i7 秒变 i5;
24 EU 的核显坏了 4 个?屏蔽后改名“降频版”,价格下调 20%,照样有人喊“真香”。
AMD、Intel、NVIDIA 都把这套玩法玩出花,官方叫“binning”,玩家叫“开核抽奖”。
设计阶段就“买保险”:车用芯片为何敢承诺 15 年?
消费级芯片可以“残血跑路”,但车规、军规、航天级不敢这么浪。AEC-Q100 Grade 0 要求 -40 ℃~150 ℃、15 年寿命,defect 概率必须压到 FIT(Failures In Time)
怎么做?
- 冗余面积直接拉满:双核锁步(Dual-Core Lockstep)、ECC 全覆盖、TMR(三模冗余)投票;
- 增加老化监测:内置 ROSC、DTCD 传感器,实时监测阈值漂移,提前报警;
- 用更“钝”的工艺:虽然 7 nm 性能爆炸,但车载 MCU 仍停留在 28/40 nm,defect 低、模型成熟,比先进节点稳定一个量级。
流片“翻车”现场:trimming 也救不了的那些泪
当然,不是所有故事都有美好结局。
某国产 GPU 公司第一代 7 nm 芯片,回来发现高频下 PCIe 眼图塌陷,根本到不了 16 GT/s。
- 先尝试 trimming:把片上 LDO 输出从 0.9 V 调到 0.95 V,眼图改善 10%,依旧不达标;
- 再尝试 metal fix:只动两层金属,预算 200 万美元,结果高速 serdes 通道耦合太大,还是失败;
- 最终只能 full mask respin,一次 600 万美元,CEO 在会议室沉默三分钟,只说一句:“就当交学费。”
这就是半导体最残酷也最真实的一面:经验是用钱烧出来的,良率是用 defect 尸体堆出来的。
别把“完美”当常态,把“够用”当艺术。下次再看到“零缺陷”“100% 良率”的营销话术,不妨一笑而过。
从 90 nm 到 3 nm,晶体管数量从 1 亿到 200 亿,芯片仍在遵循“缺陷—修复—降级—迭代”的循环。
而这,也正是半导体行业最迷人的地方——在物理极限、经济账本与工程智慧的三重夹击下,依旧把一颗“残血”硅片,打磨成你手中光芒万丈的“旗舰”。
来源:翱谜科技