摘要:2017年铩羽而归的澎湃S1曾是伴随了公司整整八年的“黑历史”。2020年的十周年的演讲,雷军罕见谈及芯片研发,说小米“走了一些弯路”[2]。
古希腊哲学家赫拉克利特说:人不能两次踏入同一条河流。如果他见过雷军,他可能会改变这个想法。
小米并非意外闯入集成电路产业的新兵,也不是出手即巅峰的童话故事。在SoC设计这件事上,小米也曾不自量力。
2017年铩羽而归的澎湃S1曾是伴随了公司整整八年的“黑历史”。2020年的十周年的演讲,雷军罕见谈及芯片研发,说小米“走了一些弯路”[2]。
四个月之后的2021年1月,已经决定进军汽车工业的小米同时,开启了另一项前路未知的计划:重启手机SoC的设计研发。
这个研发项目对外高度保密,以至于给团队招人制造了困难:没人相信小米研发SoC的战略决心与定力。更大的反对声则来自公司内部:
作为曾经的失败者,为什么这一次就能成功?
前车之鉴
对于研发三年,生命周期六个月的澎湃S1,小米内部复盘中对自己的评价是:低估了芯片设计的难度与复杂性,无知无畏。
2017年3月,搭载澎湃S1芯片的小米5C上市,这枚芯片基于联芯科技的技术平台开发,采用28nm工艺生产,即便考虑中端定位,也上市即落后。后续产品澎湃S2遭遇难产,主体公司松果进行改组,业务转向IoT芯片。
2017年2月,小米发布澎湃S1芯片
小米用三年时间和10亿元研发成本换来了两个教训:
一是孤注一掷的心态不一定成功,但瞻前顾后的犹豫一定会失败。
对SoC研发来说,各个业务部门的战略定位必须高度统一,松果作为独立公司存在于小米“体外”,注定很难与“体内”的业务部门打配合。
二是如果没准备好至少三代芯片的投入,那干脆第一代就别开始。
做芯片和做手机不同,手机的研发是基于产品的项目管理,但芯片设计是一种连贯性的技术能力建设,以每年迭代的产品的为表征,远非当时的小米能够驾驭。
澎湃S2项目中止,但小米的芯片设计团队没散伙,而是转向了“小芯片”业务。
一部手机里会搭载上百颗芯片,最核心的SoC(System on Chip)是一个集成了多个功能模块的“片上系统”。把SoC当成一套大平层,功能模块就是对应的客厅、卧室、厨房。装修一个洗手间和装修一套大平层,无论投资规模还是技术难度都不能同日而语。
苹果的A18Pro芯片,是一个集成了CPU/GPU/NPU/内存/ISP等模块的复杂片上系统
所谓“小芯片”战略,可以类比为先试着把厨房装好,按雷军的说法[2],“不断练手、积累经验”,至少下一次别砸了承重墙。
后来,小米开发的ISP芯片和影像算法(阳台),就被集成进了玄戒O1(大平层)。
2021年SoC研发重新提上日程时,小米的营收相比2014年翻了4倍,手机销量跻身全球前三。一个直观对比是:2017年澎湃S1上市时,小米手机部和松果一共有500名员工。今天,玄戒开发团队有2500人,小米手机部有13000人。
但小米面对的不确定性并没有降低,因为集成电路是一个以年为单位不断成长的产业——你进步的时候,别人也没闲着。
小米诞生的第一个十年是集成电路产业链发展最快的十年,英伟达的市值翻了36倍,芯片制程从45nm跨到了5nm,一颗指甲盖大小的芯片里能集成的晶体管规模从10亿提高到了150亿。
这个过程中,小米和同行在芯片设计能力上的差距不是变小了,恐怕是变大了。在汽车业务刚刚起步、财务压力骤然增加的背景中,小米面对的问题是:当年花10亿买到的教训,要不要花100亿再买一次?
反复的讨论中,小米决策层逐渐形成了一种共识:重启SoC研发是个必然的选择。
一方面,如果小米的手机业务想更进一步,无论研发SoC存在多少不确定性,它都是个务实的决策;另一方面,包括手机和汽车在内的愈发多元的终端产品线,必然需要一个统一的计算平台,以及对应芯片设计能力的支撑。
因此,真正变化的是芯片设计之于小米的定位:澎湃S1是一个“项目”,玄戒O1是一个“战略”。
验收一个项目的标尺是结果,只有成功和失败;推进一个战略的核心是过程,积累比成败更关键。如果总是因为失败的潜在代价踯躅不前,“孤注一掷”就只是个口号。
想在数学考试拿满分,就不要逃避最后一道题。
孤注一掷
SoC研发项目重启时,小米决策层定下了两个规则:
一是锚定“高端旗舰SoC”的定位,在晶体管规模、核心参数和工艺制程上力争与行业第一梯队齐平。从实际结果看,玄戒O1的大部分参数规格,可以对齐苹果的A18 Pro。
二是玄戒研发团队隶属于手机部门,实际运作中与手机部门是一个团队。由副总裁朱丹直接挂帅,他是小米54号员工,很可能是小米在社交媒体粉丝最少的高管。
雷军对芯片设计的精力投入仅次于汽车业务,玄戒O1项目原则上每周开一次会对齐目标,实际上每周开3-4次,雷军几乎从不缺席。
芯片设计是一个技术问题,也是一个战略问题,更是一个集合了财务控制、流程规划、项目管理、公司治理的系统性问题。
旗舰机型的研发,一般需要手机部门在机型上市的前8-12个月左右拿到芯片,进行软硬件的适配。考虑到小米15S Pro与公司15周年绑定,延期的后果比老板握手我插兜严重得多。因此,手机部门必须在2024年5月左右拿到芯片。
如果要“对标同代旗舰芯片”,设计团队需要“推测”旗舰SoC在2024年底能达到什么样的规格,并以此指定自己的目标。就像一场超纲的数学考试,不仅自己要拿足够的分数,还得猜对同桌考了多少分。
英伟达在2025年GTC公布的路线图,产品已经规划到了2028年
玄戒O1提出“频率达到3.9GHz”的技术目标,就是基于“旗舰SoC超大核+N3E工艺下,频率达到3.6GHz”的假设,提出的进一步研发指引。
0.3GHz的频率提升是个非常激进的目标。作为对比,桌面级CPU的主频从3.0GHz(Intel Pentium 4)提高到5.7GHz(AMD 9950X3D),用了整整20年。
芯片设计真正的难点,在于“按时交付”和“成本可控”两个限定条件:芯片部门一失误,手机部门就完不成OKR。
芯片开发可以大致拆解为架构设计与规划、验证仿真、IP集成、物理实现、流片、回片等多个步骤,时间跨度在18-36个月,每个步骤都可能遇到反复修改、推倒重来的情况,一旦某个环节出现问题,很容易引发连锁反应,导致全面失控。
这个流程的凶险之处在于“没有中间结果”:芯片开发没有进度条,流片成功前,一切都是未知数。相当于高中三年没有模拟考,读完直接参加高考,家长心里肯定没底。
所谓流片(Tape-out),可以理解为芯片电路设计完成后,转换为物理芯片的过程,即芯片的“试产”。回片(Bring-up)指芯生产完成,集成到终端设备上进行验证和测试。
流片环节的特点是“容错率为零”:巨大和微小的设计失误都会导致流片失败。考虑到先进制程的流片费用,很容易造成财务失控。
笔记本电脑可以先评估BOM成本、再制定零部件方案、接着评判外观设计,每个环节都是止损窗口。但芯片设计是一场没有前线战报的大规模战役,只有战役打完,指挥部才知道自己派出去的是赵云还是赵括。
2024年5月,玄戒O1一次流片成功后回片,雷军、卢伟冰和曾学忠相继接到了研发团队通过工程样机拨打的电话,小米内部对玄戒O1最终表现的评估结果是“比较超预期”。
如果玄戒O1是一个项目,它可能是成功的;如果玄戒O1是一个战略,它才刚刚开始。
晶体管的世界没有爆品模式,小米要趟的河还有很多。
直面复杂
2010年1月,乔布斯在iPad发布会上第一次公开了苹果A系列芯片的开山之作A4。在超过一小时的发布会上,A4得到的戏份还不到20秒。
这颗芯片的里程碑意义在日后被反复渲染,但问世之初,业界对A4的态度反而是以“套壳三星”为代表的贬低和嘲讽。
A4芯片采用ARM的Cortex-A8内核,频率1GHz,45nm工艺生产,性能十分突出,唯一缺点是跟三星的“蜂鸟S5PC110”太像——三星的芯片采用了Intrinsity的技术,后者又被苹果收购,导致两颗芯片技术同源。
2010年iPad发布会,A4芯片被寥寥数语草草带过
A系列芯片的质变要等到第三代产品A6:Apple Silicon团队用基于ARMv7架构的Swift内核替换了公版内核,参数规格开始对齐同业。2013年,第四代A7成为首款64位移动处理器,彻底甩开了安卓阵营。
苹果的路径此后成为了一套标准模板,在发布会上吊打过苹果的友商,都心照不宣的拿起了这套参考教材:
从公版方案入手,基于自己的技术目标,不断迭代产品。
这种范式源自被台积电和ARM改变的产业规则。
90年代前,几乎所有半导体公司都包揽设计-制造-封测三大环节。但芯片规模越来越大,对应的投资水涨船高,中小公司无力负担三个环节的开支,出现了英伟达和台积电这类只做设计/制造的公司。
AMD创始人Jerry Sanders曾用“有晶圆厂才是真男人(Real men have fabs)”讽刺90年代雨后春笋般只做设计的芯片公司,结果接班人Hector ruiz迫于财务压力,反手甩卖了自家晶圆厂,即后来的全球第四大芯片代工厂格罗方德。
AMD创始人Jerry Sanders
台积电的代工模式逐渐被接受,ARM的出现进一步拉低了芯片设计的入场门槛:ARM不参与芯片设计,而是专注架构与IP的研发验证,并将其授权给芯片设计公司。
原因与AMD甩卖晶圆厂类似:从零开始设计全新的架构和IP成本巨大,强如苹果也栽过跟头。
苹果A系列芯片的GPU架构一直由自英国公司Imagination提供授权,2017年,家大业大的苹果宣布弃用Imagination的PowerVR架构,并且不太厚道地在消息公布前从Imagination挖走了一批工程师,转向自研架构。
Imagination的股价当天就跌了75%,公司丢掉大客户后,被卖给了中资背景的财团Canyon Bridge。但离开Imagination的苹果过的也不好,由于自研架构进展不顺,双方于2020年破镜重圆,苹果续上了断缴两年的授权费。
芯片设计是一个“入门容易精通难”的门类,小米并不特殊。
把芯片比作大平层,ARM和Imagination这些公司提供的是户型+硬装+软装的设计方案,并由台积电完成具体的施工和装修。但芯片设计还需要完成两个工作:
一是ARM只提供CPU和GPU的架构,相当于只有客厅和卧室。手机公司还需要自行将处理影像的ISP(阳台)和处理AI计算的NPU(书房)等模块集成进去。由于小米的5G基带还在开发,玄戒O1只能外挂联发科的方案。
二是ARM提供的是标准化样板间,不可能同时满足丁克家庭和三孩家庭的需求。这是推动手机公司研发芯片的最核心因素,所有公司都会基于公版架构定制化开发。玄戒O1在通用方案的基础上设计了两个超低功耗核心,明显指向了特定场景的体验优化。
房子不完美可以先凑合住,但芯片不量产就卖不出去。芯片研发过程不产生任何现金流,拖垮财务的隐患巨大。因此,所有手机公司的造芯模式都是“以贩养吸”,一边卖芯片一边做芯片:
以产品代际为单位,逐步替换通用的公版IP和架构;以十年周期为尺度,打造一艘忒修斯之船。
早在2015年,高通就在骁龙820芯片中引入了Kryo架构,这款应对苹果A7的仓促之作因为功耗问题翻了大车。直到2021年,高通收购苹果芯片架构师Gerard Williams创办的公司Nuvia,基于后者技术推出Oryon架构,自研架构才走上正轨。
Nuvia的三位创始人:John Bruno、Gerard Williams III、Manu Gulati
三星的命运更加多舛。2015年,三星推出Mongoose架构的Exynos 8890挑战高通——Mongoose(猫鼬)是高通老架构Krait(金环蛇)的天敌,挑衅意味明显。结果Exynos 8890同样遭遇功耗爆炸问题,被欧洲手机用户联名要求换成高通,回旋镖狠狠扎了回来。
华为的造芯之路同样坎坷。从骂声一片的K3V2,到第一款集成4G基带的麒麟910,再到全球第一颗5nm工艺SoC麒麟9000,同样历经十年。直到今天,集成了153亿晶体管的麒麟9000都代表着国内芯片设计的最高水平。
《首尔之春》里黄政民扮演的全斗焕有句台词:失败才是叛国,成功就是革命。芯片工程师唯一的敌人是物理学,你有足够的时间把伤口变成勋章,把黑历史变成来时路。
跨过壁垒
社会舆论对芯片的认知往往存在两个误区:一是高估了集成电路产业的壁垒;二是低估了集成电路产业的壁垒。
所谓“高估产业壁垒”,并不是指被台积电和ARM这些金牌乙方拉低的入场门槛,也不是指芯片设计的投资规模存在水分,而是集成电路产业一个有别于其他产业的鲜明特征:后发者可以从中间环节切入。
玄戒O1问世后,一种疑问认为,小米没有任何5nm/7nm和更成熟制程的芯片设计经验,为什么能直接从最先进的3nm工艺起步——但这其实并不奇怪。
由于摩尔定律的存在,芯片的参数会呈指数级提升:2010年至今,单位芯片上堆叠的晶体管规模扩大了20倍,十年前的车还能开,十年前的手机已经卡的不能用了。
这个过程中,新旧技术的切换让后来者可以从中间环节切入市场,甚至直接进入先进的技术环节:韩国面板产业的起步,就绕开了日本的1/2代线,直接从3代线做起;金融危机后中国大陆投资面板产业,也直接瞄准了5/6代线。
日本晶圆厂Rapidus决定跳过所有制程,直接从2nm开始生产
所谓“低估产业壁垒”,在于集成电路产业经过漫长时间的分工与整合,产业链上下游的各个环节,存在着“互相适配”的绑定关系。
一颗芯片从设计到封装完成,需要用到ARM的指令集和架构、Cadence的EDA工具、Toppan的掩模版、ASML的光刻机、东京电子的刻蚀机、KLA的封测设备、信越化学的硅晶圆、霍尼韦尔的靶材、东京应化的光刻胶等等。
在摩尔定律的推进过程中,每个环节的研发和改进都需要上下游环节的配合协作、相互适配,由此形成了环环相扣的共同体。这个过程中积累的Know How会成为某种意义上的“标准”,进一步拉高行业门槛。
俗话说“一流企业做标准”,但标准不是被“制定”出来的,而是在市场充分竞争中不断磨合推敲形成,最终演化为产业心照不宣的规则。
每一个芯片设计领域的新兵需要做的都不是一颗芯片、一种架构、一个解决方案,而是证明自己有能力融入这套森严有序的规则,并有能力成为标准的推动者。小米要做的还有很多。
中国大陆集成电路产业的薄弱,一个重要原因是在产业技术高速迭代的周期参与度不足,导致错过了产业标准和规则的适配过程,在高附加值环节的存在感有限。
尤其是芯片制造环节的短板,很容易让人低估芯片设计环节的重要性。在集成电路产业链上,设计与制造其实同样重要。
作为全球顶级的晶圆代工厂,台积电的高附加值其实是“特殊性”的。台积电的高利润率来自与同业恐怖的技术差距,但并没有改变芯片制造重资产、高资本开支的特点。
而芯片设计的高附加值是“行业性”的,大部分芯片设计公司都有非常高的毛利空间与附加值。原因在于,芯片设计环节直接对应着消费市场的需求,定义了一块硅晶圆在消费市场的价值,也是牵引产业发展趋势的最终环节。
“首颗国产3nm”并不是简单的口号,它是一张奢侈的入场券,它提供了另一种可能性。
尾声
玄戒O1发布的尾声,雷军以“后来者”和“追赶者”自居:“这个世界终究不会是强者恒强,后来者总有机会。”
雷军在小米15周年战略新品发布会
集成电路产业不是一家公司以一己之力浇筑的摩天大楼,而是一代又一代的汗水与智慧以纳米为尺度勾勒的超级工程。工业史上最复杂的链条与分工,孕育过不计其数的伟大公司,也埋葬过数不胜数的未竟理想。
但物理学的国境线足够绵延,供后来者丈量新的边疆。
[3] 苹果与Imagination破镜重圆,开发GPU并不容易,36氪
[4] AMD二十年自新简史,智东西
[5] 一往无前,范海涛
[6] ARM to A4: How Apple changed the climate in mobile silicon, AppleInsider
[7] 光刻巨人:ASML崛起之路,瑞尼·雷吉梅克
来源:饭统戴老板