摘要:最近机构把博通(Broadcom)ASIC/DSA的概念炒的很热。根据摩根士丹利预测,高端定制ASIC芯片市场规模将在200亿至300亿美元之间,年复合增长率(CAGR)为20%。(编者:DSA不仅没“死”,而且迸发出更强的力量)目前博通和Marvell两家公
最近机构把博通(Broadcom)ASIC/DSA的概念炒的很热。根据摩根士丹利预测,高端定制ASIC芯片市场规模将在200亿至300亿美元之间,年复合增长率(CAGR)为20%。(编者:DSA不仅没“死”,而且迸发出更强的力量)目前博通和Marvell两家公司占据60%以上的市场份额。其中博通占据约 55-60% 的市场份额,且增长率超过英伟达;Marvell 紧随其后,占据约 13-15% 的市场份额。
博通在数据中心和网络增长率超过英伟达(来源:互联网)
但是,拨开ASIC概念的面纱,一个产品或企业是否能持续向上发展,更要看技术和产品的本质或基本面。不是所有的GPGPU都叫英伟达:很多非英伟达的GPU企业,在实际的大模型部署中并未受到市场的热捧。同样,不是所有的ASIC都叫博通定制AI芯片。博通已经具备了其他ASIC/DSA企业不具备的关键优势,其他的AI ASIC企业在短期内还难以冲击博通的产业地位。本文将对博通的优势进行技术底层的深度分析。
01
ASIC/DSA与博通的领先优势
1.1 ASIC和DSA的概念
与CPU、GPGPU等通用集成电路不同,ASIC(Application Specific Integrated Circuit)是专门为特定应用设计的集成电路。在应用和算法不变的前提下,ASIC一般具有高效能、低功耗和低成本的优势。
ASIC成为数字货币挖矿的首选(来源:chipstrat)
例如在数字货币领域,挖矿算法相对稳定,ASIC矿机表现出比传统GPU更理想的能效比和性价比,在2013年之后成为数字货币挖矿的首选。
相对ASIC这种传统的叫法,现在业内更习惯把博通AI专用加速芯片归类为DSA。领域专用加速器(Domain Specific Accelerator,DSA)是指为特定领域或应用定制的加速器。一方面,针对云场景的博通AI芯片不仅仅面向某个特定应用(例如聊天、办公处理、图像识别),更多的时候要处理包含多个应用范畴的AI领域的计算加速;另一方面,博通给其AI芯片架构起名XPU,也预示着其AI芯片将具备一定的领域通用性。
博通累积的定制芯片设计经历(来源:博通)
1.2 博通定制AI芯片的优势
根据JP摩根的说法,在Google、Meta、字节跳动之后,OpenAI也成了博通AI DSA的客户。这些客户将与博通合作开发下一代XPU架构,该架构基于3nm/2nm和3D SOIC技术(注:博通提供的SOIC为大写,与TSMC的SoIC写法不同);同时该架构将集成博通的200Gbps/Channel SerDes技术。
根据这一分析,博通AI DSA的主要优势应包括:
1.博通为Google定制数代TPU的设计流程与优化技术;
2.博通的3D/3.5D SOIC技术;
3.博通的高速互连与CPO技术。
博通XPU的核心技术(来源:博通)
我们可以看到,同时掌握这几个核心技术的,全世界恐怕也只有博通。包括英伟达在3D IC技术方面还没有特别具体的公开进展。换句话说,博通的这些客户大概率是希望通过与博通合作获得高配版的TPU方案。
2D到4D先进封装集成技术(来源:互联网)
02
DSA定制加速芯片与Trillium TPU
2.1 基本架构
根据博通公开的信息,定制AI芯片(XPU)的架构由其客户决定,博通会提供相应的设计流程和性能优化技术。
由于博通已公开的信息有限,那了解博通定制加速芯片技术的最好参照就是Google的Trillium TPU,也就是TPU v6。
TPU架构图与性能提升(来源:Nextplatform)
相较前一代TPU,4nm工艺的Trillium TPU具备以下改进:
预测的Trillium TPU架构(将TPUv5e镜像并形成Virtual Core)
预计博通为Google等客户同时提供了Matirx计算单元的定制设计及其与HBM的接口IP(主要是PHY)。根据上面的性能提升分析,可以大致推断博通在定制加速芯片方面的关键优势在于矩阵计算单元的电路优化和矩阵单元之间的互连性能提升。
2.2 博通定制设计技术的积累
乍一看,似乎博通有的别家也都有。但如果深入分析,就可以看到博通在这几年的发展中已经积累了大量的成体系的高性能计算/互连IP核和相关技术。
博通定制技术能力与IP核(来源:博通)
按照博通的公开信息,除了传统的CPU/DSP IP核外,博通还具有交换、互连接口、存储接口等关键IP核。这些成体系的IP核可以帮助博通降低ASIC/DSA产品成本和研发周期,特别是降低不同IP核联合使用的设计风险。
Google、Meta等企业也具备足够的芯片设计能力,但对他们来说,采用博通的成体系的IP核设计高性能AI芯片可以更省钱更节约时间。仅就这一点,就已形成了博通独特的护城河。
03
3.5D XDSiP架构技术
3.1 3.5D XDSiP概况
博通的第二个杀手锏就是3.5D XDSiP技术。
随着芯片越做越大,光刻技术线宽越来越逼近原子尺度。算力芯片的性能提升也逐渐变缓。
工艺提升变缓导致XPU性能提升变缓(来源:博通)
为了对抗工艺进步变缓带来的技术挑战。博通准备的方案是在原有2.5D方案基础之上堆叠计算核心的3.5D SiP技术。据传博通正为客户开发五种以上的 3.5D 产品,并将于2026 年2月开始生产发货。(消息来源:eenewseurope.com)
3.5D 与2.5D技术对比(来源:博通)
在3.5D XDSiP技术中,博通整合了3D IC、2.5D CoWoS、D2D(Die to Die互连)等技术。
在每个3.5D XPU中,可集成了超过6000mm²的芯片面积和多组HBM:
1)2个计算大核(图中Compute Core),分别堆叠在具备D2D和HBM接口的2个逻辑Die上;
2)每个逻辑Die与4组HBM连接
3)每个逻辑Die与IO Die通过D2D互连;
4)每个IO Die包括 100GE/200GE互连(网络/交换机)与PCIe Gen5/6接口;
5)2组计算核心形成一个Virtual Core,刚好与Trillium TPU的Virtual Core对应。
6)计算大核与逻辑Die通过Face to Face(Top Metal对Top Metal)方式进行键合。F2F的好处在于两个Die之间的高速互连无需通过TSV。
3.2 3.5D IC与F2F 技术
先进存储集成方案与发展预测(来源:中存算)
业内最先进的封装/集成技术正在从3D过渡到3.5D。3.5D技术包括了三维堆叠和平行的基于Interposer/封装基板扩展。理想情况下,3D IC是2D SoC的最佳扩展方案,但在实际设计中一些3D IC遇到了过于集中的散热挑战。因此结合了2.5D和3D架构的3.5D IC方案被研发出来,其本质是散热与集成度的折衷方案。
三星的3.5D方案(最右,来源:三星)
3.5D IC技术的特点包括:
1.提供足够的物理空间分离以有效解决散热和串扰问题。
2.提供了异质集成方法,特别是添加更多大容量SRAM存储的方法。在先进工艺中,大容量SRAM不再以与数字晶体管以相同的密度Scaling down,更适合通过垂直堆叠Die来增加大容量SRAM面积。
3.通过提升互连接口密度和互连区域总面积,3.5D可缩短信号传输距离,并提高处理速度。
其中2)和3)对于大模型所需的大容量存储和高速数据交互至关重要,有助于计算系统的Scale up(向上性能扩展)。
相对3D IC方案,3.5D方案将高密度热量分散开,等效于增大散热面积,避免了HBM和CPO(共光学封装)与计算Die的热量垂直叠加。
博通3.5D方案另外一个典型的特点是Face to Face(面对面,F2F)堆叠结构。与F2B(Face to Back)技术相比,F2F结构无需再通过高高大大的TSV进行Die间的信号传输,减少了寄生电容与电阻,将堆叠Die之间信号密度的提高约7倍,同时使用Top Metal直连代替Die之间的PHY,将3D堆叠的接口功耗降低了约10倍。
Face to Back与 Face to Face键合方式对比(来源:博通)
3.3 3D/3.5D IC技术产业链与设计挑战
可能3D/3.5D看起来只是比2D/2.5D加了1,但实际上产业链整合难度和设计挑战升级不小。目前3D/3.5D IC方案并未形成标准,方案多样化,需要严格按照不同供应链条的设计要求进行,且缺乏成熟标准的EDA设计工具与参考流程。换句话说,无论是巨头还是创企在3D/3.5D IC领域都还处于摸着石头过河的阶段。
3D/3.5D IC产业链(来源:中存算)
对芯片设计企业来说,除了在2D/2.5D芯片设计中需要面对的电源与信号完整性挑战外(3D/3.5D的电源与信号完整性挑战更加苛刻),还需要面对TSV冗余/修复、3D/3.5D立体布局布线和立体结构热分析的挑战。特别是散热问题在3D/3.5D芯片中可能引发晶圆形变,导致芯片失效和良率大幅下降。
3D/3.5D IC(包括3D/3.5D存算一体芯片)设计的挑战(来源:中存算)
如果想要达到博通定制AI芯片的水平,在3D/3.5D设计能力方面需要进行非常多的积累,这也不是一般的ASIC企业能完成的。
04
光互连CPO技术
4.1 Scale up与Scale out面临的挑战
仅在单台服务器上运行AI计算,目前已经很难满足大模型不断增长的训练和集群数据存储/处理要求。集群设计者往往面临两种不同的方案:使用更强的处理器/芯片和更大的存储进行垂直扩展(Scale up),或将工作负载分配到能够满足其性能需求的新服务器上进行水平扩展(Scale out)。
Scale up与Scale out
对于算力芯片,单个Die的面积受到光刻尺度的限制。单纯的Scale up事实上面临半导体设备制造能力的限制。如果要在长程范围集成更强大的算力/存力(Scale out),就需要借助更高带宽的光互连技术。这也是目前光模块在计算集群中广泛使用的重要原因。
但是,PCB互连和卡间互连的信号损耗、延迟功耗都远大于Die内。400G、800G光模块的功耗约为10W/15W。对于48口交换机,功耗就是48×15=720W。在一些计算服务器集群,光模块占据30%-50%以上功耗,并占据较大比例的通信延迟。大功率的电气连接同时在连接器上导致了严重的信号完整性问题。
4.2 CPO技术简介
传统PCB与卡间互连的信号损耗远大于Die内(来源:博通)
光互连功耗占比逐年提升(来源:George@fs.com)
博通解决Scale out问题的杀手锏就是光互连技术,确切的说是片上可集成CPO(Co-Packaging Optics)技术。
共封装光学 (CPO) 是一种将光学和硅异质集成在单个封装基板上的技术,可将光学器件直接集成到芯片封装中。该技术旨在解决下一代互连带宽和功率挑战。CPO将光学引擎下移到交换或计算芯片附近,减少了金属导线(例如PCB铜线)传输距离,其占用空间、带宽密度、能源成本、延迟比可插拔光学器件更好。
2.5D/3D CPO与光模块、OBO、NPO的对比(来源:ALPHAWAVE SEMI)
CPO具备如下特点或优势,使得CPO成为数据密集型AI和HPC应用的理想方案:
1.减少铜线传输损耗。与可插拔光学器件不同,CPO信号(从计算Die)无需通过损耗大的铜线链路穿过电路板到达板卡或服务器接口面板。与之相反,CPO将光纤直接连接到计算Die/芯片边缘,从而实现芯片和光纤之间的短距离、低损耗通信。
2.减少了数字信号处理器 (DSP)。基于DSP 的重定时器已成为高速可插拔光学器件中必备的组件,DSP会使整个系统功率提高 25-30%。在CPO中,由于消除了铜互连损耗,可以无需DSP进行主动分析和补偿信号衰减。
3.高带宽和低延迟。由于减少了铜线传输损耗和DSP传输延迟,CPO可以实现更高的带宽和更低的延迟。
4.更好的信号完整性和更低的误码率。与传统光通信系统相比,CPO通过减少电气连接和信号转换,降低了信号衰减和干扰的可能性。这提高了数据传输质量和信号完整性,降低误码率并提高系统可靠性。
我们结合完整的3.5D剖面结构来看,CPO的光学部分与HBM结构对称。通过Interposer或substrate与计算Die连接,这种方案的互连代价远小于现有的光模块方案。
CPO与3.5D集成工艺结合(来源:台积电)
4.3 博通的CPO技术特点
根据已公开资料,博通的CPO设计能力涵盖了TH4-Humboldt和TH5-Baily两种。作为制造商,台积电预计在2025年下半年将CPO投入量产,为博通提供1.6T光传输产品。除了博通外,英伟达也是台积电CPO的首批客户,使用CPO技术为NVLink升级。
TH4-Humboldt等2.5D集成将 PIC(光学IC)和 EIC(电学IC)并排倒装放置在Interposer上,保持了类似于3D集成的互连性能和密度。TH5-Baily等3D集成将PIC放置在EIC之上,提供更高的互连密度,同时也会引入更复杂的热设计挑战。
博通的两种CPO方案(来源:博通)
以博通的典型CPO方案为例,整体封装结构为CoWoS,计算Die(ASIC)通过Interposer/Package Substrate与CPO互连,互连接口为高速IO(例如Serdes/D2D)。
博通CPO+ASIC/DSA+HBM结构(来源:博通)
4.4 CPO方案的设计难度与扩展
当然CPO设计并不简单,想要进入CPO设计领域需要很强的资金实力和技术储备。对于典型的CPO设计来说,完整的设计流程/挑战包括:
1.计算Die高速接口IP/波形矫正电路设计能力
2.混合信号接口IC设计能力
3.光学器件制造/集成能力
4.2.5D/3D测试方案与集成方案设计能力
5.硅光电路设计能力
CPO方案的设计挑战(来源:博通)
博通在2021年就为其交换机制定了CPO路线。到2024年才形成完整的CPO设计方案。如此看来,想成为博通定制AI芯片,绝大部分海外厂商还需要在CPO集成设计能力方面下大工夫。
除了计算Die与交换机互连外,预计博通也计划使用CPO实现CPU和GPU到各种设备的直连,实现资源池化和设备间的内存共享。CPO技术与3.5D IC技术具备天然的整合优势,或许CPO+3.5D IC会成为未来大算力AI芯片的标配之一。
博通的CPO方案布局(来源:博通)
05
DSA与GPGPU的名利场
按照牧本定律,半导体芯片会在通用化/标准化和定制的两种相反趋势振荡,这一振荡周期约为10年。大概10年前,Alexnet算法一鸣惊人,带飞了英伟达GPGPU的销量。那么,10年后的今天,博通已经拥有除了生态之外的AI芯片的顶级技术。在博通股价大涨之后,估计很多人会有一个疑问:博通定制AI芯片是否能够以定制AI芯片成为新的主流呢 ?
牧本定律
我们分析,这一问题的答案主要取决于2点:
1.大模型算法架构是否会止步于Transformer。目前Transformer架构的竞争者包括北美的Mamba和中国的RWKV。这两者都以RNN+长程注意力机制的方式试图减小巨大KV Cache带来的计算成本上升,在长序列处理方面具有显著优势。初步预测,要么Transformer在3-5年内有巨大升级,要么Mamba/ RWKV等新架构代替Transformer。
2.英伟达是否会自废内功更多的拥抱ASIC/DSA思路。事实上在早期的V100架构中,英伟达就已经引入了类似DSA的TensorCore,以提升传统GPGPU的GEMM性能。现在,面对新的挑战,据称英伟达专门成立了ASIC设计部门,目前尚无法确定英伟达是否会更多的采用DSA的思路来缩减传统GPU的计算单元。
但不管怎么说,想成为AI芯片这个领域的“武林盟主”,在3.5D IC和光互连方面都要有“几把刷子”。以往的ASIC/GPU积累,正成为人人都有的常规技术,只有不断的产业创新,才能坐稳算力霸主的位子。
ICVIEWS智库专家
陈巍博士
AI芯片+大模型,高级职称,中国计算机学会(CCF)专委委员,国际计算机学会(ACM)会员。曾担任领域华X系AI企业(自然语言处理)首席科学家、国际存储大厂3DNAND芯片团队/架构负责人、中科院副主任(SoC/IP核),毕业于清华大学,个人中国发明专利、美国发明专利与软件著作权70+项,著有Sora视频大模型与GPT-4相关著作。
曾带队完成:
国内首个医疗领域专用AI处理器首个RISC-V/x86/ARM平台兼容的AI加速编译器国内首个3D 存储器芯片架构与设计团队建立(对标三星,已成为国家级存储企业的前置工作)国内首个嵌入式闪存平台与编译器(对标台积电/SST,该平台流片量数十亿颗)来源:半导体产业纵横