快速掌握一条产业链:ASIC芯片产业链

B站影视 港台电影 2025-09-13 14:58 1

摘要:2023年以来,生成式AI等应用引爆算力需求,大型模型推理成本呈指数级下降,每美元可生成的内容量持续提升。据A16Z测算,自ChatGPT问世以来大模型推理成本每年降低约10倍。

这篇ASIC芯片产业链的稿子,前后折腾了三天才算写完。市面上靠谱、成体系的资料特别少,尤其是中文圈,能找到的不是零散新闻就是过时的旧报告。

这个产业链本身还是挺复杂的,所以得来回翻海外年报、机构研报、公司公告,很多数据还要一条条核对、相互印证。

最后这版,尽量把能查到的2025年最新进展都补全了,希望对你了解整个ASIC芯片产业链有点帮助。

一、行业简介

2023年以来,生成式AI等应用引爆算力需求,大型模型推理成本呈指数级下降,每美元可生成的内容量持续提升。据A16Z测算,自ChatGPT问世以来大模型推理成本每年降低约10倍。

在模型能力攀升与成本下降双重驱动下,AI应用爆发式增长,推理计算需求随之飙升。传统通用GPU虽然计算强大,但价格昂贵、功耗高企,难以满足企业降低成本的迫切诉求。ASIC(专用芯片)正是在此背景下崛起:它为特定AI负载定制设计,在单位算力成本和能效比上优势明显。

全球云计算巨头正加速投入ASIC研发。北美四大云厂商(谷歌、亚马逊、微软、Meta)2024年前三季资本开支同比大增56%,合计达1708亿美元,用于布局AI基础设施。

图:北美四大CSP资本支出规模(亿美元)

各家都意识到自研ASIC有助于提升算力供给多元化、降低对单一GPU供应商的依赖。

目前AI专用芯片市场仍处于早期,规模相对GPU较小,但增长极为迅猛。2023年ASIC占数据中心加速芯片开支的16%(约66亿美元),据 Marvell 等机构预测,到2028年,这一市场有望增长到约554亿美元,2023-2028年的复合年增长率约为53%。

尽管单颗ASIC峰值算力尚略逊于最先进GPU,但在大规模集群中,由于高度定制优化和高效互联,ASIC集群的实际算力利用率可能反超GPU集群。

更重要的是,ASIC价格和功耗更低,性价比出众,在AI推理与定制化训练场景中展现出巨大的应用潜力。

图:训练和推理对AI算力集群的需求差异

综合来看,算力需求的指数级增长和降本增效的现实压力,使ASIC加速器成为云厂商提升ROI的新武器,ASIC产业正迎来高速成长的黄金时期。

二、上游产业链

芯片架构设计与IP授权:ASIC芯片自研过程包含前端架构设计和后端物理实现两个阶段,其中关键IP获取和产业链协同是主要挑战。

自研团队往往难以从零开始设计所有模块,比如高性能SerDes高速接口、HBM内存控制器、片上网络(NoC)等关键IP通常由专业公司多年打磨且有严密知识产权保护。因此云厂商在设计ASIC时大多选择与成熟芯片设计公司合作,共享其IP库和设计经验。

当前,全球最大的ASIC定制设计服务商是博通(Broadcom),其IP储备横跨计算、存储、网络IO、封装等领域,可满足云端XPU(各类加速芯片)设计需要。

博通已拿下谷歌、微软等至少五个云厂客户的定制芯片订单,预计2025年将有3家客户的ASIC产品同时量产。

博通2024财年AI相关收入达122亿美元,同比暴增220%,占其半导体收入比重升至41%,凸显ASIC定制业务的爆发。

图:博通AI芯片客户导入情况

Marvell、美满等公司亦深耕定制芯片领域,Marvell目前服务亚马逊等三家ASIC客户项目,预计2025–2026年其定制AI芯片营收达10亿美元级别。

在台系厂商中,世芯电子(Alchip)和创意电子(GUC)帮助亚马逊设计了最新一代Trainium芯片(采用台积电3nm工艺);联发科亦参与谷歌下一代TPU芯片串行/解串器(SerDes)方案整合。

可以预见,在美国管制加剧背景下,国内云厂商未来也可能更多依托本土设计公司进行ASIC研发。具备ASIC设计/IP能力的A股公司如芯原股份等,拥有丰富的SoC设计服务经验和IP授权业务,有望受益于国产ASIC需求的提升。

另外,EDA软件是芯片设计的基础工具,全球主要供应商为Synopsys、Cadence等。近年来国内涌现华大九天等EDA厂商,但在5nm以下先进制程上仍需依赖海外工具配合完成复杂ASIC电路设计。

晶圆制造(代工):ASIC追求极致性能/功耗,比肩顶尖GPU,因而多采用最先进制程工艺。

当前能够大规模量产5nm及3nm芯片的代工厂主要是台积电和三星。谷歌TPU各代芯片均由台积电代工制造,如TPUv4采用7nm工艺,而第六代TPU将采用台积电3~4nm制程。

图:TPU v4封装和算力集群

微软Maia 100、Meta MTIA v2等也都采用台积电5nm工艺生产。亚马逊Inferentia和Trainium一代芯片是台积电16nm和7nm产品,第二代Trainium2提升到台积电5nm。未来的Trainium3预计将用台积电3nm工艺,并已由台系创意电子完成设计服务。

图:微软Maia 100介绍

图:微软Maia 100内部结构

三星代工在AI加速芯片领域的份额相对有限,但也承接了部分国内项目,如百度昆仑1代AI芯片可能由三星14nm工艺制造。

中国大陆晶圆厂中,中芯国际目前先进工艺停留在7nm左右试产水平,尚不足以承接主流AI ASIC的大规模生产。

不过,随着华虹、SMIC推进N+2工艺和Chiplet方案,未来国内代工厂也有望参与部分ASIC芯片制造。

总体而言,高端AI ASIC芯片的制造高度集中在台积电等少数代工厂,供应链安全和产能保障成为云厂商考虑自研芯片时的重要因素之一。

先进封装与载板、测试:由于AI ASIC往往集成数十乃至上百亿晶体管,发热量和互联带宽需求极高,封装技术对性能影响显著。

许多ASIC芯片采用多裸片(Multi-die)集成设计,将多个小芯片通过硅中介层2.5D封装在一起,并堆叠高带宽存储(HBM)在同一封装内。

这种设计大幅提升了单位面积算力密度,却也对封装基板提出更苛刻要求,因为需要更大尺寸和更多层数的高密度封装载板来承载多裸片互联。

在AI浪潮带动下,高端IC载板出现供不应求,ABF封装基板产能紧张曾一度限制GPU/ASIC出货节奏。

全球领先封装厂包括日月光(ASE)、安靠(Amkor)等已布局2.5D/3D封装产线。台积电也以自有CoWoS技术为客户提供先进封装服务(如Nvidia H100和谷歌TPU都采用台积电CoWoS封装整合HBM)。

国内方面,长电科技、通富微电等封测厂积极投入先进封装能力建设,如硅桥(Fan-Out)和异构集成技术,以期承接部分高端AI芯片封装业务。

在PCB板和封装基板材料环节,沪电股份、生益科技、兴森科技等A股企业深耕高多层板和高速覆铜板领域,有望受益于ASIC芯片多die封装需求的提升。

芯片制造完成后的测试阶段同样重要,高性能ASIC需经过晶圆测试和封装后的成品测试以保证良率。

安捷伦、泰瑞达等测试设备供应商为芯片量产保驾护航;国内的华峰测控等测试设备厂商也在快速发展。

总体来看,上游产业链各环节从设计、IP、EDA到代工、封装、测试,环环相扣共同支撑AI ASIC的研发量产。产业链中具有领先技术和市场地位的公司(如博通、台积电、ASE等)在这一波ASIC热潮中已经率先受益,而国内相关企业正迎头赶上。

三、中游产业链

计算模组与系统集成:ASIC芯片制造出来后,需要集成到服务器硬件中才能发挥算力。

通常厂商会将ASIC封装为加速卡或计算模组,类似GPU卡形式,包含电源管理、高速接口和冷却散热设计等完整系统集成。

比如谷歌的TPU推出了TPU板卡,4个TPU芯片组成一个模块;亚马逊的Trainium2则设计了每台服务器16颗芯片互联的专用加速实例。

模块集成往往由ODM厂商或服务器厂商完成。以浪潮信息、富士康等为代表的服务器制造商具备将AI芯片集成为整机并部署于数据中心的能力。由于ASIC往往需要大规模并行使用,厂商还会针对其优化整机架构和机柜布局。如微软针对其Maia 100芯片设计了“Ares”机柜,每柜配置32颗Maia并采用液冷散热,以承载超大规模模型训练。

还有特斯拉的Dojo系统采用自行设计的训练板,每板集成数百颗D1芯片并配备直接液冷,一板功耗高达15kW。

图:特斯拉 V1 Dojo 训练矩阵(V1 Dojo Training Matrix)

这些模块与系统的集成环节,考验电气设计、热设计和高速通信等工程能力,也是产业链中不可或缺的一环。A股相关公司如中科曙光、紫光股份等在服务器整机和加速卡生产方面有布局,随着ASIC部署扩大,整机出货量将同步增长。

集群互联与网络设备:大规模AI集群的组建离不开高速低延迟的网络互联。目前英伟达GPU集群多采用专有的InfiniBand+NVLink架构,而ASIC集群则普遍采用以太网为主干网络。

云厂商倾向使用“白盒交换机”搭配标准以太网协议,实现较低成本的横向扩展。白盒交换机指由云厂商自研或ODM提供的网络设备,硬件上采用第三方以太网交换芯片,软件上运行自定义的网络操作系统。其优点是价格相比思科等品牌设备更低且灵活可控。

图:白盒交换机解耦上层应用与底层硬件

目前全球白盒交换机硬件供应以台湾厂商为主,如智邦科技(Accton)、广达、纬颖等,以及EMS巨头Celestica(其在中国亦称天弘科技)。

Arista等公司则提供高性能商用以太网交换机,在100G/400G数据中心网络市场占有领先份额。

交换机的核心部件是ASIC交换芯片,主要由博通、Marvell等少数厂家供应,芯片成本占整机成本约三成。

随着AI集群规模从数千扩展到数万节点,对超大规模交换网络的需求激增。如Nvidia最新集群已实现10万卡互联,谷歌TPUv5e通过光纤+3D Torus架构将集群规模拓展到5万卡。

图:AI 集群规模不断上涨,向10万卡规模迈进

以太网交换芯片也在演进到51.2Tb/s甚至更高带宽,以满足“万卡集群”内部通信。

我们预计云厂商自研ASIC的同时,将持续推进网络架构开放化和白盒化,利好高速以太网芯片和白牌交换机供应商的发展。

另外,为在机架内连接ASIC模块,主动高速线(AEC)开始被采用。AEC是一种内置信号放大芯片的高速铜缆,能够在较长距离传输高速信号且功耗和成本低于光模块方案。

随着ASIC大规模部署,北美云厂商自2023年起逐步以AEC替换传统无源直连铜缆(DAC)。预计2025年起短距高速连接市场中AEC增速最快,到2028年AOC光纤、有源/无源铜缆市场规模将达28亿美元,其中AEC占比显著提升。

图:DAC 直径、所占空间更大,排线困难

图:AEC 直径、所占空间更小

当前美企Credo在400G AEC领域市占率高,已打入多家头部云厂供应链。

国内厂商方面,立讯精密、瑞可达等积极研发高速有源线缆,有望逐步切入云数据中心市场。

整体而言,ASIC芯片带动的数据中心网络升级,为交换芯片、光电互连模块、高速线缆等产业带来了新的增长机会。

相关A股企业包括高速通信PCB厂商(如深南电路)、光模块公司(如中际旭创)、高速线缆组件厂商(如立讯精密、天孚通信)等,都将从中长期趋势中受益。

四、下游应用

谷歌(Google)-TPU系列

谷歌是AI ASIC自研的先行者,早在2015年就启动了TPU(Tensor Processing Unit)项目以提高深度学习推理效率。

图:谷歌自研 AI ASIC 芯片 TPU

2016年AlphaGo战胜李世石便首次展示了TPU加速能力。此后TPU飞速迭代,到2023年已发布第五代,2024年谷歌透露第六代TPUv6将面世。

TPU定位于谷歌内部庞大的AI工作负载,目前v5系列已经兼顾训练和推理两种场景。其中TPU v5e面向灵活部署的通用场景,v5p则针对超大规模模型训练。

TPU v5p单个Pod(机架组)包含多达8960颗芯片,借助创新的3D Torus互联拓扑和光交换技术,可将多个Pod组合成多达5万片ASIC的大规模集群而保持近线性加速。

第五代TPU芯片采用台积电5nm工艺,由谷歌与博通联合设计,单芯片BFloat16算力约每秒926万亿次运算(926 TFLOPS),8位整数算力可达918 TOPS,接近英伟达H100 GPU非稀疏性能的90%。

图:谷歌TPU历代产品性能

尽管单卡峰值略低于GPU,但TPU大集群的性能效率和成本优势使其在谷歌内部得到广泛部署。谷歌自研的软硬件生态(如TensorFlow框架的XLA编译器、JAX工具等)与TPU深度融合,方便开发者调用。

可以说,TPU已成为支撑谷歌搜索、Gmail、Cloud AI等服务的算力支柱。随着2025年TPUv6的量产,预计谷歌将进一步提升算力密度并优化内存I/O架构,在ASIC赛道保持领先地位。

谷歌TPU项目也为产业链带动效应:博通贡献了关键IP和物理设计实现,台积电提供先进工艺制造,两者均从中获益匪浅。

亚马逊(Amazon AWS)- Inferentia & Trainium

亚马逊是另一家投入ASIC研发最早的云巨头。其AWS云于2018年收购Annapurna Labs后迅速推出Inferentia推理芯片(首代于2019年商用)以及后续的Trainium训练芯片。

图:Inferentia 1 架构图

Inferentia系列针对在线推理优化,每秒可执行上千TOPS的INT8运算,已用于AWS的语音助手Alexa等服务。

Trainium则面向模型训练,第一代(2021年发布)基于台积电16nm,提供高达512 TFLOPS BF16算力。2023年底AWS正式推出第二代Trainium2,采用5nm工艺,性能比初代提升4倍。

基于Trainium2的AWS Trn1n实例可提供16颗芯片互联的算力节点,借助专有高速互连总线NeuronLink将4个实例(共64颗芯片)组成UltraCluster节点。

图:AWS Trainium 2

相比当前最新GPU云服务器P5的性价比,Trn1n实例提高了30–40%。受益于性能和成本优势,Trainium2自发布以来出货量激增:2024年出货量同比增长超过200%,预计2025年仍将增长70%以上。

包括Adobe、Qualcomm等企业已采用Trainium2云服务训练模型,苹果公司也利用AWS Inferentia芯片来加速其Siri、Apple Maps等应用的AI推理。在推理端,AWS推出的Inf2实例配备最新Inferentia2芯片,针对大模型推理进行了优化。

图:AWS EC2 Inf2实例性能

可以看到,AWS正通过自研芯片垂直打通云基础设施:自研Graviton CPU、Inferentia NPU、Trainium TPU形成了CPU+加速芯片的全栈方案。

未来,AWS步伐不会停歇。根据台媒报道,AWS已在2024年12月发布新一代Trainium3计划,采用台积电3nm工艺,由台湾世芯电子参与设计,预计2025年底推向市场。这将使AWS在AI训练算力上继续缩小与业界顶尖GPU的差距。

随着亚马逊电商、云服务中AI工作负载的暴增,自研ASIC部署规模还将大幅扩大,为AWS节省巨额硬件成本的同时,也进一步强化了供应链自主可控。

微软(Microsoft)- Project Athena “Maia”

相较谷歌和亚马逊,微软在AI芯片自研上起步稍晚,但进展迅速。

早期微软主要依赖GPU和可编程FPGA(Project Brainwave)提供AI加速。直到近年面对OpenAI等合作方庞大的算力需求,微软才启动了代号Athena的AI芯片项目。

2023年微软公布首款自研AI加速器“Maia 100”问世。这颗芯片采用台积电5nm工艺,是5nm节点上规模最大的处理器之一,晶体管数高达1050亿。

Maia 100集成了64GB HBM2e高速显存和专用的AI计算核心,其FP16理论算力预计可达到800 TFLOPS量级。微软为Maia打造了完整配套系统架构:32颗Maia组建一台名为Ares的AI服务器机架,采用液冷技术保证高功耗芯片的散热;Maia芯片内置RDMA以太网控制器,每台机架配置25.6Tb交换机,实现集群内部的高带宽互连。

目前Maia已经在部分内部应用(如Bing搜索、Office Copilot服务)中测试运行。

微软还发布了开源的Triton深度学习编译优化平台,方便开发者在其GPU/ASIC上高效部署模型。由于Azure云庞大的业务体量,微软自研ASIC一旦成熟,将能迅速实现大规模部署。

业内预计微软会在2024–2025年加大Athena项目投入,以降低对英伟达GPU的依赖。鉴于OpenAI是Azure最大的AI客户,Maia芯片未来也有望为OpenAI模型提供底层加速支持。总体而言,微软ASIC的推出标志着英伟达在超大规模云客户中的垄断地位正受到挑战。

图:市面主流GPU与ASIC算力成本对比

Meta(Facebook)- MTIA系列

Meta在AI专用芯片上同样有所布局。其ASIC项目名为MTIA(Meta Training and Inference Accelerator),旨在为Meta海量的推荐算法和内容算法提供更高效的算力。

MTIA v1于2020年前后研制,用于低功耗推理场景;2023年Meta发布了第二代MTIA v2芯片,采用台积电5nm工艺,TDP约90W,在INT8运算下性能比前代提升3.5倍。

图:Meta MTIA 2规格

MTIA v2配备128GB LPDDR5内存(16通道),注重计算与内存带宽的平衡,可提供约177 TFLOPS的FP16算力。

目前MTIA主要用于Meta内部的推荐系统推理等任务,据公司透露效果良好。Meta预计到2026年会推出用于训练的大算力ASIC,加速大型AI模型的训练。

在部署上,Meta的方案是将72颗MTIA芯片安装在单个机架内,通过以太网实现机架间互联。

图:Meta MTIA 2芯片架构

软件方面,Meta的芯片完全融入其PyTorch深度学习框架,实现了透明加速与无缝开发体验。

这点非常关键:依托广泛使用的PyTorch生态,Meta ASIC有望方便地被内部各AI团队采用,而不会像一些新硬件那样面临软件短板的问题。

Meta CEO曾表示,将通过自研ASIC来满足Feed推荐、广告等业务不断增长的AI推理需求,并降低成本。

随着MTIA迭代成熟,Meta在数据中心部署自研AI芯片的规模会逐步扩大,与显卡形成互补:GPU用于最前沿大模型训练,ASIC则高效承担海量推理任务,优化总体TCO。

特斯拉(Tesla) – Dojo D1

除了互联网云厂商,特斯拉也是值得一提的ASIC玩家。为训练自动驾驶的海量视觉模型,特斯拉开发了名为Dojo的超级计算平台,其核心是自研的D1训练芯片。

每颗D1芯片采用台积电7nm工艺,内置CPU内核和大规模矩阵运算单元,特斯拉以近存计算架构将计算阵列与片上SRAM紧密结合,极大提高了数据处理效率。

Dojo系统的独特之处在于采用了“Wafer Scale Engine”思路:特斯拉通过TSMC InFO_SoW先进封装技术,将数十颗D1裸片直接集成在一块巨大的基板上,形成训练“算力砖”(tile),无需传统PCB载板。

每块Dojo训练板集成了120个D1 die,功耗高达15千瓦,通过直接液冷散热。多个训练板再通过特斯拉自研的TTP高速互联协议组成大型并行计算集群。

据特斯拉介绍,在BFloat16或兼容FP8精度下,一个Dojo机柜可实现1 ExaFLOPS(10^18次浮点运算/秒)的算力水平。

Dojo于2023年开始在特斯拉的数据中心上线,用于自动驾驶模型的训练迭代。马斯克透露未来Dojo可能为特斯拉节省数亿美元算力支出,并不排除对外提供AI算力服务。

特斯拉Dojo的出现意味着专用算力不再只是云公司的游戏,传统制造业巨头也能因自身业务需要切入芯片开发,从而推动ASIC生态进一步扩大。

百度、阿里巴巴、腾讯- 国内云厂商ASIC实践

中国科技公司在AI芯片自研方面同样不甘人后。百度旗下的昆仑芯片已迭代至第二代,并预计2024年推出第三代。昆仑芯1代于2018年发布(14nm工艺),算力约256 TFLOPS INT8,主要用于语音、NLP推理加速;2代在2021年量产,升级到7nm工艺并成为国内首款搭载GDDR6显存的通用AI芯片,峰值算力提升至512 TFLOPS INT8。

昆仑2已在百度云和自动驾驶平台中部署,如Apollo L4级自动驾驶汽车就使用昆仑芯支持环境感知和决策模块。

昆仑芯的设计兼容TensorFlow/PyTorch等框架,方便开发者调用,百度还开源了部分软件栈。预计昆仑3代将采用更先进工艺和架构,为大模型训练提供支持。

阿里巴巴在2019年成立平头哥半导体,推出首款云端AI推理芯片含光800。含光800基于12nm工艺,自研NPU架构,集成了170亿晶体管。

图:含光 800 NPU/NPU 架构图

其设计重点是视觉推理,单芯片可提供每秒78,000张图片识别的性能,相当于当时10颗GPU的总和,但功耗仅300W左右。

含光800采用4核NPU架构,支持近存计算(每核配备本地高速SRAM),极大降低数据搬运延迟和能耗。该芯片已大规模应用于阿里云和阿里内部业务,如城市大脑、商品搜索推荐,以及阿里的通义千问大模型推理服务。

平头哥还为含光800打造了HGAI开发套件,支持主流框架模型在芯片上高效部署。目前阿里据报道正在研发新一代云端AI芯片,可能针对训练场景,未来有望公布更多细节。

图:阿里推出 HGAI 软件包,提升用户编程效率

腾讯则在2021年宣布了三款自研芯片,分别命名为紫霄、沧海、玄灵。其中紫霄是AI推理芯片,采用2.5D封装集成HBM2e显存。

紫霄芯片主要服务于腾讯内部的语音识别、OCR文字识别、推荐排序等AI推理场景。据披露,紫霄在图片、视频处理和NLP任务中的峰值算力和内存带宽相比英伟达T4有显著优势。

图:紫霄芯片算力参数与英伟达 T4 对比

目前紫霄已在腾讯的语音转文字、内容审核等业务上线运行,同时腾讯云也对外提供搭载紫霄的推理加速实例。腾讯的另一款芯片沧海用于视频编码加速(已量产数万片部署于云游戏和视频直播)、玄灵用于智能网卡DPU方向。

这表明腾讯采取了多点开花的芯片策略,在AI推理、视频处理、网络加速等领域均布局定制ASIC,以优化自身庞大业务的算力成本结构。

总体而言,BAT三家在AI芯片上各有侧重:百度专注通用AI加速器并探索汽车智能,阿里瞄准云上推理和专用算法优化,腾讯面向自身业务痛点多线并进。

尽管国内ASIC性能与国际顶尖还有代差(如阿里含光、腾讯紫霄发布于2019–2021年,相比最新H100或TPUv5仍属于早期产品)。但经过这几年的经验积累,新一代国产AI芯片性能有望大幅提升。随着AI大模型在中国的落地应用加速,本土云厂商和独立AI公司势必加大自研ASIC投入,以规避国外芯片限制并降低长期成本。

新兴AI玩家- OpenAI、DeepMind等动向

除了上述云服务公司,一些AI领先团队也开始探索自研芯片。OpenAI作为GPT模型的创造者,每年消耗海量算力。媒体报道显示OpenAI已启动ASIC项目,计划采用台积电3nm工艺和CoWoS封装来打造专用AI芯片,并已预订了相应产能。

预计OpenAI的首款芯片最早将在2026年底前投入量产。同时,OpenAI、甲骨文和软银合作发起了代号“星际之门(Project SkyGate)”的大型计划,计划未来数年投资高达5000亿美元用于AI基础设施建设,其中就包括自研芯片在内的算力部署。

另一边,DeepMind等AI研究机构也可能借助谷歌的硬件实力进行定制化芯片尝试。值得关注的还有近期崛起的开源大模型社区:例如DeepSeek的开源项目发布了性能接近OpenAI模型的推理优化模型。低成本高性能的开源模型涌现,有望催生更多垂直应用,从而带来更广泛的AI推理算力需求。

这部分需求可能通过云厂商公有云的ASIC实例或中小型AI公司自研ASIC来满足。因此,未来几年的AI芯片竞争格局,不再只是GPU厂商与几家大云厂商的对抗,而将呈现百花齐放的局面:各类AI创业公司、研究机构也可能加入定制芯片的行列,在细分场景打造专用加速方案。整个行业的创新速度和多样性都将大大提升。

五、技术路线演进

低精度计算趋势:为了进一步提升AI芯片效率,业界正从数据表示精度上做文章。

从早期训练使用的FP32逐步降低到半精度FP16/BF16,如今又推进到更低的FP8甚至INT4。低精度运算能以更少的比特完成计算,大幅减少存储访存和带宽占用,从而提高算力密度。例如英伟达H100 GPU原生支持FP8矩阵运算,每颗芯片理论算力可从FP16的1000 TFLOPS提升到FP8的2000 TFLOPS(开启稀疏还可达4000 TFLOPS)。

谷歌最新TPU v6同样增加了对FP8的支持,使其FP8算力相比BF16提升一倍,达到每秒1600万亿次运算,约相当于英伟达H100的80%水平。

在推理端,INT8早已成为主流精度,INT4也在部分高效模型上尝试。降低精度带来的精度损失可通过量化算法和感知训练等手段弥补,使模型预测准确率几乎不受影响。因此,FP8/INT8被广泛认为是近期训练和推理芯片的发展方向。许多新ASIC都将低精度算力作为卖点,提供混合精度计算能力,以兼顾模型精度和性能。

稀疏计算加速:神经网络计算中有大量矩阵值实际上为零或无效,如果能跳过这些“空算”,将极大提高硬件利用率。

NVIDIA Ampere架构GPU引入了结构化稀疏技术,以固定2:4稀疏比例加速矩阵运算,实现最多1.5倍实际性能提升。同理,AI ASIC也在探索支持更灵活的稀疏计算单元。比如Meta的MTIA芯片针对低复杂度模型优化,在能效上已经超过传统密集计算的GPU。

一些新兴架构(如Graph Core的IPU、SambaNova的RDU等)则从底层硬件就针对稀疏矩阵、稀疏神经网络进行了特殊设计。

未来ASIC可能集成专门的“Sparse Core”模块,动态识别并跳过零值计算,实现算力的有效利用翻倍。稀疏化与低精度结合,是在模型规模爆炸情况下保持芯片性能增长的关键手段之一。

先进互联架构与3D集成:随着单芯片提升空间逼近物理极限,多芯片互联和3D集成成为提升算力的新路径。

一方面,在芯片封装级别,通过硅中介层将多个计算chiplet组成逻辑上的“大芯片”,并通过硅穿孔和重分布层提供高带宽连接。例如亚马逊Inferentia 2代据称采用了多裸片封装,以增加核心数量。

另一方面,在系统级别,出现了3D Torus、Dragonfly等新拓扑结构,将成百上千颗芯片高效互联。谷歌TPU自v4起就引入光交换网络,可按需重构连接拓扑,实现大规模并行计算时的低延迟通信。TPU v5采用三维立体网格互联,提升了Pod内部通信效率,也使得更大规模集群成为可能。此外,3D堆叠技术开始应用于AI芯片,如AMD MI300将多颗计算芯片和HBM显存垂直堆叠,通过硅通孔紧密连接。这类3D IC技术未来也可能被ASIC采用,以突破传统平面封装的限制。

总的来看,无论是封装内的多芯片集成,还是系统间的网络革新,都是为了解决算力扩展中的“通信墙”瓶颈,使上万颗计算单元能够高效协同。

高带宽存储与内存层次:AI计算离不开高速大容量存储,特别是训练大模型需要海量数据交换。

HBM(高带宽内存)成为高性能AI芯片的标配,从HBM2发展到HBM3,其单颗带宽从256GB/s提高到>1 TB/s以上。

最新AI芯片往往集成多个HBM堆栈以提升容量和带宽,如谷歌TPUv5p单片带有6堆HBM,合计95GB显存,带宽高达每秒2.8 TB。

相比之下,上一代TPUv4仅有32GB HBM2 内存和1.2 TB/s带宽。可见HBM容量正快速攀升以匹配算力增长。

此外,一些芯片架构引入了SRAM Buffer或本地内存作为中间缓存,加速处理器与HBM之间的数据交换。如特斯拉D1芯片在片上集成大量SRAM,把常用数据“放在身边”以降低延迟。

未来,Compute Express Link (CXL)等新型内存互连有望进一步扩展AI系统的有效内存池,让多芯片共享海量内存资源。存储子系统的演进对于AI ASIC同样重要:只有喂饱数据,计算单元的强大算力才能真正转化为应用性能。

因此我们预计,高带宽内存及更高级别的分布式存储架构将持续发展,与ASIC芯片算力提升保持同步。

六、发展趋势

未来,AI ASIC市场有望沿着高速增长轨道持续演进。根据多方预测,到2028年数据中心定制AI芯片市场规模将从目前的几十亿美元攀升至400亿美元以上,对应数百万颗ASIC加速芯片的出货量。

仅谷歌一家2024年ASIC出货量预计就达到数百万颗规模,市占率超过70%。亚马逊等后起之秀也在快速追赶,预计2025年Trainium芯片出货增速仍高达70%以上。可以预见,云厂商内部自研芯片将承担越来越多的AI算力角色。

英伟达GPU在超大规模云计算中的统治地位可能被削弱,取而代之的是多元化的加速芯片共存格局:头部云公司采用自研ASIC+部分第三方GPU,第二梯队厂商可能选择与ASIC设计公司合作定制芯片,而一般企业和研究机构则继续主要使用商业GPU或FPGA等。

这种变化将重塑AI芯片竞争版图。英伟达也已开始积极应对,据报道其正在组建定制芯片业务部门,主动与谷歌、亚马逊、Meta、OpenAI等洽谈,寻求为它们设计生产专用芯片的合作机会。可见即使是GPU龙头也不得不加入ASIC浪潮,以免错失新的市场机遇。

另一方面,专用芯片的兴起带来了整个半导体产业链的新机遇和新挑战。

上游的IP、EDA厂商将迎来更多定制芯片项目需求,像博通、Marvell这样拥有丰富IP和先进封装能力的设计服务商已显著受益。

中游的高速互联、封装基板、服务器整机等环节也将水涨船高。下游应用领域,云计算仍是ASIC需求最旺盛的市场,但随着AI推理深入各行各业,边缘端专用AI芯片也会大量出现,形成“云-边-端”全方位的ASIC渗透。

尤其在推理场景,未来绝大部分AI推理任务都可能由ASIC来执行:云端有谷歌TPU等提供服务,企业内部有定制ASIC部署在本地机房,终端设备有各类专用NPU芯片,实现AI无处不在。

根据国金证券预测,ASIC因高性价比满足了大规模推理降本需求,其出货量有望呈现指数增长。当然,ASIC大发展也面临风险,如算法迭代过快可能导致芯片设计跟不上变化、软件生态短板需要时间补齐等。但整体而言,定制加速芯片契合了AI产业降本增效和自主可控的长远方向,其规模部署将是大势所趋。

图:数据中心定制加速计算市场规模

对于投资者来说,ASIC产业链的繁荣将带来众多机会。从芯片设计服务公司、IP供应商,到上游的代工厂、材料和设备商,再到下游的高速通信、PCB、服务器厂商,都有望分享行业增长的红利。

具体而言,我们看好具备关键IP和先进封装技术的ASIC设计公司(如博通、Marvell等);以太网交换芯片和白盒交换机领域的领先企业(如博通、Arista、Celestica等);高速有源线缆和光模块厂商(如Credo、立讯精密等);以及高多层PCB和封装基板厂商(如沪电股份、生益科技等)。

这些环节的公司将直接受益于AI算力基础设施的升级扩容。当然,竞争格局也在演变,国际巨头与本土新锐同场竞技。

在训练芯片领域,Nvidia、AMD等GPU厂商不会坐视,未来或通过Chiplet开放标准与生态绑定继续保持竞争力;在推理芯片领域,各垂直行业可能出现一批“小而美”的ASIC方案,满足特定场景需求。

总之,ASIC浪潮才刚刚开始,其市场空间将随着AI技术的普及而水涨船高。可以预见,在不远的将来,我们将生活在一个“ASIC无处不在”的时代:从云端数据中心到手边的设备,都有定制AI芯片在高效地运行,为数字经济提供澎湃动力。

来源:行业调研报告

相关推荐