摘要:对于中国而言,构建自主可控的芯片产业链具有战略价值:一方面可避免“卡脖子”风险(如关键设备/软件受制于人),另一方面是在中美技术博弈中争夺下一代计算主导权的必然要求。
芯片产业链涵盖从上游的设计工具与材料,到中游的芯片研发制造,再到下游的应用场景,是现代科技竞争的核心所在。
在人工智能时代,芯片(尤其是AI芯片)成为算力基石,其性能高低直接决定AI发展的速度和上限。
对于中国而言,构建自主可控的芯片产业链具有战略价值:一方面可避免“卡脖子”风险(如关键设备/软件受制于人),另一方面是在中美技术博弈中争夺下一代计算主导权的必然要求。
近年来全球芯片产业格局因地缘因素出现变化:美国通过CHIPS法案投入巨资扶持本土制造,日本、欧洲也强化本地供应链,而中国在政策和资本双重支持下涌现出众多芯片企业,试图在架构创新和新兴领域实现“换道超车”。然而必须看到,国产芯片依然面临架构定义能力、软件生态短板和规模化落地等三大挑战。
在CPU/GPU等传统架构上,中国厂商起步晚、生态弱,与英特尔、英伟达等国际巨头存在明显差距。而在RISC-V开源架构、存内计算等新兴路线上,中国有机会参与“定义游戏规则”,缩小代差。
总之,芯片产业链已成为中美博弈的焦点领域,其全貌涵盖了上游的基础支撑、中游的芯片设计制造、下游的应用牵引,牵一发而动全身。
下面将分环节详解芯片产业链现状,并分析国内外代表企业和技术趋势。
一、上游产业链
上游环节为芯片产业提供“地基”,包括EDA设计工具、IP核授权、生产设备、晶圆制造、材料供应以及封装测试等。
EDA工具是芯片设计的基石,长期被Synopsys、Cadence等美企垄断。但近年中国EDA企业快速进步:华大九天等公司在数字电路设计主要工具上已实现近80%的覆盖率。据报道,华为联合多家国内EDA厂商开发了14nm及以上工艺所需EDA软件,基本实现了14nm节点的工具国产化。
图:华大九天数字电路设计 EDA 工具系统的产品布局情况
不过,在7nm及更先进制程上,国内EDA和IP仍有明显差距,先进制程设计对海外工具依赖度高,中国EDA企业正通过加速并购和研发来追赶。
图:2024 年中国 EDA 行业竞争格局
另外,芯片IP方面,ARM架构CPU内核曾是中国大部分芯片公司的首选,然而ARM受制于英美管控,存在授权不确定性。为此,开放的RISC-V指令集受到高度关注,中国公司(如阿里平头哥等)积极参与RISC-V生态,以“开放可定制”的架构寻求自主创新。
自主指令集也是一条路径,比如龙芯中科开发了LoongArch指令集,以摆脱对国外IP的依赖。
总的来说,上游EDA和IP领域正逐步摆脱“一家独大”,国产替代率在提升,但高端工具链和生态构建仍需时间。
刻蚀机、薄膜沉积设备等领域中国企业(中微、北方华创等)已有一定进展,部分产品达到国际一流水平,但整体上高端设备依赖进口的问题尚未根本解决。
晶圆制造方面,中国最大的代工厂中芯国际(SMIC)当前量产工艺集中在14nm及以上节点,虽然通过技术攻关试产了“N+2”7nm工艺芯片,但受限于设备,其产能与良率远不及5nm/3nm。
更严峻的是,从2024年起,据称已暂停向大陆AI芯片公司提供7nm及以下代工服务,进一步逼迫国产高端芯片转向本土产能。这意味着,国内在28nm-14nm成熟工艺上要满足庞大需求,同时在7nm及以下前沿工艺上寻求非常规路径(如多重曝光、Chiplet分芯片集成,后文详述)实现突破。
半导体材料领域包括硅晶圆、光刻胶、电子特气、高纯化学品等。此类上游材料过去主要由日本、欧美厂商供应(如硅片的新日铁、信越化学,光刻胶的东京应化等)。随着供应链安全受到重视,中国本土也在布局,并涌现出一些硅片制造商和化学材料企业,逐步进入主流供应链。但高端硅片(300mm抛光片)、ArF光刻胶等关键材料的国产化率仍较低,需要继续攻关。
封装测试作为产业链上游的最后一环,同样至关重要。传统封装领域中国已有多家领军企业,如长电科技、通富微电等位列全球封测行业前茅,能够承担大规模芯片的封装和测试。
然而在高性能计算时代,先进封装(如Chiplet小芯粒封装、2.5D硅中介层、3D堆叠等)变得举足轻重。
目前先进封装产能不足已成为量产瓶颈之一。好消息是,中国企业和研究机构正全力投入先进封装技术的开发,包括建设2.5D/3D封测产线以及自主封装装备。据报道,华为正携手封测伙伴提升高端封装能力,以保障昇腾AI芯片的大规模交付。
总体而言,上游环节正在加速补短板:EDA/IP自主化、设备国产化、材料供应稳定都是实现芯片产业链自主可控的关键。虽然短期内难以全面替代海外顶尖水平,但局部领域的突破正逐步堆积,为中游芯片设计制造提供更坚实的基础。
二、中游产业链
中游产业链是芯片的设计研发和制造环节,覆盖各类用途的芯片产品,可谓“百花齐放”。
根据功能和应用,可将芯片大致分为通用处理器和专用芯片两大类:前者包括CPU、GPU等,强调通用计算能力;后者包括AI加速芯片(NPU/TPU)、FPGA、存储芯片、传感器/射频/电源管理等专用器件,面向特定功能优化设计。
以下细分说明各类别的发展现状,并穿插国内外代表企业比较。
CPU(中央处理器):CPU是通用计算的核心,长期由Intel、AMD在PC/服务器领域主导,在移动端则由ARM架构的高通、苹果芯片主导。
中国在CPU领域布局已久,出现了“多架构并进”的局面。一方面,企业如天津飞腾、华为鲲鹏基于ARM指令集开发了一系列国产CPU,用于服务器和终端设备;另一方面,像龙芯中科则自研了LoongArch指令集,成都申威采用自主指令集SW-64用于高性能计算,中科海光通过与AMD合作获得x86架构授权等。
这些国产CPU已推出多款产品(如飞腾腾云S5000、龙芯3A6000系列、海光3000/5000系列等),在党政办公、工控以及部分服务器领域实现应用落地。
不过,相比Intel/AMD最新一代处理器,国产CPU在工艺制程、单核性能、软件生态上仍存在明显差距,主要用于特定领域的替代和补充。但随着ARM生态的壮大和RISC-V的兴起,以及国家信创(信息化应用创新)工程的推动,国产CPU正逐步追赶。比如华为鲲鹏920系列已具备媲美ARM旗舰内核的性能,用于自家服务器和云计算;飞腾、龙芯的新一代产品性能提升显著,努力缩小与国际主流的差距。
GPU(图形处理器):GPU最初用于图形渲染,现已成为AI训练和高性能计算的主力加速器。
全球GPU市场上英伟达(NVIDIA)一家独大,不仅在显卡领域占据统治地位,更凭借CUDA生态垄断了AI计算加速卡市场;AMD作为老牌GPU厂商市占率次之,但在AI加速上影响力有限。
面对NVIDIA的优势地位,中国也涌现出多家GPU初创企业,试图切入这一市场。例如上海的壁仞科技推出了BR100通用GPU,号称性能接近NVIDIA A100;北京的摩尔线程、天数智芯(并购自海光子公司)也发布了国产GPU产品用于数据中心或云游戏等场景;此外航锦科技、中科睿芯等公司研发GPU或GPU IP,用于国防、安全、自主可控计算领域。
整体而言,国产GPU仍落后NVIDIA约两代。据产业专家分析,目前国内AI加速卡在显存容量、带宽等规格上已接近NVIDIA上代产品,但算力仅能达到NVIDIA同代产品的一半左右,主要受制于制程工艺限制。
以华为为例,刚发布的昇腾AI GPU系列(如新款Atlas加速卡)在显存容量(最高288GB)和芯片互联带宽上已经超过NVIDIA中国版A800,直逼H100(代号“H20”)的水平,但FP32/FP16算力仍只有后者的约50%。
图:昇腾 AI 基础软硬件平台
国内其他加速芯片(寒武纪思元、阿里平头哥含光800、百度昆仑芯等)也大多停留在上一代精度或算力水平,整体落后NVIDIA约两代。
尽管在绝对性能上仍存差距,国内GPU与AI芯片企业正迎来一个“有货就能卖”的市场窗口。这一机遇主要源于两方面:一是2023年以来生成式AI浪潮推动算力需求呈现爆炸式增长,二是美国对华高端GPU的销售政策持续波动。例如,英伟达曾一度暂停H100系列在华供应,后续虽推出专门针对中国市场的A800与H800型号,但其性能存在明显限制,难以完全满足国内大型厂商动辄百万片量级的采购需求。
在这一供需失衡的背景下,国产GPU获得了抢占市场的宝贵契机。近期,华为、天数智芯、海光等国内企业的AI加速卡产品在市场上反响强烈,出现供不应求的局面,部分型号甚至“一卡难求”。
在AI训练和推理的庞大内需拉动下,即便单卡性能不及竞品,国产GPU通过规模部署和集群优化也能发挥竞争力(后文将提到“超节点”集群方案)。
AI专用芯片(ASIC/NPU等):这类芯片专为AI推理或训练任务定制,追求极致能效和性能。
海外代表如谷歌TPU(用于内部AI计算),亚马逊Inferentia/Trainium(用于AWS云服务),还有特斯拉FSD芯片(自动驾驶专用)等,体现了巨头公司为特定场景自研芯片的趋势。
中国在AI专用芯片方面起步也较早,涌现了“AI芯片独角兽”阵营:寒武纪是最早上市的AI芯片公司,提供思元系列训练推理芯片及IP授权;依图、云知声、地平线等曾并称“AI芯片四小龙”,分别在安防、语音、自动驾驶等领域推出过芯片方案(如地平线的征程Journey系列现在汽车上量,见后文);阿里达摩院平头哥发布了含光800云推理芯片、玄铁系列RISC-V处理器核;百度推出昆仑芯用于大模型训练和推理服务;燧原科技提供树根系列AI训练芯片,已应用于电信运营商的算力平台;登临科技、沐曦科技等新锐公司也加入战局。
图:主要AI芯片对比
这些AI ASIC往往针对神经网络运算进行架构创新,如寒武纪思元系列引入MLUv架构张量计算单元、天数智芯采用类CPU+GPU融合架构支持通用算力和AI加速、沐曦L系列则主打训练推理一体。
当前,国内AI芯片企业产品力尚未拉开明显档次,各家硬件规格处于同代水平,没有谁真正领先一代以上。
因此供应链产能和生态支持成为竞争成败的关键。在产能方面,由于先进工艺受限,中芯国际成为华为、海光等的主要代工伙伴,华为昇腾芯片的产能保障相对稳定,寒武纪等也积极导入国内晶圆厂。
生态方面,大厂的“订单+资金”扶持作用凸显;如百度支持的昆仑芯不仅获得数万片订单,还帮助百度自身提升市值。可以看到,AI专用芯片领域中,美企凭借软件生态(如谷歌TensorFlow针对TPU优化)和工艺优势占先机,但中方公司背靠本土市场和应用场景,在算法硬件协同优化上快步追赶。一旦在某些细分应用中实现突破,国产AI ASIC有望实现“弯道超车”。
FPGA(可编程门阵列):FPGA能够通过后配置硬件逻辑,实现灵活加速,是介于通用处理器和专用ASIC之间的方案。
全球FPGA市场主要被赛灵思(Xilinx)和英特尔(收购Altera)垄断,用于通信、数据中心加速、航空航天等领域。
中国的FPGA起步较晚,目前有一些厂商如紫光同创(已推出中低端FPGA芯片),安路科技(聚焦中低密度FPGA并已科创板上市),高云半导体(Gowin,产品用于工业控制和显示等)等。
总体来看国产FPGA多定位于中低端市场,高端FPGA(如28nm及以下工艺、百万逻辑单元规模)仍依赖进口。
不过,随着国家推动“可重构计算”研究,以及RISC-V生态结合FPGA用于验证定制指令等趋势,国内FPGA产业有望获得更多发展机遇。近期也有报道提到部分国产AI芯片公司采用FPGA进行原型验证和早期产品试用,这在一定程度上带动了国产FPGA的应用。
存储芯片:存储器分为DRAM(内存)和NAND Flash(闪存)两大类,是全球市场规模最大的芯片品类之一。
美韩厂商居于霸主地位,三星、SK海力士、美光三家公司占据近九成DRAM份额;NAND Flash方面除了韩美还有日本铠侠(Kioxia)占据重要位置。
中国在存储芯片领域近年来实现了从无到有的突破:长江存储(YMTC)成功研发出自有技术路线的3D NAND闪存,量产了128层堆叠的3D TLC颗粒并应用于消费级SSD,被视为中国半导体的重大里程碑。
但受美国出口限制影响,长江存储获取EUV光刻机以及先进存储设计工具受阻,原计划的232层新产品进度受影响。
DRAM方面,合肥长鑫(CXMT)主攻利基型和通用DRAM,已量产19nm工艺的DDR4芯片并研发17nm工艺,尽管与国际巨头的10nm级DDR5仍有一段距离,但实现了国产DRAM零的突破。
华为近日宣布将推出自主研发的HBM内存用于其下一代AI芯片。如果这一计划实现,将极大增强中国在高端存储器方面的自主性。
整体而言,存储芯片的技术壁垒高、资金投入巨大,中国厂商短期难以撼动国际龙头的市场地位,但在政府和市场双重驱动下,国产存储正逐步分羹细分市场,为产业链安全提供支撑。
其他类型芯片:这包括驱动芯片、传感器、射频(RF)和电源管理等众多品类,广泛应用于消费电子、汽车、工业设备等。
虽然单品价值不如CPU/GPU,但数量庞大且不可或缺。以显示驱动芯片为例,手机、电视屏幕都需DDIC驱动IC,近年来大陆厂商如上海奕斯伟、集创北方等也切入LCD驱动市场,在中低端实现出货。
传感器方面,最典型的是CMOS图像传感器(CIS),全球龙头是索尼,其次是三星。
中国的韦尔股份通过并购豪威科技(OmniVision)成为全球前三的CIS供应商,在手机中端摄像头、安防监控等领域市占率较高。
此外还有陀螺仪、加速度计等MEMS传感器领域,歌尔股份、矽杰微等国内企业有所布局。
射频芯片尤其是射频前端模块,对手机通信至关重要,包括功放(PA)、滤波器、天线开关等,过去高度依赖Qorvo、Skyworks等美企。近年来,国内的卓胜微等公司在低频射频开关、LNA等细分领域取得突破,5G射频前端国产化正在推进但高端滤波器仍被村田等日企垄断。
电源管理芯片(PMIC)和各类模拟器件也是产业链重要组成,国内涌现出一批优质模拟IC公司(如圣邦股份、思瑞浦等),在消费电子电源管理上已经与国际产品性能相当,逐步实现进口替代。
综上,中游产业链可谓门类众多,中国在部分领域已形成一定规模和技术积累,但整体来看,高端通用芯片仍以国外为主、国产为辅的格局没有根本改变。
不过这种局面正在被快速发展的中国算力需求所改写:当下中国从云计算中心到智能汽车,对各类芯片需求量激增,本土企业只要产品可用,就有巨大的内需市场支撑。“有货就能卖”在某种程度上缓解了国产芯片商业化难题,也倒逼中游企业不断迭代提升,以期早日实现从跟随到超越。
三、下游应用产业链
芯片的价值最终要通过下游应用来体现,下游各行各业的繁荣又会反哺芯片需求。当前下游应用中,最引人注目的是与AI大模型相关的计算需求爆发,以及汽车电子、智能终端、物联网等领域对芯片的巨大牵引作用。
数据中心与服务器是近年来芯片需求增长最快的下游领域之一。特别是自2023年ChatGPT引领的大模型热潮以来,全球算力需求呈指数级攀升。
训练一个千亿参数模型需要成百上千张GPU卡协同工作,而推理环节随着AIGC(生成式AI)应用普及,请求量暴涨也带来了海量推理算力需求。
据谷歌披露,其生成AI服务每月处理的Token数量正成倍增长;国内头部互联网公司在2022年底对NVIDIA H100级别GPU的年需求就达到百万片量级,2025年实际需求肯定将远超这一数字。
面对如此旺盛的市场,一方面国际巨头纷纷追加投入:Meta、苹果各自计划未来几年投入数千亿美元扩充AI基础设施,谷歌两年内投入2500亿美元升级算力,微软也宣布每年投入750-800亿美元发展云与AI。
另一方面,由于美国对华出口管制反复变化,国内大型云厂商采购NVIDIA高端GPU时一度受阻,这反而催生了国产算力方案的大规模部署。
今年以来,阿里巴巴、华为等公司高调发布了自研算力芯片的最新进展:阿里平头哥的AI加速卡已经在内部部署了1.6万卡规模的集群;华为则公布了未来数年的AI芯片路线图,包括2026年的昇腾950、2027年的960、2028年的970,并宣称将采用自主研发的HBM存储。
基于此,华为计划构建Atlas系列AI计算平台,其中Atlas 950将成为全球最强超节点,Atlas 950 SuperCluster集群也号称将成全球最强算力集群。
图:华为Atlas 950 SuperCluster集群
目前华为已经推出Atlas 900集群(内含CloudMatrix 384架构的超节点服务器),实测达到300 PFlops的算力,成为当时全球算力最大的AI训练集群。
据报道,Atlas 900由432个昇腾AI超节点互联组成,可扩展至16万颗AI芯片的规模,大模型训练任务的并行效率高达95%以上。这些壮观的数据背后,是中国在下游应用牵引下,通过集群化弥补单芯片性能不足的现实写照:当先进制程暂时无法企及时,就用更多的芯片、更优秀的系统设计来堆砌算力。
“中国不光在AI模型上对标海外厂商,在硬件层面也通过集群计算方式补足了芯片上的差距,在超节点和集群规模上已处于全球领先”。
面向下游巨大的智算中心建设浪潮,服务器和数据中心市场将持续拉动高端CPU、GPU/加速卡、交换芯片、光模块等配套芯片需求;同时,国内厂商会利用本土数据中心作为练兵场,快速升级产品迭代,形成应用促研发的良性循环。
智能手机和消费电子依旧是芯片最大下游市场之一。智能手机每年出货数以亿计,其中包含众多芯片:SoC主处理器、基带通信芯片、存储芯片、射频前端、各类传感/驱动/电源管理芯片等。
手机领域长期被高通、苹果、联发科等掌控,近年国产手机厂商也在芯片上不断突破:华为海思麒麟芯片曾达世界先进水平,最新发布的麒麟9000S在5G禁令下重出江湖,采用了中芯7nm工艺实现了5G通信能力,标志性事件是华为Mate60 Pro上市引发社会轰动。
虽然麒麟芯片目前仅供华为自家手机使用,但其出现表明中国完全有能力设计出顶尖手机SoC,一旦制造瓶颈缓解将重塑市场格局。
除了手机SoC,国产手机产业链也在加强供应链自主:存储方面,长江存储的NAND已进入国产旗舰机供应;影像芯片上,OV(韦尔股份)为许多国产机型提供摄像头传感器;屏幕驱动芯片和电源管理等也逐步采用本土方案。
在移动AI方面,自2017年苹果A11芯片集成NPU以来,手机端AI算力不断提升,用于摄像、人脸识别、语音助手等。
华为麒麟芯片内置的NPU(寒武纪IP授权)曾领先业界;当前国内手机厂如OPPO、自研NPU(马里亚纳X)用于影像处理,小米也投资了芯片设计公司以开发手机影像和AI芯片。
随着终端AI应用兴起,手机对AI加速的需求会越来越高,大模型有望精简后下沉到终端(如本地语音大模型、图像生成等),这也将驱动端侧AI芯片的发展。
总体而言,智能手机作为成熟产业,芯片供应链在逐步本土化,国产终端SoC若能卷土重来,将显著提升中国在消费电子领域的话语权。
汽车电子是另一片芯片需求蓝海。现代智能汽车被称为“轮式智能手机”,单车芯片用量从几十颗跃升到上百甚至上千颗。尤其是智能驾驶和车载智能座舱的兴起,为高性能芯片打开了广阔市场。
在自动驾驶/高级驾驶辅助(ADAS)方面,车载AI芯片充当汽车的大脑,需要处理来自激光雷达、摄像头、毫米波雷达的海量数据,对算力、实时性要求极高。
国际上英伟达的Orin系列SoC几乎成了高等级自动驾驶标配(特斯拉自研FSD芯片除外),2024年英伟达还将推出算力高达2000 TOPS的Thor芯片以一统座舱和驾驶域。
国内在这一领域已取得可喜进展:地平线公司的征程系列芯片已经装车量产,征程5(Journey 5)具备128 TOPS算力,满足L2++自动驾驶需求,成功打入理想、长城等车型。
更具意义的是,中档车型也开始采用国产自动驾驶芯片,例如比亚迪在今年发布的高阶辅助驾驶系统“天神之眼”中,就采用了地平线征程J6M芯片,实现了较低成本下的高等级驾驶功能。
这表明国产中等算力芯片凭借性价比优势普及了智驾功能,未来车用芯片市场将更加注重算力与成本的平衡,中端国产芯片有望占据更大份额。
此外,华为的昇腾/麒麟车载芯片(用于MDC智能驾驶计算平台)已在北汽极狐等车型上部署;国产初创如黑芝麻智能(华山系列)、芯动(行泊一体SoC)等也相继推出车规级AI芯片,涵盖从感知计算到决策控制的不同任务。
其次,车载座舱芯片方面,随着车内娱乐和智能交互升级,座舱SoC需要同时处理仪表、中控多屏显示和AI助手等功能,性能要求水涨船高。
高通骁龙座舱芯片目前市占率最高,而国内厂商正在奋起直追:地平线已推出舱驾一体的征程3芯片;高性能座舱SoC方面,科技部“司南计划”支持下有企业研发了面向座舱的8nm AI芯片;阿里平头哥据传也在开发车载芯片方案。
不仅如此,大模型技术也开始进入汽车,数十亿参数级的AI模型有望在车端运行,用于语音助手、驾驶决策等。这将倒逼车载芯片性能革命,如近期有车企宣布将搭载支持百亿参数大模型推理的国产芯片。
综合来看,汽车智能化、电动化趋势将持续释放对芯片的需求,从功率半导体(IGBT、电源管理)到各类传感器、MCU微控器,皆是国产化的重要方向。
在这一领域,中国拥有全球最大的汽车市场和众多创新应用场景,本土芯片只要性能可靠,通过车规认证,完全有机会大规模上车,实现弯道超车。
边缘计算与物联网:物联网(IoT)设备数以百亿计,虽然单个设备对芯片性能要求不高,但胜在数量庞大且应用多样。
图:物联网产业链结构图
在安防摄像头、智能音箱、工业控制器等边缘侧场景,越来越多AI功能被下放到本地,实现端侧智能。比如安防摄像头内置AI芯片可实时进行人脸识别和行为分析,无需将视频上传云端,从而降低延迟并保护隐私;还有智能音箱包含的语音识别芯片可在离线状态识别唤醒词和简单指令。
端侧AI芯片通常强调低功耗高能效,并支持多模态(视觉、语音等)协同。目前这一市场呈现碎片化、多元化特点,不同应用对性能和成本侧重各异,无需追求云端那样的极致算力,更注重功耗和性价比。
这反而给了国产AI芯片巨大机遇:由于端侧应用场景千差万别,国际巨头难以及时覆盖,每个细分市场都有国产芯片“跑马占地”的可能。
在安防领域,海思半导体曾长期为国内摄像头提供AI视频监控SoC;在家电领域,地平线推出的AIoT芯片征程2已经在美的等厂商的机器人产品中应用;在工业边缘,国产FPGA与DSP芯片也逐步占领PLC控制器等市场的一席之地。
一些国内IC设计公司还针对特定场景开发SoC,例如针对语音交互的语音AI芯片、针对手势识别的雷达传感芯片等等。
可以说,边缘计算/IoT市场百花齐放,中国厂商完全可以通过差异化创新占领“长尾”市场,实现以点带面的突破。
同时,云边协同也是趋势,即云端强大的AI模型通过蒸馏、剪枝等压缩后部署在边缘,边缘产生的数据再用于云端模型更新。
在这一循环中,云端国产AI芯片的发展将带动端侧芯片能力提升,反过来端侧大规模部署也会促进云端算力需求增长,可谓相辅相成。
中国“东数西算”等工程正是要构建云边协同的算力网络,让AI无处不在。
未来,随着5G/6G通信的发展和物联网深入各行业,边缘端侧将涌现更多智能化场景,届时需要海量的低功耗智能芯片作为支撑,而这是中国厂商实现弯道赶超的又一机遇。
四、产业发展趋势
面对算力需求爆炸和摩尔定律放缓,芯片产业链正在酝酿多项变革性技术趋势。对于我国而言,这些新趋势既是挑战也是后发赶超的契机。
以下列出当前业内关注度最高的几个方向:
Chiplet异构集成:简单来说,Chiplet(芯粒)技术是一种芯片模块化思路,将原本单一的大芯片拆分成多个小芯粒制造,然后通过高带宽互连封装在一起,组成功能完整的“大芯片”。
图:Chiplet 异构集成示意图
这有助于提高良品率、降低成本,并可灵活组合不同工艺/功能的芯粒实现异构集成。
AMD是Chiplet路线的先行者,其Ryzen、EPYC处理器早已采用多芯片小芯片架构,近年来AMD最新的MI300加速器也通过3D堆叠CPU+GPU芯粒实现强大性能。
Intel、硅谷初创如Ayar Labs等也在推进Chiplet生态标准(如UDI互联协议)。
国内方面,由于先进制程受限,Chiplet更成为不得不走的路。例如上文提到的华为联合长鑫,通过Chiplet方式用多颗7nm等效芯片集成替代5nm芯片的方案。调研显示,近一半业内人士认为Chiplet是突破算力瓶颈的关键技术路径。
中国厂商如寒武纪、天数等均已发布Chiplet架构产品规划,国内封测企业也在布局2.5D/3D封装产线来承接Chiplet组装。
可以预见,Chiplet将改变传统SoC设计范式,IDM+封测+EDA融合的新生态正在形成。中国有望在这一代架构变革中参与标准制定,避免再度落入封闭生态受制的局面。
存算一体(存内计算):存算一体旨在突破“内存墙”,通过在存储单元内直接执行计算或将存储与计算单元紧密集成,减少数据搬移的延迟和能耗。
在AI训练和大数据处理任务中,数据在处理器和内存之间来回传输是效率瓶颈,存算一体被视为下一代芯片架构的重要方向之一。
业界探索的存算一体有多种形式:一种是在内存阵列执行简单计算,例如利用SRAM/闪存阵列的模拟特性完成向量矩阵乘法,这在学术界已有原型(如MIT的计算存储器阵列);另一种是3D堆叠,将DRAM或新型存储芯片与逻辑计算芯片垂直集成,彼此之间通过硅通孔(TSV)高速互联,实现类似存算一体的效果。
HBM高带宽显存本质上是逻辑+内存3D封装,已经是商用的成功案例。再进一步,未来可能出现融合逻辑与存储的新器件(如基于RRAM阻变存储的计算单元),实现更高层次的存储计算融合。
中国在存算一体领域同样高度关注:学界和企业已有合作研发布局存算一体芯片和编译工具链。华为在其昇腾芯片中宣称加入了一定的存算加速单元;创业公司如知存科技研发基于PCM相变存储的计算芯片,后摩智能推出用于边缘AI的存内计算芯片等。
当然,存算一体要大规模应用还需解决精度、可靠性和软件生态等挑战。但不可否认,存内计算+Chiplet结合有可能开辟后一摩尔时代的新路径,让中国在算力架构上实现“换道超车”。
有调查显示,约23%的从业者将存算一体视为仅次于Chiplet的重要发展方向。因此可以预计,未来几年我们会看到更多存算一体芯片的原型和试商用,中国团队有望在这一前沿方向上占据一席之地。
稀疏计算:稀疏性是许多AI模型和数据固有的特征——例如神经网络中大量参数为零、矩阵计算中零乘零无意义。稀疏计算即利用算法和硬件手段跳过这些“零操作”,以提升计算效率。这一理念并不新鲜,但在大模型时代变得愈发重要。
NVIDIA在Ampere架构中引入了结构化稀疏技术(支持2:4稀疏模式),通过Sparse Tensor Core硬件在几乎不损失精度的前提下将算力提升1.5倍,成为工业界标杆。
谷歌的TPU、特斯拉Dojo等定制加速器也都深度集成了稀疏优化,以提高能效。
稀疏计算需要软硬件协同:算法层面有模型剪枝、稀疏矩阵算法等;编译器层面要识别稀疏模式并映射到硬件;硬件则需提供稀疏加速单元,比如零跳过乘法器、稀疏索引存储、稀疏感知的网络结构等。
一套完善的稀疏计算解决方案,可以将算法的零值特性转化为硬件性能优势。谁能率先提供高效易用的稀疏计算全栈方案,谁就可能构筑新的生态壁垒。
目前国内外都在积极研发:学术界很多稀疏架构研究原型基于RISC-V指令集进行,可快速试验新想法;产业界NVIDIA引领风骚,初创公司也不断涌现。
中国厂商方面,华为昇腾芯片内置了稀疏计算加速功能,并与清华合作研发稀疏矩阵存储专利;寒武纪、地平线等公司在专利和架构上布局了稀疏技术。
有调查称约13%的业内人士认为稀疏加速是突破算力有效利用率瓶颈的关键。未来随着大模型进一步增大,训练和推理都必须借助稀疏技术降低算力和内存开销,可以预见稀疏计算将在软硬件融合优化上大有作为。中国应积极投入这一方向研发,争取在新一轮架构变革中取得主动。
低精度与FP8:降低计算精度是提升AI芯片效率的直接手段之一。从早期训练使用32位浮点(FP32),到后来广泛采用16位半精度(FP16/BF16),再到近期兴起的8位浮点(FP8)训练,业界不断尝试在精度和精确度之间取得平衡。
NVIDIA Hopper架构率先支持FP8运算,使GPU每秒算力大幅提高且训练仍能收敛。
FP8之所以重要,在于相比FP16可进一步将数据带宽和存储减半,同时保留一定的浮点动态范围,兼顾训练稳定性。
如今FP8正在成为新一代AI芯片的标配精度:谷歌TPU v5据传也支持8位,很多AI框架已开始提供FP8训练的实验性支持。
国内芯片厂商同样关注FP8等低精度技术。有的公司推出INT8、INT4甚至更低精度的专用加速芯片用于推理,也有在研产品计划支持FP8训练,以缩小和国际先进水平的差距。FP8、稀疏计算、存算一体等创新将共同驱动芯片效能的跨越式提升。
未来AI大模型的训练很可能在混合精度甚至纯低精度环境中完成,届时,能否掌握低精度数值算法和硬件实现,将成为评判一家芯片设计能力的重要指标。
中国在人工智能算法研究上有人才和经验优势,应把这转化为芯片架构的创新动力,在FP8等低精度计算范式上争取领先。
“超节点”与算力网络:为了训练更大的AI模型,业界提出了“超节点”(SuperNode或SuperCluster)的概念。
传统方案中,一台服务器通常只能容纳8张加速卡,多个服务器通过高速网卡互联组成集群。然而服务器内部互联带宽可达每秒900GB(如NVLink 5),而服务器之间通过Infiniband网络的带宽不到每秒50GB,两者相差一个数量级,这成为大规模分布式训练的瓶颈。
超节点的思路是在单机柜内集成数十甚至上百颗AI芯片,并采用特殊高速互连架构,打破单机限制,实现“大机器”规模的算力池。
2024年3月的NVIDIA GTC大会上发布的NVL72超节点掀起了行业热潮,被视为超节点元年的开端。
NVL72本质上是将72颗GPU直连互联:18个计算板卡、9个交换板组合成一人高的机柜,72颗GPU通过NVLink高速通信,配合第6代NVLink可实现高达1.8TB/s的链路带宽。
这样一个超节点相当于把9台8卡服务器融为一体,可将模型一层直接切成72份在内部完成并行计算,大幅减少跨节点通信开销。
NVL72据称在一个超节点内即可完成过去需要数十台服务器才能完成的训练任务,其效果惊人。
NVIDIA此举引发国内业界快速响应:除了GPU厂商华为、海光、寒武纪纷纷表示在研超节点架构外,阿里推出了128卡超节点方案,腾讯也披露了相关计划,就连服务器厂商、交换设备厂商也在探索自研超节点实现方式。
目前来看,芯片公司提供核心硬件,互联网公司基于自身海量AI训练需求定制方案,二者合作多于竞争,共同推动超节点技术落地。
超节点的出现还带动了液冷等配套技术的发展,因为上百卡集成使单柜功耗达到数十千瓦至上百千瓦,传统风冷难以胜任,大规模液冷部署成为必然趋势。
未来“超算集群”将由多个超节点构建,通过高速光互联进一步连接,形成区域甚至国家级的AI算力网络。
中国在这一方向上起步并不晚,华为Atlas超节点和昇腾AI集群已经实现全球领先的规模和性能。随着算力需求飙升,算力像水电一样调度的时代正在到来,各国都在构建自己的AI基础设施网络。中国有庞大需求和应用牵引,有希望在超节点和算力网络技术上保持领先,并以此为抓手带动全产业链能力提升。
综上所述,芯片产业链在巨大的技术变革浪潮中孕育着新的机会。
Chiplet、存算一体、低精度、稀疏计算、超节点等关键趋势将重塑未来5-10年的产业格局。
在这些方面中国和海外几乎站在同一起跑线,谁能更快实现技术成熟和生态构建,谁就能在下一代计算平台中占据主动。
对于我国而言,夯实传统工艺制程能力的同时,更要大胆拥抱新架构、新路线,通过差异化创新实现突围。
当下国产AI芯片产业已从“单点技术突围”走向“生态协同崛起”,各环节正协同发展:上有EDA和装备补短板,中有芯片设计量产提速,下有各领域应用加速落地。只要保持定力与投入,充分发挥国内市场和人才优势,中国有望在未来的芯片产业版图中占据一席之地,实现从跟跑到并跑乃至部分细分领域领跑的历史跨越。
来源:行业调研报告
