摘要:随着ChatGPT、DeepSeek等AI的兴起, 2024年中国智能算力规模达640.7EFLOPS。根据IDC数据,2024年中国AI服务器市场规模将突破190亿美元,同比增长87%;对应智能算力规模达到640.7百亿次/秒(EFLOPS)。2026年中国
AI加速产业化,推动算力中心、终端用芯片需求快速增长
随着ChatGPT、DeepSeek等AI的兴起, 2024年中国智能算力规模达640.7EFLOPS。根据IDC数据,2024年中国AI服务器市场规模将突破190亿美元,同比增长87%;对应智能算力规模达到640.7百亿次/秒(EFLOPS)。2026年中国智能算力规模则有望达1271.4 EFLOPS,2019-2026年复合增长率达58%。随着AI的不断发展,智能算力市场在中国将持续扩大,对AI算力芯片需求有望持续放量。
云端算力中心外,端侧应用发展迅猛。DeepSeek等开源模型的出现,推动端侧AI产品加速落地, Soc芯片有望加速放量。
随着云端与端侧AI应用加速产业化,中国2024年AI芯片市场规模突破1400亿元。根据IDC,2024年中国AI芯片市场规模达1405.9亿元,2019-2024年CAGR达36%。
AI芯片主要分为技术与应用层面两大类
AI芯片是专门用于处理人工智能应用中大量计算任务的芯片。它通过优化硬件架构,能够高效处理大规模并行计算和复杂的神经网络算法,提升计算效率和能效比,是人工智能技术发展的重要硬件基础。
AI芯片可以从技术层面和应用层面进行分类:
(1)技术层面:
①GPU(图形处理单元):最初用于图形处理任务,但因其强大的并行计算能力,被广泛应用于人工智能领域。它能够高效处理大规模矩阵运算,适合深度学习中的训练和推理任务。
② FPGA(现场可编程门阵列):FPGA是一种可编程的集成电路,在制造完成后仍可使用配套软件对芯片进行功能配置,可以根据具体需求配置其内部逻辑功能,它结合了硬件流水线并行和数据并行处理能力,适合低延迟、低功耗的实时计算任务,常用于边缘计算和推理阶段。
③ASIC(专用集成电路):ASIC是为特定应用场景定制的芯片,具有高度优化的硬件架构,能够实现极高的性能和能效比,缺点是电路设计需要定制,相对开发周期长,功能难以扩展,其通常用于大规模推理任务。
④ NPU(神经网络处理器):NPU是专为神经网络计算设计的芯片,模拟人脑神经元和突触的工作方式,能够高效处理深度学习任务,它通常用于移动设备和物联网终端,具有低功耗、高性能的特点。
(2)应用层面:
①云端AI芯片:云端AI芯片应用在智能计算中心等相对远离用户侧的AI芯片,算力通常可达到100TOPS以上。云端AI芯片是实现大规模数据处理和深度学习模型训练的关键。
②终端AI芯片:终端AI芯片有很高的计算能效,通常部署在电子产品、汽车、工厂等终端设备上。其快速数据处理能力降低了对云端计算资源的依赖,从而减少运营成本与算力中心算力压力。
云端AI芯片又可分为训练芯片和推理芯片:
①AI训练芯片:这类芯片主要用于人工智能模型的训练阶段,即通过大量的数据来“训练”AI模型。训练过程需要进行大量的矩阵运算和参数调整,因此其通常需要具备强大的计算能力和高能效比,所以价格也远高于推理芯片。
②AI推理芯片:推理芯片则用于模型训练完成后的部署阶段,主要负责执行模型的推理任务。推理过程对实时性要求较高,因此推理芯片需要在保证准确率的同时,具备快速响应和低功耗的特点。
AI算力芯片对先进存储器需求激增
AI算力芯片对存储器件需求极高。AI算力卡需要处理包含亿计的文本、图像资料的数据集,以支持机器学习模型的训练和推理。以OpenAI的SDXL应用为例,该应用能够将文本转换为图像,其训练过程中使用了超过1亿张图片作为数据集。这样的大规模数据处理对内存的要求极高,不仅需要足够的容量来存储这些庞大的数据集,还需要足够的带宽来保证数据能够迅速地在内存和处理器之间传输。
AI算力芯片在内存、显存、硬盘上均有更高性能需求:(1)内存方面,DDR5逐渐取代DDR4。DDR5的传输速率可达DDR4的2倍以上,同时,DDR5每个模块的容量更高,为128GB,是DDR4的2倍。据美光数据,AI服务器中 DRAM 容量是普通服务器的8倍,NAND容量将是普通服务器的3倍。(2)显存方面,HBM在加速卡上全面取代GDDR显存,相较GDDR,HBM具有高带宽、高容量、低功耗和小尺寸四大优势。(3)硬盘方面,SSD逐渐替代HDD。
训练卡对比推理卡主要差异在显存,训练卡通常使用HBM:训练卡需要处理海量的数据,对存储的带宽和容量要求极高。HBM 具有高带宽、低延迟的特点,能够满足训练过程中大量数据的快速读写需求,因此其成为训练卡的首选存储类型。推理卡虽然对存储的要求相对训练阶段有所降低,但仍需要一定的带宽和容量来保证推理的实时性和准确性,DDR内存具有较高的性价比和良好的兼容性,能够满足推理卡的存储需求。
训练卡对比推理卡主要差异在显存,训练卡通常使用HBM
端侧AI市场应用广泛。端侧AI是指在终端设备如智能手机、智能家居设备、智能穿戴设备等上实现人工智能功能。端侧AI正迅速渗透到我们日常生活的各个方面,从智能手机的语音识别和图像处理,到智能家居设备的自动化控制,再到可穿戴设备的健康监测,其使用场景不断丰富,市场应用广泛。
随着端侧AI应用的陆续落地,Soc芯片的需求不断增长。在AI终端设备上完成数据处理,无需将大量数据上传至云端,从而减少了数据传输延迟并缓解了算力中心服务器的压力。集成CPU、GPU和NPU的SoC芯片能够完美胜任这一任务,预计将在端侧AI应用的发展潮流中加速放量。
全球Soc芯片市场规模稳健增长。SoC芯片通过高度的集成化和高性能设计,满足了不同应用领域的多样化需求。随着端侧AI应用的迅速渗透,Soc芯片市场需求的不断增长。根据Mordor Intelligence,2030年全球SoC芯片市场规模有望达到2741亿美元。
SoC芯片集成度高,IP核是核心
系统级芯片(SoC)是将一个完整系统的所有功能,包括处理器、存储器、输入输出接口等集成在一个芯片上的集成电路,旨在实现高度集成化、高性能和低功耗,广泛应用于各类电子设备中。与微控制器芯片(MCU)相比,SoC 集成度高,包含处理器、多种功能模块等,可处理复杂任务。而MCU 虽然集成度相对较低,但功耗和成本都比较低,开发过程也相对简单,更适用于对成本和功耗敏感、功能需求相对单一的应用场景。
IP 核是SoC芯片的核心,它是一种经过预先设计、验证,可以被重复使用的集成电路模块,通常以知识产权的形式存在,可分为软核、硬核和固核等不同类型。SoC通过集成各种IP核来实现复杂功能,IP核能大幅缩短设计周期、提高设计效率、降低成本、提升性能,是SoC实现高度集成化、高性能和低功耗目标的关键。
国外巨头仍占据绝大部分市场份额,国产化替代加速
AI芯片仍由海外巨头占据大部分市场份额,亟待国产替代。英伟达、英特尔、AMD、谷歌和Qualcomm等公司凭借其在芯片领域的长期领先地位,迅速切入AI领域并积极布局,形成了强大的产业生态和技术壁垒。其中,英伟达在GPU处于完全垄断地位,截止至2025年Q1占据近90%的市场份额,AMD、谷歌等厂商也纷纷紧随其后。
我国华为、海光、寒武纪等企业加速打破芯片技术垄断。(1)华为凭借多年研发积累,推出了昇腾系列AI芯片。其中昇腾910则是目前华为推出的最强算力芯片,其AI芯片昇腾910B,性能已达到英伟达A100芯片水平,算力达到640TOPS(INT8)。(2)海光基于x86架构开发出DCU深算2号训练芯片,具备高性价比优势,在数据中心、人工智能推理等场景应用广泛,助力企业实现算力自主可控。(3)寒武纪推理卡研发迭代,性能持续提升。思元370集成了390亿个晶体管,目前最大算力已达到256TOPS(INT8)。
云端先进存储+端侧SOC芯片需求旺盛,带动测试机需求
SoC芯片与先进存储芯片是AI产业化的关键基础硬件,其复杂性均显著提升,从而推动了测试机需求的增长。SoC芯片作为硬件设备的“大脑”,承担着AI运算控制等核心功能,对计算性能和能耗的要求极高,这使得芯片设计和制造的复杂性大幅增加。与此同时,先进存储芯片为AI算力芯片提供高带宽的数据存储和传输支持,其容量和带宽的不断提升也进一步增加了芯片的复杂性。因此,SoC芯片和先进存储芯片的复杂性提升共同推动了对高性能测试机需求的显著增长。
根据爱德万预测,受HPC/AI芯片需求增加,2025年全球存储与SoC测试机市场空间有望突破70亿美元。
HBM显存+CoWoS封装成为主流,带动先进封装设备需求
AI芯片需要更高的集成度和性能,HBM显存+COWOS封装技术已成为主流方案。HBM显存的高带宽突破了加速卡的显存容量限制;COWOS封装技术作为一种2.5D技术,是GPU与HBM高速互联的关键支撑。2.5D和3D封装技术需要先进的封装设备的支撑,进一步推动了对先进封装设备的需求增长。
先进封装与传统封装工艺流程最大的区别在于增加了前道图形化的工序,主要包括PVD或CVD等薄膜沉积设备、涂胶显影设备、光刻机、刻蚀机、电镀机等。先进与传统封装均需要减薄机、划片机、固晶机、塑封机、键合机等设备,与传统封装不同的是,先进封装也需要晶圆制造的前道图形化设备,如TSV需要硅刻蚀钻孔、需要PVD来制作种子铜层,凸块也需要涂胶显影、光刻、刻蚀来制作更精细的间距。
来源:思瀚研究院