摘要:计算步骤NPU 芯片进行神经网络计算时,一般先进行初始化,加载神经网络模型等;然后将输入数据转换为所需格式并预处理;接着执行前向计算和反向传播操作,前向计算通过矩阵乘法、加法和激活函数等将输入数据转换为输出数据,反向传播根据损失函数计算各层权重的梯度并传递回网
NPU 芯片(Neural Processing Unit)即神经网络处理器芯片,是一种专门用于加速人工神经网络计算的硬件芯片。
计算步骤NPU 芯片进行神经网络计算时,一般先进行初始化,加载神经网络模型等;然后将输入数据转换为所需格式并预处理;接着执行前向计算和反向传播操作,前向计算通过矩阵乘法、加法和激活函数等将输入数据转换为输出数据,反向传播根据损失函数计算各层权重的梯度并传递回网络;计算完成后读取结果并进行后续处理,最后释放资源。分类根据设计和用途可分为专用 NPU 芯片,用于加速特定设备中的 AI 任务,如手机、智能摄像头中的芯片;通用 NPU 芯片,既能执行神经网络计算,也能执行其他计算任务,如数据中心服务器中的 AI 加速卡;嵌入式 NPU 芯片,集成在嵌入式设备中,用于加速本地神经网络计算,如智能家居、智能汽车中的芯片。功能定位CPU 是通用计算核心,擅长多任务调度与逻辑控制,但 AI 计算效率低;GPU 侧重并行图形计算,可用于 AI 任务,但功耗较高;NPU 专为神经网络设计,专注 AI 计算,能效比远超前两者。架构设计CPU、GPU 基于冯・诺伊曼架构,存储与计算分离,数据传输耗时;NPU 采用 “数据驱动并行计算” 架构,通过突触权重实现存储和计算一体化,大幅提升 AI 任务处理速度。应用场景CPU 适用于日常办公、系统控制等通用场景;GPU 常用于游戏、图形渲染及 AI 训练辅助;NPU 则主导端侧 AI 推理(如手机影像处理)、云端高效推理(如大模型部署)等场景。NPU行业观点1、AI端侧终端定义与发展趋势
AI端侧定义与核心特征: AI端侧指在移动设备上直接运行AI大模型,无需依赖云端交互。相较于传统通过云端与大模型交互的方式,端侧AI能保证个人数据隐私,降低交互延迟。其未来真正载体是能在端侧进行大模型推理的智能终端。AI手机发展趋势: AI手机作为个人助手,将利用大模型或预训练生成式AI模型实现多模态内容生成(含情感交互)。其必要特征有:支持大模型本地部署(手机自身具强大AI算力,无需依赖云端服务器)、具备多模态内容处理能力(可处理文本、图像、语言等输入并生成多种形式输出)、确保流畅无缝的用户交互(快速响应与大模型交互的推理要求)。硬件规格需基于领先工艺和先进架构平台,NPU及大容量高带宽内存可保障稳定高速连接与安全防御。当前各手机厂商将AI手机作为重点战略方向。出货量上,预计2028年全球AI手机出货量占比达54%,2027年中国AI手机出货量有望达1.5亿部。因需部署NPU致硬件成本提升,AI手机将先落地高端手机(高端手机利润高,厂商对成本增加接受度高,且是高净值客户核心产品),未来向中端手机渗透。AI PC与智能汽车趋势: AI PC是C端AI平权的核心载体,作为AI与PC的结合体,未来将形成算力平台、个人大模型与AI应用的新型混合体,具备保护个人数据隐私的属性。未来几年其在PC市场的渗透率将持续提升,并带动PC ASP提升。集成NPU的PC因硬件成本增加,未来有望享受10%-15%的产品溢价,这是PC厂商重点发力方向(如联想正推进独立NPU方案)。智能汽车座舱域未来需部署离线小模型,NPU及定制化存储的消耗量将持续增长。智能汽车作为大模型落地场景,需标配独立NPU或搭建端侧大模型,以应对无信号场景(如过隧道)的离线交互需求,确保端侧推理支持离线状态下的大模型交互。
2、NPU的作用、应用与出货量预测
NPU的核心作用与架构: NPU作为端侧AI核心载体,架构随新AI算法及模型参数发展而持续提升。端侧推理中,异构计算整合CPU、GPU、NPU等处理单元,实现最佳性能、能效、续航,提升生成式AI体验。其中,CPU擅长顺序控制与及时性处理,GPU适合并行数据流处理,NPU专注标量、向量和张量计算,承担核心AI负载。NPU的应用场景与形态: NPU已广泛应用于手机、PC和汽车。其主要为集成式,作为单元模块集成于处理器或手机SOC。分立式NPU方案成行业探索方向,高通、联发科、瑞芯微、小米、荣耀、晶晨股份等厂商发力。该方案可提升算力,且因大模型交互非实时,仅交互时调用NPU芯片,优化待机与续航。NPU出货量预测: 预测未来NPU出货量,假设第三方高端智能手机(排除苹果、华为等自有方案厂商)远期搭载量1亿台;PC市场高端产品NPU渗透率达10%,需求约2千万颗。手机与PC市场潜在出货量约1.2亿颗。汽车市场中长期NPU渗透潜力值得期待。
3、定制化存储技术与市场分析
定制化存储技术特点: 定制化存储适配端侧AI SOC,可类比HBM适配GPU。HBM经3D堆叠形成高带宽、高速存储形态,适配GPU数据并行处理,伴随GPU发展,其市场近年快速增长,2025年全球HBM市场规模约350亿美金。定制化存储产品形态与HBM类似,通过堆叠提升单位面积存储容量,与NPU或SOC进行3D封装,增加数据传输通道,解决端侧NPU高带宽痛点。相比传统DDR或low power DDR,定制化存储数据带宽有数量级提升,且功耗低于HBM和传统存储,适配端侧载体低功耗需求。产品性能上,华邦Qube对标HBM2,兆易定制化存储方案对标HBM2E,叠层数量增加可逐步对标HBM3。定制化存储市场空间: 终端需求上,汽车和手机NPU初始配置需5GB定制化存储,PC需10GB。两到三年维度,定制化存储潜在市场规模达20 - 30亿美金。若分立NPU方案在PC、手机市场进一步渗透,市场规模将进一步扩容。
4、NPU与定制化存储标的推荐
NPU相关标的: 当前国内及海外知名厂商均在重点布局NPU环节。国内方面,小米、荣耀、联想等终端手机或PC厂商,以及晶晨、瑞芯微等厂商,均发力端侧为未来ALT所用的NPU方案;海外方面,高通、联发科也在进一步研发分离式NPU方案。从各厂商的发力方向来看,分离式NPU的产业趋势明确。在国内上市公司中,重点推荐瑞芯微与晶晨股份。
定制化存储标的: 定制化存储的市场竞争格局相较于NPU更优,其核心在于基于DRAM的技术壁垒,要求厂商本身具备DRAM资质。当前DRAM厂商中,除三星、美光、海力士等原厂重点布局标准DRAM及HBM市场外,兆易创新、台湾华邦等传统DRAM厂商在定制化存储领域处于核心卡位。其中,兆易创新依托长鑫先进的代工制程节点,产品性能优于华邦,具备领先友商两到三年的先发优势。其定制化存储方案与国内重点厂商、高通、联发科等海外厂商,以及国内原厂自研AC均有深度合作,覆盖端侧及云端场景,市场空间包括智算中心、矿机显卡等领域。基于上述优势,定制化存储作为兆易创新的第三成长曲线,有望随AI端侧、云端场景落地实现收入和利润持续释放,因此优选兆易创新作为重点推荐标的。
来源:全产业链研究一点号