一条芯片新赛道崛起

B站影视 韩国电影 2025-06-07 10:33 2

摘要:近几年时间里,NPU成为了AI浪潮中意外爆火的芯片之一,除了人手一部的智能手机外,愈来愈多的笔记本电脑也开始内置NPU,在厂商不断吹捧AI功能的背后,都离不开NPU的助力。

近几年时间里,NPU成为了AI浪潮中意外爆火的芯片之一,除了人手一部的智能手机外,愈来愈多的笔记本电脑也开始内置NPU,在厂商不断吹捧AI功能的背后,都离不开NPU的助力。

然而,对于大多数人而言,NPU仍然是一个相对陌生的概念。它与我们熟悉的CPU、GPU有何不同?为什么在AI时代突然变得如此重要?

这个看似神秘的芯片,其实有着深厚的技术积淀和清晰的发展脉络,要理解NPU为何能在短短几年内从实验室的概念验证走向大规模商用,我们不妨从它最初的起源开始。

NPU的诞生

传统的中央处理器(CPU)在数学运算与逻辑控制方面表现卓越,但其工作原理与人脑运行机制存在根本差异。CPU采用串行指令处理方式,而人脑则依托数以千亿计的神经元实现并行激活与实时响应。这种架构差异使得CPU在模拟类脑计算时效率低下,难以胜任复杂的智能任务。

NPU的设计理念则另辟蹊径。它并非简单模拟大脑功能,而是从结构层面汲取灵感——通过硬件级并行处理架构,重新定义计算范式。这一理念的萌芽可以追溯到20世纪中叶的开创性研究。

1943年,神经生理学家沃伦·麦卡洛克(Warren McCulloch)与数学逻辑学家沃尔特·皮茨(Walter Pitts)联合提出了人工神经网络的数学模型,并设计了首个"神经网络"电路原型。这项里程碑式的研究在1950-60年代引发了学术界的热烈探索,但由于技术条件限制和计算能力不足,进展缓慢,最终被传统数字计算的迅猛发展所掩盖,逐渐边缘化。

"那个时代,只有日本和德国的少数研究者还在坚持神经网络研究,但它远未形成完整的学科体系。"图灵奖得主、被誉为"深度学习三巨头"之一的扬·勒坎(Yann LeCun)回忆起1980年代初期与杰弗里·辛顿(Geoffrey Hinton)等先驱合作的岁月时说道,"直到1986年反向传播算法的突破,这个领域才重新焕发生机。"

然而,神经网络真正重返计算科学主流,还要归功于2000年代初期语音识别技术的商业化成功。即便如此,勒坎坦言:"当时'神经网络'这个概念背负着太多历史包袱,为了摆脱刻板印象,我们干脆创造了一个新名词——'深度学习'。"

"神经处理单元"(NPU)这一术语最早出现在1990年代末期的学术论文中,但NPU从象牙塔走向产业化,离不开苹果、IBM、谷歌等科技巨头的巨额投入。这些公司斥资数百亿美元推动专用芯片研发,最终将数十年的理论积累转化为可以嵌入智能手机和笔记本电脑的实用产品——一种真正受人脑启发的全新处理器架构。如今,勒坎已成为Meta公司的首席AI科学家,见证着这一技术的商业化浪潮。

从本质上看,现代NPU的核心架构与麦卡洛克-皮茨模型并无根本差异:都采用了仿生的并行处理框架。不同于传统CPU的串行执行模式,NPU能够同时进行数百万乃至数万亿次微小运算,这正是业界常提及的"每秒万亿次运算(TOPS)"性能指标的技术基础。

但NPU的工作机制远比表面看起来复杂。它依赖于深度学习算法框架,这些模型需要在海量数据集上完成预训练才能发挥效用。以图像边缘检测为例,系统通常采用卷积神经网络(CNN)架构来实现这一功能。

在CNN运算过程中,卷积层会将预设的"卷积核"滤波器在图像的每个区域进行滑动扫描,利用训练阶段习得的特征模式来识别图像中的"边缘"信息。NPU执行的核心数学运算即"卷积计算",通过在原始图像上生成多层特征图谱,逐步提取和强化目标特征,直至神经网络达到预设的识别置信度。

NPU在执行此类卷积密集型计算时展现出显著优势——处理速度快且功耗控制出色,相比CPU具有压倒性的效率优势。虽然图形处理器(GPU)同样支持并行计算,但其架构针对通用图形渲染进行了优化,在AI推理任务上的专业化程度不及NPU,因此能效比相对较低。这种差异在移动设备上尤为关键,直接影响续航表现,成为推动NPU在智能手机领域普及的重要驱动力。

2017年成为NPU商业化的关键节点。华为率先在Mate 10中集成了基于寒武纪架构的NPU,而苹果也在iPhone X中首次引入了集成NPU的A11仿生芯片。尽管这些初代NPU性能有限——算力不足1 TOPS,但已经开启了移动AI计算的新纪元。相比之下,当今高端笔记本搭载的高通骁龙X系列芯片,其NPU算力已经达到45 TOPS的惊人水平。

经过短短八年发展,AI功能已经深度融入日常使用场景。手机上"智能抠图"、"背景虚化"等功能均由NPU驱动实现,而谷歌的"圈选搜索"(Circle to Search)、"魔法消除"(Magic Eraser)等创新体验也依托NPU的强大算力支撑。

如今,NPU的应用版图正在向笔记本电脑领域全面扩张。2024年,微软正式推出"AI PC"产品类别——Copilot+ PC,明确要求设备内置不低于40 TOPS的NPU算力。这一标准直接将AMD和英特尔的早期芯片(仅支持15 TOPS)排除在外,而高通凭借骁龙X系列的45 TOPS高算力NPU抢占先机,率先获得微软Surface Laptop、宏碁Swift AI等旗舰产品的采用。

尽管后续AMD和英特尔都推出了符合微软最低门槛的新一代处理器,但也暴露出市场分化的现实——大量定价在800美元以下的入门级笔记本仍然采用不满足AI PC要求的传统处理器。

更加值得关注的是,更多的企业和用户并不满足于目前集成NPU的算力,一场独属于NPU发展的革命,似乎已然到来。

独立NPU的崛起

在刚刚闭幕的2025年戴尔科技世界大会(Dell Technologies World)上,AI工作负载的去中心化成为了一项重要议题,这意味着AI工作需要从云端数据中心向边缘计算节点分散,最终下沉至各类终端设备,尽管集成NPU的AMD Ryzen AI 300系列和英特尔酷睿Ultra 200系列等产品可以胜任这一工作,但独立得NPU显然能工作得更好。

在大会展台上,戴尔展示了一款名为Pro Max Plus的概念笔记本,其内部搭载了两颗高通Cloud AI 100处理器——它们占据了传统NVIDIA GPU的位置,形成了全新的AI加速架构。这款设备本质上仍是原型产品,目前仅有少量手工组装的样机,但其技术规格已经令人瞩目。

每颗Cloud AI 100处理器配备32GB专用内存,两颗处理器以统一内存架构呈现,可为AI模型提供高达64GB的加速器内存空间。戴尔技术团队已成功在该平台上运行了包括1090亿参数的Llama 4 Scout在内的多个大型AI模型,展现出远超传统集成NPU的处理能力。

这种独立NPU方案的核心优势在于突破了内存瓶颈。以目前顶级的NVIDIA RTX PRO 5000 Blackwell Generation为例,其24GB显存根本无法容纳千亿参数级别的大模型,而64GB的NPU内存则为移动端部署超大规模AI模型开辟了可能。尽管具体的能效数据尚未公布,但戴尔声称这套高通独立NPU系统的功耗显著低于同等性能的NVIDIA GPU,

值得一提的是,戴尔推出的Pro AI Studio软件平台旨在降低AI应用开发门槛,通过预验证的AI模型库和一键式部署工具,让开发者能够更便捷地利用NPU算力。在现场演示中,开发人员使用这套软件-硬件组合完成了游戏引擎的AI驱动开发任务,展现了独立NPU在专业创作领域的应用潜力。

目前,戴尔-高通的独立NPU方案仍处于原型阶段,具体的产品规格、定价策略和上市时间尚未最终确定。但戴尔方面明确表示,他们正在推进这一产品的商业化进程。

无独有偶,一家源自普林斯顿大学的初创公司Encharge AI,凭借其革命性的模拟内存计算技术,已成功筹集1.44亿美元资金,并推出了一款AI加速器——EnCharge EN100。

据Encharge AI介绍,EN100的核心创新在于采用了精确且可扩展的模拟内存计算架构。与传统数字芯片不同,这种技术通过精密的金属线开关电容器替代易受噪声影响的晶体管,从根本上解决了模拟计算长期面临的噪声挑战。

这一技术突破带来了显著的性能提升:相比竞品解决方案,EN100在各种AI工作负载下展现出高达20倍的每瓦性能提升,其约30 TOPS/mm²的计算密度,也远超传统数字架构的3 TOPS/mm²,它同时还支持了高达128GB的高密度LPDDR内存,带宽达272 GB/s。

目前,EN100提供了两种规格配置,其中M.2版本可以在8.25W功耗范围内提供超过200 TOPS的AI计算能力,使笔记本电脑能够本地运行复杂AI应用,而不影响电池续航和便携性,而PCIe版本:配备四个NPU,计算能力约为1 PetaOPS,以极低成本和功耗提供GPU级计算性能,专为使用复杂模型和大型数据集的专业AI应用而设计。

除此之外,EnCharge AI还构建了全面的软件生态系统。该平台支持PyTorch和TensorFlow等主流框架,结合专业优化工具、高性能编译器和丰富的开发资源,为开发者提供了完整的解决方案。这种全栈方法确保了对当前AI模型的优化性能,同时具备适应未来AI模型演进的能力。

EnCharge AI强调,其采用差异化的市场策略,重点布局快速增长的AI PC和边缘设备市场,而非直接挑战数据中心领域的既有巨头。EN100的高计算密度使OEM厂商能够在不牺牲设备尺寸和重量的前提下集成强大AI功能,打造更时尚紧凑的产品,同时它运行最先进AI模型的能耗仅相当于一个灯泡,使其在移动和边缘设备应用中极具竞争力。

事实上,戴尔的概念笔记本与EnCharge AI推出的AI加速器,正标志着AI PC正在从“AI功能”的试水阶段,走向“AI能力”的专职部署。

NPU革命

EnCharge AI和戴尔概念笔记本之所以引人关注,就是它们契合了目前AI计算的发展趋势。

目前AI计算有两个主要阵地:一个是数据中心,另一个是本地终端。前者强调集中、强大,后者关注隐私、延迟与能效。而上述两者,显然是站在“本地派”阵营。

过去,复杂AI推理模型几乎只能在云端完成,原因是本地芯片性能有限,但随着AI的不断发展,独立NPU反而展现出了自己相对于传统GPU的优势。

首先,GPU在AI计算领域虽然强大,但它们的资源分配更偏向图形渲染与CUDA生态维护,对纯AI推理任务而言存在"资源冗余"和"能效浪费"。专为AI定制的NPU,在功耗控制、封装密度、并行优化等方面都能实现每瓦更高效、每成本更专一的表现。

其次,内存一直是GPU的痛点之一,并非所有用户都需要GPU进行图形渲染,但越来越多的专业用户、AI开发者、行业解决方案厂商迫切需要能够本地加载50B+参数模型的AI平台。NPU搭配大容量LPDDR或HBM内存,更符合未来"本地大模型"的发展趋势。

最后,专用的NPU也展现出了更多的可能性,它们在为一种全新的计算架构探索路径:CPU负责通用计算和系统管理,NPU专注高效AI推理,GPU(选配)提供图形渲染能力。这种模块化AI协处理器设计,将NPU从SoC内核中独立出来,根据应用场景灵活组合。

这也催生出了多种AI PC形态的可能性:轻量办公设备采用集成NPU(如酷睿Ultra系列),专业AI创作平台配备独立NPU(如戴尔Pro Max Plus和EnCharge AI),游戏与AI双重需求场景则选择GPU+NPU双芯协同工作。

目前来看,戴尔与高通的Pro Max Plus仍是原型产品,EnCharge AI的商业化进程也刚刚起步,产品形态、量产成本、市场接受度都尚未完全明朗。但它们共同展示的未来图景令人振奋:当NPU性能和容量超越GPU,却不承担图形任务时,一种新的、纯粹为AI服务的"智能计算层"正在浮出水面。

无论最终形态如何演进,这些先行者敢于绕开既有生态、押注专用NPU的勇气,已在AI PC芯片赛道上树立了鲜明旗帜。

从集成到独立,从通用到专用,NPU正在经历一场全新革命,这块全新的芯片也许不会让人一夜之间扔掉老电脑,但它让人看到一个不远的未来:AI开始真正从云端走入用户设备之中。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4058期内容,欢迎关注。

★一颗改变了世界的芯片

★美国商务部长:华为的芯片没那么先进

★“ASML新光刻机,太贵了!”

★悄然崛起的英伟达新对手

★芯片暴跌,全怪特朗普

★替代EUV光刻,新方案公布!

★半导体设备巨头,工资暴涨40%

★外媒:美国将提议禁止中国制造的汽车软件和硬件

来源:半导体行业观察一点号

相关推荐