摘要:如果你最近看过任何科技发布会,你可能已经厌倦了听到关于设备端AI的讨论,苹果智能、个人智能,随时随地的设备端AI,谷歌的AI进展,Meta的AI内置,以及苹果的智能引擎、微软的Recall,所有这些似乎都在设备上运行机器学习模型。突然之间,每家科技公司都在谈论
如果你最近看过任何科技发布会,你可能已经厌倦了听到关于设备端AI的讨论,苹果智能、个人智能,随时随地的设备端AI,谷歌的AI进展,Meta的AI内置,以及苹果的智能引擎、微软的Recall,所有这些似乎都在设备上运行机器学习模型。突然之间,每家科技公司都在谈论NPU或者神经处理单元——这些机器中的芯片突然运行了所有这些新兴的AI技术。所以我们必须问,NPU到底是实打实的创新,还是像NFT、区块链和元宇宙那样的硅谷新骗局?
这是一张现代高端苹果笔记本芯片M3 Max的特写图,它是一个SoC,即系统级芯片,它包含许多不同类型的处理器封装在一起。
有CPU(中央处理单元),以及它的各种内核和缓存。有GPU(图形处理单元),还有处理显示和I/O(输入输出)相关任务的专门部分,基本上包括USB端口、Thunderbolt端口等。最让我们感兴趣的是NPU,神经处理单元,或者按照苹果的说法,神经引擎(Neural Engine)。
从一开始,鉴于科技公司给这些NPU的所有炒作,我本以为它们的物理尺寸会更大。即使在M3 Max中,像显示引擎和I/O这样无趣的部分大约占据了神经引擎五倍的空间。有趣的是,M3和M3 Pro使用的NPU和Max的一样大,所以随着芯片变小,NPU相对变大。而当我们谈到像iPhone中使用的A17 Pro这种非常小的芯片时,NPU的相对比例会更大。
显然,在所有这些设备中,面积(或者行业术语称为“晶圆面积”)都是极其珍贵的。
总结一下,我们可以看到行业迄今为止做出的两个明确决策。首先,虽然NPU的重要性在增加,但它们仍然是我们芯片中的相对较小部分。其次,在较小的设备中,它们显然是更高优先级的,而在较大的设备中优先级则较低。这种情况不仅适用于我们讨论的苹果芯片,还普遍适用于其他设备。自2017年以来,NPU在智能手机中已相当普遍,已有7年的历史了,甚至可以在像Meta Ray-Ban眼镜这样的微小设备中找到,而在PC中,它们才刚刚开始推广。这是一种非常明显的相关性。
要了解为什么NPU实际上很重要,我们可以看看加速器的概念。电脑本质上是一个数学机器,它所做的就是计算。每个像素、每个声波、每个字符的文本,最终都被你的计算机表示为一系列数字,然后对这些数字进行计算。
在早期,所有这些计算都由CPU完成,一个通用的数学机器。CPU被设计得非常精确并且具有灵活性,因此它可以执行计算机可能需要的任何类型的计算,包括使用巨大的数字进行非常复杂的逻辑运算等。但计算机科学家很快意识到,许多计算并不需要这种程度的灵活性或精确性。
以图形处理为例,在4K显示器上,约有800万个像素,你希望每秒刷新至少60次。这意味着每秒大约有5亿次更新。计算每个像素的数学运算非常简单,但每秒做5亿次这样的计算是一个相当大的挑战。而这种数学运算正是GPU(图形处理单元)擅长的任务,最好的GPU目前拥有超过1万个计算单元。这些计算单元比CPU的大核心要简单得多,但它们设计成并行运行,因此可以非常快速地进行大量的小计算。
除了GPU之外,还有许多其他加速器,例如视频编码器和解码器,或嵌入到每部手机中的图像信号处理器,用于处理使相机工作所需的计算等。这个想法非常简单,如果一个计算必须一遍又一遍地重复执行,可能为它专门设计一个新的芯片来专门处理这种计算,比让CPU来完成这项任务更高效。
这就引出了我们今天讨论的最新加速器——NPU(神经处理单元),它是为运行神经网络所需的数学运算而构建的加速器。多年来,神经网络一直被广泛用于移动设备上,来驱动从键盘的自动完成,到检测图像中哪些部分是背景以在人像模式下模糊它们的功能,还包括面部识别以及更快速、更准确的语音识别,或者将传感器读数转化为有用的信息,比如步数、心率或碰撞检测等。
例如,苹果的首席执行官蒂姆·库克声称,iPhone上已经运行了大约200个不同的模型。需要明确的是,大多数这些其实早在当前的生成式AI热潮之前就已经存在了。虽然许多营销部门现在希望你相信神经网络有某种魔力,但好消息是,它们其实就是数学运算,这也可能是坏消息,因为我们现在不得不一起做一点数学运算了。我保证尽量保持简单,我甚至专门为大家做了一个小神经网络。
这是最简单的神经网络:Marton的图像识别机。这个网络的目的是,你可以输入一个由四个黑白像素组成的图像,
然后网络会告诉你这个图像是否有一条对角线,要么是从这一侧到那一侧,要么是从另一侧到这一侧。就是这么简单,它是一个图像识别模型的最原始版本。
模型由所谓的“神经元”组成,实际上它们只是存储一个数字的内存单元。这些神经元排列成层,然后这些层之间有特定的数字,称为“权重”,它们决定连接强度。
在4x4图像中,我们为每个像素分配一个值,白色像素为1,黑色像素为0。
这样,我们可以用四个数字表示任何图像。然后我们将这四个数字输入到模型的第一层,也就是输入层。我们现在已经将图像作为输入提供给模型。
输出层有两个神经元。我设定了第一个神经元的值为1时(第二个为0),表示图像被识别为具有像这样的对角线:
如果第二个神经元的值为1(第一个为0),则表示对角线是这样的:
如果显示的是其他值,则表示没有检测到对角线:
#深度好文计划#
因此,两个输出神经元被配置为告诉我们对角线是朝这个方向还是那个方向,从而实现图像识别。
计算过程如下:从第一层获取第一个值,将其乘以一个权重,然后将其加到第二层的第一个神经元上。然后对网络中的每个神经元和连接进行相同的乘法和加法运算,最终得到一个结果。我们的简单网络准确地显示出这条对角线为1。如果将另一条对角线作为输入,系统会在第二个神经元上正确显示为1;如果选择其他像素组合,输出会与1不同。因此,这个网络能正确识别图像。
这背后的原因是权重设置得当。由于这个网络非常简单,我可以手动选择这些权重来得到我想要的连接,抑制我不想要的连接。基本上,这就是神经网络背后的基本数学原理。
当然,真实的神经网络比这个要复杂得多,可能会有数十亿个神经元,这些神经元会排列成多层,称为“隐藏层”,以实现更复杂的逻辑。所有这些模型的特征被称为“参数”,复杂的模型可能有超过一万亿个参数。确定这些网络的所有细节是通过一个称为“训练”的过程完成的。一旦我们训练好了一个模型,我们就可以开始使用它,甚至可以在我们自己的设备上运行它。
这就引出了NPU的作用。因为你现在已经知道了这些计算背后的基本数学原理,所以你也知道NPU的实际需求是什么。你已经看到的这种计算称为“乘累加”运算,因为你先将两个数字相乘,然后加到一个节点上,然后你再将两个数字相乘并加到同一个节点上,依此类推。你进行乘法,然后累加,基本上就是这样。在现实世界中,你可能还会加入其他内容,比如偏置和激活函数,但这里不会解释这些。此外,你还会将这些计算结构化为矩阵乘法,但乘累加运算是这里的基础。
这个任务有一些非常明显的特征。
首先,计算本身非常简单且重复,但我们可能每秒需要进行数十亿次计算,因此我们非常需要高度专业化的硬件,具备大量简单的计算单元并行工作。
其次,我们需要大量的内存(RAM),因为一个模型的参数可能有数十亿个,必须几乎一次性加载到内存中。这也是为什么像Co-Pilot Plus这样的PC至少需要16GB的内存,而内存不足8GB的iPhone将无法使用苹果智能功能的原因。内存的多少直接影响了你能在机器上使用多么复杂的模型。
第三,NPU还需要拥有超快的缓存,以存储这些数十亿次小计算的结果,而不用每次都与主系统内存进行通信。
第四,通过接受较低的计算精度,可以大大加速这些计算。精度在这里指的是计算机为每个数字分配多少内存。比如,你希望计算机存储某个数字的更多小数位,那么它需要的内存就更多。更高的精度消耗更多的内存,但因为神经网络通常只是输出某种概率猜测,而不是一个高度精确的答案,所以我们可以使用较低的精度,这反过来大大加快了计算速度。
总结一下,NPU需要针对四个方面进行优化:它们需要能够并行执行大量不同的计算(因此需要很多小型核心),需要大量的内存,丰富的缓存,并且要使用低精度。如果你觉得这听起来很像我们刚刚说过的关于GPU的内容,那你是对的。这也是为什么GPU经常被用于运行AI任务。自2017年以来,许多GPU甚至内置了专用的AI硬件,Nvidia(英伟达)称之为“Tensor Cores”。比如,Nvidia 4090显卡有高达512个Tensor Cores,专门用于AI处理,旁边还有其他专注于图形处理的核心。而如今,即便是集成在英特尔Lunar Lake芯片中的GPU也有很多AI硬件。
事实上,在Lunar Lake芯片中,GPU的AI性能峰值甚至高于大肆宣传的NPU。而在纯AI性能方面,Nvidia 4090显卡远远超过了任何现有的NPU,差距不是一点点。因此,简单来说,当我们需要神经网络的极致性能时,GPU已经是主要的AI芯片,它有专门的硬件和软件来运行神经网络,开发者通常也主要针对GPU优化这些工作负载,比如视频编辑任务。
另一方面,NPU则更多关注于能效,而不是极致性能。微软称,Snapdragon X Elite芯片上的NPU即使在满负荷状态下也只消耗不到5瓦的功率,它是一款低功耗芯片,设计用于在后台持续运行,而不用启动主CPU或GPU。这也解释了为什么NPU首先在移动设备上流行起来。在PC上,我们过去通常优化的是性能,而移动用户则必须优先考虑能效,尤其是在他们运行诸如碰撞检测、心率监控等需要持续在后台运行的任务时。
因此,对于电脑制造商来说,现在的问题是:哪些神经网络任务可以高效地在后台运行,并且确实可以从NPU中受益?
诸如图像生成或在本地运行聊天机器人等任务经常被演示,但我认为这其实有点搞笑,因为GPU可能也能同样好地运行这些任务,而我猜这些只是因为它们是普通消费者能够理解的少数几个功能。更具吸引力的是实时字幕生成和音频翻译,或者例如Windows Studio Effects(可以在视频通话中实时模糊背景、隔离语音、取消回声等功能)。你可能会用这些功能几个小时,而且是在电池供电的情况下运行,所以用NPU来处理这些任务是完全合理的。
虽然这很好,但我认为我们还没有在这类任务中看到真正的“杀手级应用”。相反,最具吸引力的NPU使用场景无疑是微软的Recall系统。
Recall是一个可以每几秒钟截图一次的系统,它在每一帧上运行图像识别和光学字符识别(OCR)软件,并创建一个可搜索的数据库,所有这些都是在后台安静地进行,而不会对电池造成毁灭性影响。这正是NPU最适合的任务,从计算角度看,这完全是NPU的“甜蜜点”。这是一个相当复杂的数学问题,但它应当在后台安静地运行,基本上是无声无息地持续进行,而用户甚至不会注意到它的存在。
现在的问题当然是,人们是否最终会接受这样一个看似“侵入性”的系统,或者开发者是否会设计出其他同样适合NPU的工具。目前我认为这两个问题的答案都还不太明确,因此我也认为NPU的价值还不十分明显。
来源:老胡说科学