手机芯片,大变局

B站影视 欧美电影 2025-06-07 10:33 2

摘要:除了边缘侧的功能(例如人脸识别等本地应用),手机还必须持续兼容新的通信协议,以及系统与应用的不断更新。而且,它们必须在单次充电下完成这一切,同时保持机身不会过热,确保用户手持或贴脸时的舒适性。

领先智能手机厂商正在努力应对本地生成式AI、标准手机功能以及日益增长的手机与云之间数据交互所带来的计算和功耗压力。

除了边缘侧的功能(例如人脸识别等本地应用),手机还必须持续兼容新的通信协议,以及系统与应用的不断更新。而且,它们必须在单次充电下完成这一切,同时保持机身不会过热,确保用户手持或贴脸时的舒适性。

图1:手机主板,上方右侧为系统芯片(SoC),包含Arm CPU及其他组件。来源:Arm

“如果你观察任何一款高端智能手机的配置,你会发现所有SoC都采用了异构架构,即多个不同的模块执行不同任务,同时协同工作。” Imagination Technologies的产品管理部门细分策略高级总监Vitali Liouti表示,“从系统层面来看,每一家移动SoC厂商都在以平台视角来设计——既包括硬件,也包括软件。”

Cadence公司Silicon Solutions Group下Tensilica DSPs产品管理与市场营销总监Amol Borkar指出,由于AI网络快速演化以及AI模型需求日趋多样,移动SoC的设计变得愈发复杂。“与传统工作负载不同,AI模型——尤其是大型语言模型(LLM)和Transformer变体——在架构、规模和计算需求上不断演变。这对芯片设计师提出了更高要求,他们必须将对未来AI能力的支持硬编码到无法修改的硅中。挑战在于要同时支持AI的两个极端——一方面是大规模云模型,另一方面是像TinyLlama这样的小巧高效的本地模型。这类轻量模型对移动和嵌入式设备中的智能功能至关重要,而这些设备对功耗和内存极为敏感。”

除了系统层面的异构设计,AI也在重塑单个处理器的结构及其任务分配。

Synaptics公司物联网与边缘AI处理器部门副总裁兼总经理John Weil表示:“当前正在发生的最大变化有两个方向:一是Arm生态系统和RISC-V架构中的CPU架构增强,人们正在添加矢量数学单元模块,用于加速Transformer模型中所需的数学运算;二是神经处理器(NPU)的增强,可以将其类比为专注于边缘AI模型加速的GPU。它们大多是用于加速模型内不同算子的矢量运算单元。例如,Arm的Tensor Operator Set Architecture(TOSA)规范中列出了一系列AI操作符,人们正在为其编写加速程序,就像用OpenGL为GPU编程一样。”

图2:移动SoC设计中,AI加速器可能是GPU、NPU或高端ASIC。来源:Synopsys

近年来,为适应不断扩展的新场景,GPU与NPU设计不断更新换代。Imagination的Liouti指出:“在高端手机中,GPU通常占据硅面积的25%左右,而NPU也已扩展到足以承担大量工作负载的程度。不同任务下可能由NPU主导,也可能需要将任务拆分,一部分由NPU完成,一部分由GPU完成。NPU已成为低功耗场景的核心,比如‘始终在线’类任务。而高性能CPU依然不可或缺,因为它负责大量的初始化工作和任务管理。如果CPU性能不强,再大的GPU和NPU也无济于事。”

当前的设计重点是实现图形、通用计算与AI运算中的并行处理功耗最优化。

Imagination技术洞察副总裁Kristof Beets指出:“我们正在重新设计并优化我们的算术逻辑单元(ALU)引擎,以实现极致的低功耗数据运算。下一步是将NPU中的更多技术引入GPU,包括更适合专用处理的数据类型和处理管线。同时,我们必须具备可扩展性,满足不同客户需求。此外,开发者社区也不能被忽视,我们要确保让他们能‘开箱即用’,还能进行高效的优化和调试。”

总体来看,将AI功能集成到芯片中已不再那么困难。

Infineon物联网、消费和工业MCU部门高级副总裁Steve Tateosian表示:“五年前人们还在惊呼AI即将到来却无从下手,甚至还没有数据科学家团队。也许在十年前确实如此,但现在完全不同了。如果从开发者角度来看,我们已经有了一整支DSP博士团队在优化音频前端,而其他团队也已经掌握AI工具,用来构建模型。过去5到10年里,工具链进步巨大,包括数据处理、标签、建模、测试到终端优化等流程,这些工具已经把大部分专业知识封装在内,极大降低了AI应用的门槛。”

一切都更加视觉化、无线化和可触控化

随着 AI 的不断深入,人机交互正朝着更加可视化的方向发展,而这比传统的文本格式需要更多的计算能力。

“过去主要是电脑或基于文字的界面。现在一切都是视频或完整的图形界面,对计算资源的需求要高得多,” Ansys 产品营销总监 Marc Swinnen 说。“大量计算用于管理视频的输入输出——从屏幕输入、到 1080p 等分辨率的视频输出,都需要强大的算力。”

此外,一切都在走向无线化,模拟信号在手机中的比重也随之增加。“如今的手机大约有六根天线——这太疯狂了,” Swinnen 说。“所有这些高频通信功能——从 Wi-Fi、5G、蓝牙到 AirDrop——各自有自己的频段、芯片和天线。”

通信标准的不断演进,对 SoC 设计者而言又是一个新挑战。

“关键在于支持 AI 应用场景,并推动 UFS(通用闪存存储)规范的落地和加速,” Synopsys 移动、汽车及消费级 IP 产品管理执行总监、MIPI 联盟主席 Hezi Saar 表示。“通过 MIPI 联盟,我们将规范的推进速度加快了一年,大大降低了风险。目前,规范还在定义中。SoC 和 IP 厂商需要在规范制定的同时开发自己的 IP,进行流片,先实现部分规范功能,并规划后续完善、规划互操作性、搭建生态。过去,规范每两年才迭代一次,但由于 AI 以软件为主导,硬件受到的影响越来越大,一切都被压缩到了更短的周期。硬件可不像软件那样灵活。”

图 3:智能手机中正在实现的场景——LLM 或 AI 引擎需要驻留在存储中。来源:Synopsys

“设备开启时,大部分模型需要加载到 DRAM 中,因此 UFS 存储到 SoC 之间的读取连接必须非常高效,” Saar 说。“这就是对延迟的考验。用户按下按钮提问,不能等两秒才有响应。当然,也有优化方式,例如只读取部分数据。但在这类系统中,我们需要将数据快速推到 DRAM,再由片上加速单元运算,最后将结果传回给用户,比如播放音频。在移动设备上,这一切都必须极致高效。功耗至关重要,因此会尽量减少数据传输,让 UFS 存储多休眠。一方面我预期存储连接和 DRAM 连接都会比以往更快地演进。”

多模态模型和 Stable Diffusion 等生成式 AI 工具的兴起,又给设计带来了更多复杂性,它们将文本、图像,有时还包括音频处理,统一到一个架构中。“这些模型需要灵活高效的计算结构,以处理多种数据类型和执行模式,” Cadence 的 Borkar 说。“为了在快速演进的 AI 面前保持韧性,AI 子系统的设计必须考虑未来可扩展性。通常会在 NPU 旁加入可编程 IP 模块,使 SoC 在流片后仍能适配新模型架构与工作负载。要支持如此多样的 AI 应用场景,SoC 不仅要强大高效,还要在架构上具有灵活性,这让以 AI 为核心的芯片设计成为移动计算领域最富挑战性的一环。”

另一项手机算法应用是在触摸屏上区分有效与无效触控,无论是“直板”手机,还是因屏幕更薄而面临额外挑战的折叠屏手机。

“当显示屏变得更薄时,顶层触摸层必须更靠近噪声更大的显示层,” Synaptics 产品营销总监 Sam Toba 说。“我们要处理来自像素的显示噪声,对于超薄显示屏而言尤其棘手。背景层板距越来越近,导致电容增大。而触摸感应是在检测极其微小的电容变化,面对如此高的背景电容,要从噪声中区分出有效的指尖信号,难度非常大。”

这款超低功耗芯片需要先判断哪些信号有意义,然后再唤醒主 SoC。“如果由主控来检测触摸,就得一直保持唤醒状态,高耗电。而绝大多数触摸都要被拒绝。”

本地 AI 处理与模型

手机中承载的 AI 应用日益增多。Ansys 的 Swinnen 提到,应尽可能在手机本地完成处理,只将提炼后的信息发送到云端。例如,面部识别或照片编辑等机器学习功能,应靠近摄像头进行本地处理。

Synopsys 的 Saar 也指出,针对 ChatGPT 或自主 AI 助手等生成式 AI 的推理请求,也可在设备本地完成。随着 AI 模型不断变得高效且紧凑,几 MB、几 KB 或几 GB 的模型都能存储在设备上,具体取决于模型和设备。

本地处理有诸多优势。Siemens Digital Industries Software 解决方案网络专家 Ron Squiers 说:“将大型语言模型推理放在设备端,而不是将事务发回云端进行运算,不仅能降低延迟、提高实时响应和闭环控制效果,还能更好地保护本地数据隐私。”

Infineon 的 Tateosian 也表示:“无需将数据上传云端,能降低功耗和成本。有些边缘 AI 应用可以在不增加联网成本或减少联网需求的情况下,降低终端功耗。”

在超优化时代,设计师必须从技术负债的最低层面着手,以榨取更多性能。Imagination 的 Liouti 说:“数据移动占 78% 的功耗,我们的重点就在于如何减少数据迁移。这既可以在 GPU 级别,也可以在平台或 SoC 级别进行。我们必须研发极其先进的技术来降低数据移动,而神经网络,尤其是大型网络,对数据的需求更为庞大,使事情更为复杂。”

尽管本地 AI 处理正不断增加,由于电池与功耗限制,仍有部分任务需在云端运行。Liouti 说:“如何在本地与云端之间做取舍,将是一个长期课题。我们才刚刚起步,未来几年形势会大不相同。目前本地运行的图像生成模型性能远不及 PC 上的 Midjourney,但未来绝非如此。”

更强大的 GPU 将是解决方案的一部分。Imagination 的 Beets 说:“在移动设备中,多余的功耗节省可以转化为更高的时钟频率和性能,同时满足相同的功耗和散热预算。”

然而,Infineon 的 Tateosian 也观察到,即便每代设备性能和存储都在提升,“用户体验并未发生质的改变,因为软件恰好利用了这些新增资源。”

结论

驱动移动 SoC 设计变革的关键趋势有三点:“模拟需求上升,可视化和 AI 应用的普及,以及当今应用的高性能计算需求,对芯片算力提出了更高要求,” Ansys 的 Swinnen 说。“但手机厂商还得兼顾低功耗、小体积,以及经济性——不像 NVIDIA 那样,只追求性能,成本浮动无所谓。手机芯片要向数亿级产量制造商证明其制造成本的可控性。”

设计者必须从软硬件双视角入手。“任何忽视二者协同的人都会失利,” Imagination 的 Liouti 说。“语言模型、高维层次及运算方法听上去简单,实则无比复杂。要用硬件以最优方式完成数学运算,才能在与巨头的竞争中拔得头筹。硬件—软件协同设计必不可少,一个人绝难完成,需多学科团队共同努力。”

https://semiengineering.com/mobile-chip-challenges-in-the-ai-era/

★一颗改变了世界的芯片

★美国商务部长:华为的芯片没那么先进

★“ASML新光刻机,太贵了!”

★悄然崛起的英伟达新对手

★芯片暴跌,全怪特朗普

★替代EUV光刻,新方案公布!

★半导体设备巨头,工资暴涨40%

★外媒:美国将提议禁止中国制造的汽车软件和硬件

来源:半导体行业观察一点号

相关推荐