自研芯片潮流下,Arm 用 Lumex CSS 重新定义端侧AI体验

B站影视 日本电影 2025-09-26 12:36 1

摘要:在今年的小米5月发布会上,O1 芯片成为全场焦点。作为一颗自研处理器,它被赋予了“国产突破”的意味。但有一个细节没有被过多强调:O1 的底层依然基于 Arm 架构。

作者 | 董道力

邮箱 | dongdaoli@pingwest.com

在今年的小米5月发布会上,O1 芯片成为全场焦点。作为一颗自研处理器,它被赋予了“国产突破”的意味。但有一个细节没有被过多强调:O1 的底层依然基于 Arm 架构。

这其实并不稀奇。无论是苹果的 M 系列、华为的麒麟,还是联发科和三星的旗舰芯片,几乎都离不开 Arm。厂商们可以在影像算法、AI 体验、硬件调校上争奇斗艳,但架构层面的支撑,始终由 Arm 提供。

90 年代,它率先提出处理器授权模式,把设计与制造分开;2007 年,第一代 iPhone 的 A 系列芯片采用 Arm 架构,自此开启了智能手机的黄金时代。二十多年过去,Arm 的设计已经出现在全球数百亿台设备中,却极少被普通用户直接感知。

但生成式 AI 的崛起打破了这种平衡,底层技术的价值日益凸显,成为各个厂商竞争的关键,Arm凭借其能效优势,正迎来在终端侧驱动AI浪潮的历史性机遇。

在这样的背景下,Arm 推出了 Lumex CSS 平台。这一次,它不再只是提供架构蓝图,而是把 CPU、GPU、系统 IP 与开发工具链整合成一个完整的计算子系统,直接交付给整个产业链。

Arm 正在尝试从幕后走向台前。

1

一、Arm Lumex CSS 平台是什么

在 Arm 的官方定义里,CSS 是一种面向特定市场的“打包平台”。过去,Arm 主要提供的是 CPU 和 GPU 的 IP 授权,芯片厂商需要自己去整合系统互连、内存管理、物理设计和软件工具。这种模式虽然灵活,但成本高、周期长。

Lumex CSS 的出现,改变了这种关系。它不仅提供最新的 Arm C1 CPU 与 Arm Mali G1-Ultra GPU,还包含高效的系统互连、内存管理单元、物理设计方案,甚至连开发工具链都一起打包交付。对芯片厂商来说,这更像是一份“高效蓝图”:拿来即可基于 3nm 等先进工艺快速实现量产。

此外,Arm 不再把 AI 看作“附加功能”,而是把它写进了平台的底层逻辑。无论是旗舰手机、轻薄笔记本,还是中端设备,都能通过 Lumex 获得一个开箱即用的 AI 体验。

用装修房子来做比喻的话,过去的 Arm 只提供设计草图,厂商需要自己找施工队和材料;而 Lumex CSS 连水电布线和装修方案都准备好了,厂商只需要在此基础上做个性化定制。

1

二、CPU:C1 CPU集群 + SME2 的突破

在移动计算的二十年里,CPU 一直像是幕后调度员。它负责分配任务、维持秩序,却把最核心的 AI 推理交给 GPU 或 NPU,用户几乎不会把智能直接与 CPU 联系在一起。而 C1 CPU 集群的出现,正在改写这种设定。基于 Armv9.3 架构,它首次引入了 SME2 指令集扩展,让 CPU 本身变成一个可以直接承担推理的“隐形加速器”。

SME2 简单来说就是 Arm 引入的一套指令扩展。它的核心作用是让 CPU 能够像 GPU 或 NPU 一样高效处理大规模的矩阵运算,这类运算正是 AI 推理和深度学习的基础。在 CPU 方面,启用 SME2 技术的 Armv9.3 C1 CPU 集群结合了 Arm KleidiAI 对主流框架和运行时库的原生支持,在包括典型机器学习推理、语音及生成式 AI 等在内的广泛 AI 工作负载中,相较于上一代 CPU 集群,在相同条件下实现了显著的速度提升。

基于 SME2 的 CPU,在语音助手响应速度快了近五倍,用户唤醒后几乎能立刻得到反馈,音频生成速度翻倍以上,相机在 1080P 模式下能以 120 帧每秒进行实时降噪,在 4K 模式下依旧稳定保持 30 帧。在 Arm 的演示中,智能瑜伽教练应用识别用户动作并即时给出口头反馈,延迟缩短了一半以上,几乎做到“秒回”。

Arm C1 系列中,旗舰级的 C1-Ultra 单线程性能比 Cortex-X925 提升 25%,保持连续六年的两位数 IPC 增长势头,专为大模型推理和计算摄影而生。Arm C1-Premium 在保持性能的同时,面积缩小了三分之一,适合次旗舰手机和多任务场景。Arm C1-Pro 则强调长时间高能效运行,在流媒体播放和流式推理中表现突出。而 Arm C1-Nano 面向可穿戴和超小型设备,以更小的体积实现了 26% 的效率提升。

厂商可以像挑选零件一样,根据产品定位自由拼装 CPU 方案,让从旗舰手机到手表的设备都能搭载同一代的核心基因。

而在这一切背后,真正维系系统高效运转的,是 DSU。C1-DSU 相比 DSU-120,功耗节省 26%,计算密度提升 2 倍,它就像车间主任兼调度中心,负责多核之间的协调、缓存一致性、与内存的通信,还能根据任务动态调节功耗和频率。没有 DSU,C1 集群就无法实现大小核灵活混合与任务分流,更不可能在有限的能耗预算里挤出如此高的性能密度。

1

三、GPU:Mali G1-Ultra 的双重身份

如果说 C1 CPU 与 SME2 让人看见了 AI 在日常任务中的融入,那么 Mali G1-Ultra GPU 则是 Arm 在视觉与娱乐,其实就是游戏上的正面进击。

Mali G1 本身并不是单一型号,从旗舰到中端再到入门覆盖不同市场的完整系列。旗舰级 G1-Ultra 提供 10 核以上的配置与最强的光追单元,面向高端旗舰。G1-Premium 则在 6 到 9 核之间找到性能和面积效率的平衡,游戏性能提升约 20%,适合次旗舰与多任务场景。而轻量级的 G1-Pro 只有 1 到 5 核,却依然保持了约 20% 的渲染与 AI 性能提升,专为可穿戴、入门级手机等功耗敏感的设备打造。

长期以来,Mali GPU 在市场上的标签是能效高,但在性能上与高通 Adreno 或苹果自研 GPU 相比,总显得不够“硬核”。

Mali G1-Ultra 试图改写这种印象,它搭载了第二代光线追踪单元 RTUv2,光追性能提升两倍。游戏中的光影、反射、阴影都更加逼真,画质体验从“手机水准”提升到接近主机级别。

首先从最基础的数据是上来看,G1-Ultra 提高了游戏的帧率:

玩家可以切身感受到的“不掉帧”——一次团战不卡,一场冒险更流畅。

此外,Mali G1-Ultra 配备了第二代光线追踪单元 RTUv2,渲染性能较前一代直接翻倍。它从底层架构做了彻底优化,采用单光线模型替代传统模式,更真实地处理复杂光线。每个核心都配有独立的硬件光追单元,并能在闲置时通过“电源岛”机制降低能耗,让性能和效率可以随着核心数线性扩展。

但 Mali G1-Ultra 的意义并不仅限于游戏。该 GPU 在 AI 与机器学习网络上的推理速度比 Arm Immortalis-G925 GPU 快 20%,移动端的实时图像识别、视频滤镜、AR 应用、甚至未来的混合现实场景,都能因此更流畅地运行。

在测试基于 FP32 精度的常见机器学习任务中,可以看到,在图像分类、图像增强、深度图重建、语义分割等任务上,Mali G1-Ultra 相比Immortalis-G925有 17% 到 25% 左右的性能增长;在图像分割与语义分割上,提升幅度相对有限,分别为 3% 和 22%。而最显眼的变化来自语音识别,性能直接提升了一倍以上,达到 104% 的增幅。

1

四、生态与开发者:KleidiAI 的无缝连接

在 AI 时代,性能参数只是故事的一半,另一半在于:开发者是否愿意为它写代码。没有生态,再强的硬件也可能沦为摆设。

Arm 很清楚这一点。为此,Lumex CSS 在发布时就同步推出了 KleidiAI 软件库,并与主流的 AI 推理框架完成了深度整合,包括 PyTorch ExecuTorch、Google LiteRT、阿里巴巴 MNN、微软 ONNX Runtime。对开发者来说几乎无需改动代码,就能直接获得 SME2 带来的加速优势。

在实际开发中,这种“无感优化”同样延伸到了 GPU。过去,开发者在调优性能时,很难精确定位到底是哪一块屏幕区域拖累了帧率。Arm 的新工具则提供了逐图块的性能数据,每个图块可以输出四个计数指标,让开发者像使用热力探测器一样,一眼看出瓶颈所在。

而且,这些能力会与 Vulkan 扩展、RenderDoc 调试结合,并逐步进入未来的 Android 版本,使开发者能够在常见的工作流中直接使用。

在发布现场,Arm 展示了多个真实案例。阿里巴巴的 MNN 框架已能在手机端高效运行十亿参数模型,延迟显著缩短;支付宝与 vivo 合作验证了基于 SME2 的本地大语言模型推理,在预填充和解码阶段的性能分别提升 40% 和 25%。

支付宝的实践更具代表性。作为日活最高的超级应用之一,它将 KleidiAI 与 SME2 集成到自研引擎 xNN 中,实现高效、低功耗的推理,并基于 KleidiAI 开发出专属的低比特量化策略。在 vivo 旗舰设备上的测试表明,这一优化让更多机型能够运行大模型,同时显著提升了本地任务的实时性与隐私保障,例如自动筛选相册并即时生成旅行视频。

换句话说,Lumex 的竞争力,并不仅仅在于跑分和参数,而在于它让开发者和应用在不知不觉中依赖 Arm。正如 CUDA 之于英伟达,KleidiAI 也正在成为 Arm 在端侧绑定开发者的关键抓手。一旦这种依赖形成,Arm 在 AI 时代的话语权就不再是幕后支撑,而是真正的生态主导。

1

结尾:Lumex 的定位与未来

事实上,CSS 并不是第一次出现。Arm 早在不同领域推出过相应的平台:Neoverse CSS 面向数据中心和云端,帮助合作伙伴构建高性能服务器芯片。Zena CSS 针对汽车,强调安全与实时性。Lumex CSS 则专为消费电子设备设计,从旗舰手机到轻薄 PC,再到可穿戴设备。

从技术层面来看,Lumex 通过 C1 CPU + SME2 和 Mali G1-Ultra GPU,把 AI 能力写入设备的底层逻辑;从生态层面,它通过 KleidiAI 工具链,把开发者和应用无缝绑定进来。Arm 把这些元素打包成一份完整方案,降低了合作伙伴的门槛,让整个产业链能以更快速度响应 AI 浪潮。

对行业来说,这不仅是一场性能提升,而是一种算力的迁移:从云端回流到身边。云端算力虽强,但延迟、隐私与成本始终是硬伤。用户需要更快的交互,企业需要更高的能效,开发者需要更低的适配成本。Lumex 恰好踩中了这条必然的趋势。

长久以来,Arm 是那个不可或缺却缺少存在感的幕后玩家:它的架构遍布数百亿台设备,却很少走到台前。在 AI 的浪潮下,Arm 扮演的角色更加显眼,在备受关注的同时也将面临前所未有的挑战。云端有英伟达,移动端有苹果和高通,这些产业叙事的主角似乎总是别人。

当然,最终成败的关键不在于单一的性能参数,而在于能否真正落地。当数以亿计的用户在手机、PC、甚至手表上无感地享受到 AI 的加速时,Lumex 才算完成了它的使命。

点个“爱心”,再走 吧

来源:新浪财经

相关推荐