全新命名体系,Arm Lumex CSS平台为端侧AI注入新动能

B站影视 韩国电影 2025-09-17 08:02 1

摘要:随着AI技术的不断发展,端侧AI设备已成为AI技术创新发展的一个核心方向。所谓端侧AI,是指在手机、电脑等终端设备上本地运行人工智能技术,无需将数据上传至云端即可完成数据处理、模型推理和决策等操作。其核心优势包括低延迟、高隐私性和减少网络依赖等,尤其适合实时性

随着AI技术的不断发展,端侧AI设备已成为AI技术创新发展的一个核心方向。所谓端侧AI,是指在手机、电脑等终端设备上本地运行人工智能技术,无需将数据上传至云端即可完成数据处理、模型推理和决策等操作。其核心优势包括低延迟、高隐私性和减少网络依赖等,尤其适合实时性和数据安全要求高的场景。Arm高级副总裁兼终端事业部总经理Chris Bergey在近期举办的Arm Unlocked 2025上海站AI技术峰会主题演讲中表示:“智能手机和PC正演变为AI伴侣,深度融入我们的思考、工作和创作过程。”

而随着端侧AI变得更加先进和成熟,移动芯片所面临的压力也在不断加剧。为了帮助行业应对端侧AI发展所带来的一系列挑战,Arm于近期推出了全新的移动终端计算平台——Arm Lumex CSS平台。据Chris Bergey介绍,Arm Lumex CSS平台是其平台战略和Armv9计算架构的新演进,其所具备的性能、集成度、扩展性均超越以往。他表示:“我们提供的是一个完整的‘AI优先’的平台,助力我们的合作伙伴更快地进行开发、扩展和创新。”

Arm Lumex是一款集成了搭载第二代可伸缩矩阵扩展(SME2)技术的高性能Arm CPU、GPU及系统IP的CSS平台,不仅能助力生态伙伴更快将AI设备推向市场,还可支持桌面级移动游戏、实时翻译、智能助手及个性化应用等多样的丰富体验。

图1:Arm Lumex CSS平台。

全新Arm C1 CPU集群,释放端侧AI潜能

Arm C1 CPU集群是Arm Lumex CSS平台的核心组件之一,也是首批基于Armv9.3架构的CPU系列产品。该集群是Arm针对移动设备市场性能最强的新一代CPU,旨在全面释放端侧AI的潜力。

该集群包含新的Arm C1-Ultra CPU,以及可灵活组合的C1-Premium、C1-Pro与C1-Nano CPU核心,能根据合作伙伴的特定需求,为其提供足够的自由度,并实现性能和能效提升。同时,采用Armv9.3架构的Arm C1 CPU搭载第二代Arm可伸缩矩阵扩展(SME2)技术,为加速AI体验带来了革新突破。

Arm终端事业部产品管理副总裁James McNiven表示:“客户可以根据他们各自的产品设计需求,自由组合Arm C1 CPU集群中的CPU产品,以实现产品性能、成本以及差异化等方面的最佳平衡。”

具体来看,Arm C1-Ultra 专为高负载 AI 任务设计,单线程峰值性能较上一代 Cortex-X925 提升 25%,核心驱动力来自两位数的每时钟周期指令数(IPC)增长;Arm C1-Premium 作为首款次旗舰处理器,核心面积较含私有 L2 缓存的 C1-Ultra 缩小 35%,却在 SPEC 等基准测试中保持同等性能,面积效率显著;Arm C1-Pro 兼顾性能与功耗,相同主频下持续性能较 Cortex-A725 提升 16%,视频播放、网页浏览等场景中能效提高 12%;Arm C1-Nano 则以最小面积集成系列优势,借助全新Arm DynamIQ 共享单元(DSU),能效较 Cortex-A520 提升 26%,核心面积缩小 2% 的同时性能提升,成为可穿戴设备等紧凑型产品的理想选择。

Arm C1 CPU集群在实际用例中表现突出。在行业领先的性能基准测试中,该CPU集群在同等条件下,相较于上一代CPU集群性能平均提升30%,在游戏和视频流媒体等应用中平均提速15%。与此同时,在日常移动端工作负载(如视频播放、社交媒体、网页浏览)中,该CPU集群在同等条件下,相较于上一代CPU集群功耗平均降低12%。

SME2技术,端侧AI性能加速器

Arm此次推出的CPU产品均启用了第二代可伸缩矩阵扩展(SME2)技术,可为开发者带来更强的AI性能、更低的内存占用,并让端侧AI运行更加流畅,尤其适配音频生成、摄像头推理、计算机视觉、实时聊天等对实时性敏感的场景。

启用了SME2技术的Arm C1 CPU集群结合Arm KleidiAI对主流框架和运行时库的原生支持,在包括典型机器学习推理、语音及生成式AI等在内的广泛AI工作负载中,相较于上一代CPU集群,在相同条件下实现了显著的速度提升。同时带来了五倍的AI性能提升,以及三倍的能效优化。

James McNiven表示:“相较于SME,SME2更适配移动设备,原因主要有两点:一是它新增了更多的指令集,可进一步提升性能和能效;二是它可以支持更小的数据类型,如2 bit和4 bit。随着每年高度量化模型的不断增多,这类小数据类型在移动生态系统中的重要性正日益凸显,这也是我们重点将SME2整合到Arm Lumex CSS平台中的原因所在。”

支付宝和vivo的相关负责人也来到Arm Unlocked AI技术峰会现场分享与Arm的合作成果,支付宝已在vivo新一代旗舰智能手机上完成了基于Arm SME2技术的大语言模型推理验证。结果显示,在预填充(prefill)与解码(decode)阶段的性能分别超过40%和25%的提升。

同时,Chris Bergey也表述,预计到2030年,SME和SME2将为超30亿台设备新增超100亿TOPS的计算能力。这将使端侧AI能力实现指数级飞跃,它将降低成本、减少延迟、增强隐私,整体提升用户体验。对开发者而言,这意味着他们能更迅速地将创新成果推向市场。

全新Mali G1 Ultra GPU,定义游戏与AI新体验

在Arm Lumex CSS平台中,Mali G1-Ultra GPU是另一核心组件,它专为新一代手游和AI体验打造。其采用了新一代Arm光线追踪单元RTUv2,与前一代RTUv1相比,RTUv2更加智能,且采用单光线模型,大幅增强对非一致性光线的支持,并成为完全独立的硬件单元。Mali G1-Ultra GPU还集成了加速的端侧AI、重构了图形管线,以及在单一目标导向设计中采用增强型架构效率。

与前一代Arm Immortalis-G925 GPU相比,Mali G1-Ultra的光线追踪性能提升高达两倍,并在主流图形基准测试中,性能表现提升20%。在AI方面,通过新的FP16矩阵计算路径,该GPU在AI与机器学习网络上的推理速度比Immortalis- G925快20%。此外,Mali G1-Ultra还改进了内存、调度和开发者工具,使Arm生态系统能够在不牺牲功耗或效率的情况下,扩展视觉和智能性。

除了面向旗舰智能手机的Mali G1-Ultra,Arm还推出Arm Mali G1-Premium和Mali G1-Pro GPU,旨在提供可扩展的性能和能效选择,以满足不同移动设备市场和产品层级的需求。

结语

Arm Lumex CSS 平台的推出,为端侧AI发展注入核心动力。凭借C1 CPU集群的性能跃升、Mali G1-Ultra GPU的体验革新,及SME2技术带来的AI加速能力,从智能手机到可穿戴设备,从游戏体验到AI推理,Arm Lumex CSS平台不仅带来了性能提升与功耗优化,更推动端侧AI向低延迟、高能效、高隐私方向演进,为行业创新与用户体验升级提供强大支撑。

来源:语恬来了

相关推荐