摘要:近日,以“探索 AI 计算的未来”为题的ArmUnlocked 2025 系列活动在上海正式启幕,诠释了Arm将AI计算作为未来技术开发的重点战略方向,并将集中面向AI计算需求提供全方面的系统解决方案。
近日,以“探索 AI 计算的未来”为题的Arm Unlocked 2025 系列活动在上海正式启幕,诠释了Arm将AI计算作为未来技术开发的重点战略方向,并将集中面向AI计算需求提供全方面的系统解决方案。
从最早的处理器内核IP,到后来的跨平台的IP产品,再到后来的系统级方案以及平台化解决方案,Arm面向客户的服务已经从单个IP向计算平台化解决方案全面转型,从而大幅降低客户设计最先进计算解决方案的门槛,推动整个产业的发展。
“平台优先”战略引领 AI 时代计算变革
Arm 高级副总裁兼终端事业部总经理 Chris Bergey 在峰会开场报告中解析了 AI 发展趋势,并强调了 Arm “平台优先”的核心策略。他指出,AI 的快速普及与个性化发展,正从模型规模、应用需求、智能体 / 端侧 AI、设计复杂度与成本、能效及创新速度六大维度重新定义计算,并重塑计算技术的研发、部署与规模化应用模式。
同时,AI 也正持续推动全球产业形态迎来深度的变革:传统数据中心正向“AI 数据中心”转型,以优化适配基础模型训练与大规模推理;汽车从“软件定义”迈向“AI 定义”,在感知、自动化与个性化体验方面全面升级;智能手机与 PC 升级为“AI 伴侣”或“AI 工作站”,融入用户思考、工作与创作;物联网成为“AI 赋能边缘端”,为传感器、摄像头等设备赋智 —— 这些场景都对性能、延迟、功耗及灵活性有着极高的要求。
今年5月,Arm宣布对 Arm 计算子系统 (CSS)并采取新的产品命名体系,包括面向基础设施市场的Arm Neoverse、面向汽车市场的 Arm Zena、面向移动端市场的 Arm Lumex、面向 PC 市场的 Arm Niva,以及面向物联网和边缘 AI 的Arm Orbis。这些不仅仅是产品品牌名称的改变,更是 Arm 提供的产品与服务以及交付方式的转型。Arm 计算子系统通过缩短设计周期、降低开发风险,加快开发进程,助力用户在瞬息万变的市场中加快创新步伐、与时俱进。Arm交付 CSS 的方式灵活多样,在某些市场提供高度集成的计算网格,而在其他市场则采用可灵活组合的子模块。
为了助力合作伙伴在快速演进的 AI 计算需求提前做好准备,Arm 持续进化产品体系:从 IP 到计算子系统 (CSS),再到“AI 优先”的计算平台。这项着眼“平台优先”的产品战略,整合了高性能 CPU/GPU 硬件、KleidiAI 软件工具及集成库,构建起“芯片 - 软件 - 工具”的端到端平台。凭借卓越的性能、能效和可扩展性,该计算平台能助力合作伙伴实现快速集成,降低研发复杂度与规模化风险,满足 AI 时代的多样化需求。
在这次峰会上,Arm重磅推出了其面向智能终端 AI 的新 Arm Lumex CSS 平台,这是一套专为旗舰级智能手机及下一代个人电脑加速其人工智能 (AI) 体验的先进计算平台。Lumex CSS 平台集成了搭载第二代可伸缩矩阵扩展 (SME2) 技术的最高性能 Arm CPU、GPU 及系统 IP,不仅能助力生态伙伴更快将 AI 设备推向市场,还可支持桌面级移动游戏、实时翻译、智能助手及个性化应用等多样的丰富体验。
技术发展的日新月异对产品上市更新的速度提出苛刻要求,加速产品周期意味着芯片供应商和 OEM 厂商必须在更紧迫的时间内实现创新,几乎没有出错余地。在面积和散热受限的移动设备尺寸条件下,要实现为保持 AI 性能而采用的先进封装技术,是一项极具挑战的任务。与此同时,向 3 纳米等更小工艺节点的发展也带来了复杂的设计难题。这正是 Arm 推出集成平台的原因,通过将 Arm CPU 和 GPU IP,与物理实现和部署就绪的软件栈相结合,从而加快产品上市进程,并在最新的先进工艺节点上实现业界领先的性能。而 Arm Lumex 就是Arm 新的专用CSS平台,旨在满足旗舰移动设备和 PC 上持续增长的端侧 AI 体验需求。
Lumex 为模块化且高度可配置的平台提供最新的协同设计、协同优化的 Arm 计算 IP 和先进特性:
新的 Armv9.3 C1 CPU 集群:包含C1-Ultra、C1-Premium、C1-Pro和C1-Nano四个层级选择,提供领先的每时钟周期指令数 (IPC) 性能,并内建第二代 Arm 可伸缩矩阵扩展 (SME2) 单元,在 CPU 集群上带来响应更迅速的加速 AI 体验。新的 Arm Mali G1-Ultra:在实现更快的 AI 推理能力的同时,通过新一代的光线追踪功能,带来桌面级别的视觉效果与更丰富的游戏体验。新的系统 IP 包含 Arm SI L1 系统互连与 Arm MMU L1 系统内存管理单元:旨在消除系统性能瓶颈,以及降低推理密集型和计算密集型工作负载中的延迟。3 纳米就绪的 CPU 和 GPU 物理实现:专为实现业界领先的功耗、性能与面积 (PPA) 而打造,并加速在芯片上实现旗舰级性能的进程。跨 CPU 和 GPU 技术加速实际场景的 AI 性能
在 CPU 方面,启用 SME2 技术的 Armv9.3 C1 CPU 集群结合了 Arm KleidiAI 对主流框架和运行时库的原生支持,在包括典型机器学习 (ML) 推理、语音及生成式 AI 等在内的广泛 AI 工作负载中,相较于上一代 CPU 集群,在相同条件下实现了显著的速度提升。同时带来了五倍的 AI 性能提升,以及三倍的能效优化。这些基于 SME2 的改进使得用户能在其常用的消费类电子设备上享受更流畅的 AI 交互体验,并获得更长的续航时间。
此外,得益于微架构优化和核心间更紧密的集成,Arm C1 CPU 集群在性能与能效方面树立了新标杆,具体表现为:
· 在六项行业领先性能基准测试中,相较于上一代 CPU 集群,在相同条件下的性能水平,平均提升 30%;
· 在主流应用(包括游戏和视频流媒体)中,相较于上一代 CPU 集群,在相同条件下平均速度提升了 15%;
· 在视频播放、社交媒体和网页浏览等日常移动工作负载中,相较于上一代 CPU 集群,在相同条件下的功耗,平均降低 12%;
· 相较于上一代 Arm Cortex-X925 CPU,Arm C1-Ultra CPU 带来两位数的 IPC 性能提升。
Mali G1-Ultra 进一步提升了 AI 性能与效率,相较于上一代 Arm Immortalis-G925 GPU,其在 AI 和 ML 网络中的推理速度加快了 20%。
在游戏方面,得益于新的 Arm 光线追踪单元 v2 (Ray Tracing Unit v2, RTUv2),Mali G1-Ultra 将光线追踪性能提升了两倍,为移动设备带来了高端桌面级视觉效果;在主流行业基准测试与游戏应用(包括《暗区突围》、《堡垒之夜》、《原神》、《崩坏:星穹铁道》等)中,Mali G1-Ultra 实现了 20% 的图形性能增长。
作为 Lumex CSS 平台最亮眼的技术之一,SME2 不仅能显著提升设备的响应速度和运行效率,还能释放出传统 CPU 无法企及的 AI 驱动功能。目前,SME2 已经受到包括阿里巴巴、支付宝、三星 System LSI、腾讯及 vivo 在内的业界领先生态伙伴的广泛采用与认可。
作为业界首家与 Arm 成立联合实验室的终端品牌,vivo 也出席大会分享双方在 AI 赋能的密切合作。vivo 高级副总裁、首席技术官施玉坚表示:“目前,vivo 计算加速平台 VCAP,已全面支持 SME2 指令集,可对使用视觉、语音、文本 AI 算法进行处理的多项高负载任务,实现显著的性能加速。以典型的端侧任务为例,SME2 可帮助 vivo 在全局的离线翻译等真实场景中,实现额外 20% 的性能提升,突破过往最优方案上限。我们也在此预告,Arm 最新一代的高性能计算技术以及 SME2 等先进特性,将引入 vivo 即将发布的全新旗舰产品,推动 AI 移动体验更上一层楼。”
底层技术的迭代与更新重在用户体验的提升,支付宝作为一款在中国最频繁使用的超级应用程序,也在会中分享他们探索端侧模型推理性能的成果。支付宝终端技术负责人 翁欣旦表示:“在 Arm、支付宝与 vivo 的三方密切协作下,支付宝已在 vivo 新一代旗舰智能手机上完成了基于 Arm SME2 技术的大语言模型推理验证。结果显示,在预填充 (prefill) 与解码 (decode) 阶段的性能分别超过 40% 和 25% 的提升。这一成果标志着 CPU 后端能力的重大突破,也让我们对迄今为止所取得的成果备受鼓舞。我们相信,随着 xNN 的持续演进,以及与 SME2 的深度融合,支付宝有望在更多场景释放 AI 潜能,构建更智能、更安全、更个性化的服务生态。”
在 Arm 平台携手共创中国 AI 创新之路
本次峰会的另一亮点是会中聚集产业上下游的 Arm 合作伙伴分别就不同领域的 AI 落地与 Arm 专家展开对谈,其中上午场的生态伙伴关键对话以“在 Arm 平台携手共创中国 AI 创新之路”为题,由 Arm 中国区业务全球副总裁邹挺与来自阿里云飞天实验室、安谋科技、网易伏羲实验室的与谈嘉宾一道,共同探讨了中国 AI 市场的独特发展特征、产业上下游的因应之道,以及 AI 技术对服务、游戏等热点行业下一发展阶段的影响。
自移动应用兴起以来,中国市场在场景创新、商业化落地及用户规模效应方面表现突出,形成了独特的发展模式。
安谋科技首席执行官陈锋表示,在 AI 应用领域,中国不仅拥有不可比拟的市场规模,更具备广泛的应用场景与强劲的落地潜力。在 AI 技术创新方面,中国与全球同步,应用广度尤为突出。依托覆盖传统硬件与新兴智能设备的完整产业链体系,中国为 AI 技术迅速落地提供了坚实基础,包括智能手机、智能汽车、机器人、AI 基础设施等众多领域正全面接入 AI。随着 AI 加速赋能千行百业,芯片算力需求持续增长,驱动芯片计算架构从通用走向异构。安谋科技将始终以客户与市场为导向,借助 Arm 架构在 AI 计算中的独特优势,结合自研技术创新与生态协作,积极助力中国智能计算生态建设,赋能 AI 产业蓬勃发展。
谈及大语言模型与 AI 创新应用,阿里云飞天实验室研究员杨镔博士认为,虽然在全球范围内,大模型在产业中的落地还处于持续探索的阶段,但中国市场得益于庞大的用户基础、丰富的工程技术资源以及坚实的行业政策支持,在场景创新方面,无论是在产业覆盖的广度或是速度上都具有显著的引领性。阿里云进行深入布局,不仅针对不同应用场景开源多个尺寸的通义千问大语言模型,也在多模态大语言模型领域持续发力,并在面向端侧设备方面取得了显著突破与实质性成果。
在大语言模型支撑的游戏领域,网易伏羲实验室 AI 算法部负责人吕唐杰博士分享,第三方数据显示中国玩家对 AI 技术的接受度较高,尤其在内容创作与社交分享上意愿显著。在此背景下,网易伏羲实验室深耕“游戏+AI”,整合大语言模型 (LLM)、语音交互、动画生成与强化学习 (RL) 等前沿 AI 技术,相继推出《逆水寒》手游智能 NPC、UGC 剧组模式以及《永劫无间》手游语音 AI 队友等多项行业首创功能。此外,伏羲实验室也积极与 Arm 等硬件伙伴合作优化端侧 AI 计算效能,通过联合研发构建更适配的计算底座,为探索下一代 AI 游戏体验提供坚实的技术支撑。
软硬件的协作在实现 AI 创新尤为重要,杨镔博士表示:“感谢 Arm 在端侧模型优化方案、芯片厂商生态合作等方面的支持,未来希望携手 Arm 为下游智能终端开发者提供更完善的端到端开发工具,共同推动多模态能力产业落地。”
来源:电子产品世界