摘要:随着AI大模型的普及与发展,AI服务器和计算中心的需求暴增,行业内似乎都热衷于讨论英伟达的GPU这些更适合于机器学习的芯片。但是提到大规模部署边缘侧AI推理,则来到了Arm的优势领域。 10月30日,在深圳举行的 Arm Unlocked 2025 AI技术峰
随着AI大模型的普及与发展,AI服务器和计算中心的需求暴增,行业内似乎都热衷于讨论英伟达的GPU这些更适合于机器学习的芯片。但是提到大规模部署边缘侧AI推理,则来到了Arm的优势领域。 10月30日,在深圳举行的 Arm Unlocked 2025 AI技术峰会边缘 AI 专场上,Arm 物联网事业部硬件产品管理高级总监 Lionel Belnet 对与非网记者再次谈到了他对边缘侧AI的看法:当设备需要随时响应、当数据难以离开现场、当功耗与成本成为量产分界线,智能就必须尽量靠近数据源——靠近人、靠近传感器、靠近生产线。“始终在线 (Always-on)的感知能力是提升边缘设备用户交互体验的关键途径之一。” Lionel Belnet表示。
Lionel 同时表示,虽然Arm 推出了多款面向边缘AI的产品,例如Arm Cortex-A320 和 Arm Cortex-M85,但其中Cortex-M85 是当前 Cortex-M 体系中性能最高的处理器,但生态从 Cortex-M4/M33/M55/M7 迁移需要时间,厂商会基于既有产品节奏分批切换;这并非推进乏力,而是典型的技术扩散曲线——新的高性能平台注定需要更长的市场教育期。
边缘AI规模化落地方法论真正决定“能不能大规模装机”的,是一整套从“模型—固件—系统—合规—运维”的方法论。 第一条是功耗—时延—隐私的三角平衡:把“用户要的体验”翻译成“系统可验证指标”,诸如“唤醒响应时间 xx 毫秒”“电池续航 xx 小时”“哪些数据必须本地”,然后反推出感知链路(麦克风阵列/低帧率视觉/关键词唤醒)、任务编排(NPU 主干 + CPU 长尾/控制流)、缓存与中断策略。 第二条是算子演进的预案:开发初期以 CPU+向量扩展快速迭代,部署期将主干迁至 NPU,升级期允许临时回退/旁路到 CPU 覆盖新算子。这也是为什么 Arm 把 S-EL2 + PAC/BTI + MTE 下放到 Cortex-A320 级别:如果没有“可隔离、可诊断、可 OTA”的底座,任何“跑起来”的 demo 都难以转入“跑十年”的产品。 第三条是工具链一致性:Arm 与 PyTorch/ExecuTorch 的深度协作,把 Kleidi/KleidiAI 软件级加速“焊”进主流框架,让开发者升级框架本身就等于升级性能,而不是在不同芯片上重复“体力活”。 在端侧,用 Llama.cpp + Tiny Stories 这类真实负载测得,Cortex-A320 借助 KleidiAI 可获得显著性能提升(最高约 70%);在云侧,KleidiAI 与 PyTorch 主线的集成也已在 AWS Graviton 上展示了首 token 延迟与推理吞吐的改善。再往下,是SystemReady 之类标准把系统启动、驱动与 OS 安装做成“有标尺”的流程,辅以长期支持(LTS)与年度更新,照顾到 IoT 设备运行 7、10、甚至 15 年的现实周期。Lionel的另一句原话可以作为生态面向量产的注脚:“我们会在技术开发的早期阶段就与合作伙伴对接,及时分享技术演进路线与发展规划……在最新架构上开展精准测试、推进服务部署与落地实践。”这句话的隐含逻辑是:路线图与工具链前置,行业才有条件把“实验室可跑”变成“工厂可交付”。 关于“模型有多大才合适”,Arm 给出的是可扩展解:从几百万到十多亿参数,都能在边缘设备上找到匹配档位——设备越严苛,越要选更轻的模型与更积极的剪枝/量化;若要在边缘承接更大的模型,可以选择 Arm 更高性能的处理器等级(如 C1 系列中的 C1-Pro、C1-Ultra)来提升端侧推理能力。 “当 AI 模型在边缘端运行时,人机交互将变得更加自然、直观和友好。”Lionel Belnet谈到了更好的人机交互体验:不依赖网络、不漂移不抖动,用户与设备才有稳定的“节拍感”。从“IP 可得”到“方案可用”,Arm的生态工具链“衡量边缘 AI 生态系统的成功,核心标准在于创新活力。我们致力于构建开源、标准化的生态系统,让开发者能够自助获取所需工具,持续激发创新潜能。” Lionel介绍,Arm 是全球应用最广泛的计算平台,拥有全球规模最大的计算生态系统,以及超过 2200 万名软件开发者;软件技术方面,Arm KleidiAI 软件库已经集成到多个主流 AI 框架,包括 Llama.cpp、ExecuTorch 和 LiteRT,能够对Meta Llama 3 和 Phi-3 等主流AI 大模型进行加速,进一步释放 AI 计算性能。 Lionel表示,从硬件平台可得与方案可用之间还有很长的路要走,Arm 试图用“订阅授权 + 开源集成 + 标准化”去减少开发者的工作难度。 据介绍,Arm Flexible Access 采用“先试后付”的商业模式——合作伙伴可以在前期低成本甚至免费(符合条件的初创)获取大量 Arm IP、工具与培训,只有当设计进入制造、并最终选用某些 IP 时才支付授权;过去五年,这个计划积累了约 400 次成功流片、300+ 活跃成员,在中国也已有 70+ 合作伙伴采用(例如帝奥微电子、摩芯半导体、杭州芯势力等),他们的共同反馈集中在两个关键词:“自由试错”与“成本可控”。就时间表而言,Cortex-A320 预计 2025 年 11 月纳入该计划,Ethos-U85 预计 2026 年初纳入。 在软件侧,Arm 把KleidiAI 直接集成到 PyTorch/ExecuTorch 与端侧常用运行时(含 XNNPack 等),让开发者在统一的 PyTorch 工作流中从云到端“开箱即用”,不必为了“适配某个 Arm 实现”反复加班;云端与 AWS 的联动已展示在 Graviton 平台的首 token 延迟改善与通用推理吞吐增益,端侧与 Meta 的合作中,ExecuTorch 1.0 也把“同模型多端部署”的门槛进一步拉低。 在合规与互操作方面,SystemReady 把“能装系统、能起得来、驱动对得上”做成统一标准,LTS 则把“长期能修、修得住”变成可承诺的服务。这一切叠在一起,行业第一次看到了一条从IP 选型—SoC 设计—固件与 OS—AI 框架—模型部署—量产与运维的“连续绿道”。从伙伴生态看,亚马逊云科技(AWS)、西门子、瑞萨电子、研华科技、Eurotech 等已对这代平台表达支持,这意味着“芯片—操作系统—框架—行业应用”之间的接口开始有了更顺畅的协同路径。 对中国开发者而言,Arm 一直在做本地化配套:例如在 Ethos-U85 上提供 9 个 PaddleLite 经典视觉模型的参考实现与设计指南;再比如把 ExecuTorch 的最佳实践与 KleidiAI 的接入要点做成可复用的范式,减少“从模型到产品”的时间消耗。边缘AI落地三大应用方向Lionel认为,从中国市场的成熟度与刚需程度看,工业自动化、智能家居/可穿戴、智慧城市是边缘AI落地的三条“快车道”。 工业侧的闭环控制、视觉质检、预测性维护等,对时延与稳定极度敏感,且大量数据涉及工艺配方与设备状态,本地推理更符合“隐私友好+可靠运行”的刚性需求;以 Cortex-A320 + Ethos-U85 为基座,视觉/语音/时序等复合负载可以在不依赖云的条件下稳定执行,断网与弱网场景也可维持“安全停机/降级运行”。家居与可穿戴近两年从“Always-on 语音”快速演进到“多模态理解”(语音 + 视觉 + 手势/传感),毫瓦级待机功耗与“随叫随到”的唤醒延迟是直接决定 NPS 的指标,MCU(如 Cortex-M85)的低功耗感知与 A 级小核的表达能力协同运作,可以把体验做“够好且省电”。 在智慧城市侧,更强调隐私友好与本地自治:诸如能耗优化、交通调度、异常检测,完全可以“本地优先、按需上云”,而不是默认把原始数据全量回传;Arm 的平台与工具链组合,让“本地推理 + 云端汇总”的混合式治理更易实现与维护。 具体到工程推进,Lionel建议把“目标体验”先写进一张系统指标表——例如“连续语音唤醒 95 百分位时延 ≤ x 毫秒”“24 小时典型使用场景续航 ≥ y 小时”“本地存储留存类型:A/B/C”,然后再展开芯片选型、模型方案与工具链;把“CPU 先跑—NPU 提效”当成默认节奏,把 S-EL2 + PAC/BTI + MTE 当成默认开关,同时把 SystemReady + LTS 纳入项目计划表,让“量产、运维、合规”从第一天就有据可依。这样做的收益是:第一,不被单点技术卡住节奏;第二,安全与隐私有可验证的“硬证据”;第三,生态工具可复用,团队不必每代产品都“从零造轮子”。总结“人工智能的未来在边缘。正如我先前所说,AI 的终点不在边缘,而是始于边缘,并从边缘侧推动着下一波智能计算的浪潮。” 总结Lionel 这句话的真正含义,那就是Arm 给出的是一条工程可交付、生态可协同、商业可复制的边缘 AI 上车路径。 笔者认为,AI产业真正的分水岭,不在于有没有把一个模型跑起来,而在于能不能把“模型+系统”变成“能跑十年”的产品: 在功耗与时延上形成工程闭环; 在安全与隐私上建立可验证曲线; 在工具与生态上保持云到端一致体验。 当这些条件被系统化地满足,边缘设备不只是“更聪明”,而是更可靠、更可管、更可进化。这正是 Arm传递的关键信号:下一轮 AI 的规模增量,不只在数据中心,更在你我身边的每一台设备上。来源:与非网
