把智能放在离数据最近的地方——解读Arm边缘AI战略

摘要：随着AI大模型的普及与发展，AI服务器和计算中心的需求暴增，行业内似乎都热衷于讨论英伟达的GPU这些更适合于机器学习的芯片。但是提到大规模部署边缘侧AI推理，则来到了Arm的优势领域。 10月30日，在深圳举行的 Arm Unlocked 2025 AI技术峰

随着AI大模型的普及与发展，AI服务器和计算中心的需求暴增，行业内似乎都热衷于讨论英伟达的GPU这些更适合于机器学习的芯片。但是提到大规模部署边缘侧AI推理，则来到了Arm的优势领域。 10月30日，在深圳举行的 Arm Unlocked 2025 AI技术峰会边缘 AI 专场上，Arm 物联网事业部硬件产品管理高级总监 Lionel Belnet 对与非网记者再次谈到了他对边缘侧AI的看法：当设备需要随时响应、当数据难以离开现场、当功耗与成本成为量产分界线，智能就必须尽量靠近数据源——靠近人、靠近传感器、靠近生产线。“始终在线 (Always-on)的感知能力是提升边缘设备用户交互体验的关键途径之一。” Lionel Belnet表示。

边缘AI的五大现实诉求从AI需求侧的数据来看，多家研究机构预估到 2030 年，基于边缘 AI 的 SoC 市场营收在 800–1000 亿美元区间；到 2028 年，AI 将成为物联网项目里应用占比最高的主导技术；同一时间窗口，边缘 AI 基础设施投资预计增长 60%+。这意味着，边缘不是“下一代”的选题，而是“当下”的交付问题：你是把计算放在设备边上，还是把体验丢在网络的另一端？ Lionel Belnet认为，边缘 AI 的价值不是“换个位置跑大模型”，在语音交互、家居控制、产线质检、楼宇自控等场景里，设备最好在本地“当场算完”，一方面减少往返云端的等待，另一方面把敏感数据留在设备侧，天生缩小外泄面。 Lionel Belnet把边缘AI落地的关键概括成五个词：时延、隐私/安全、能效、成本、系统韧性——前面三项决定用户能不能感到“顺手、安心、省电”，后面两项决定厂商能不能“做得起、跑得稳”。在他看来，“始终在线（Always-on）”是体验可持续的分水岭：传感器与轻量模型以毫瓦级功耗保持监听与唤醒，命中指令即可本地响应，而不是先连云、再等回。 “哪怕复杂的 AI 算法，也可以仅凭几毫瓦功率运行。” Lionel Belnet这句话这背后包含两层含义：其一，算法与前后处理需要为低功耗重写；其二，硬件必须在极小功耗预算下仍具备“能跑得动、跑得准”的向量/矩阵计算能力。边缘AI硬件平台底座：Cortex-A320＋Ethos-U85“CPU+NPU 是否边缘AI最优解？”这已经是可穿戴与 IoT 场景被反复验证的主路线：CPU 负责开发期的快速可用与长尾算子，NPU 负责定型后的能效极值。当出现“新框架/新算子暂未覆盖”的空窗，CPU 的 SVE2/矩阵扩展即时兜底，产品不必“等芯片支持”；当模型成熟，主干运算迁到 NPU，能效成绩出来，体验和续航同时达标。工程上，这是把“先能跑，再提效”写进了体系结构。今年 Arm 面向物联网应用发布了全球首个 Armv9 边缘 AI 计算平台，核心由 Cortex-A320 CPU 与 Ethos-U85 NPU 组成。Cortex-A320 是一颗强调能效的 A 级内核，相比 Cortex-A35，机器学习（ML）性能提升约 10 倍、标量性能提升约 30%；它引入 SVE2（可伸缩矢量扩展）与矩阵乘法等特性——如果用白话来比喻，SVE2 像把一条数据“车道”加宽变灵活：同一时间并行处理更多同类数据，特别适合图像卷积、语音滤波、信号处理这类“批处理味道很重”的工作；“可伸缩”的含义在于编译器可以根据实现选择不同向量宽度，软件不需要为不同芯片写不同代码。Ethos-U85 则是端侧推理的高能效 NPU，覆盖到 Transformer 在内的主流网络算子，目标是把“每瓦算力”极限抬上去。这代平台把安全做成了“默认配置”：S-EL2 在安全世界（TrustZone 内）引入虚拟化与更强隔离，把不同任务分到彼此不干扰的“安全房间”；PAC/BTI 给程序关键跳转与返回“加签名、定方向”，降低控制流劫持与指针篡改风险；MTE（内存标记扩展）给内存块打“颜色标签”，访问“不对色”就报警，能在开发与运行期更早暴露 C/C++ 常见的越界与悬挂指针问题。 Lionel特别提醒：“这些新的安全功能不会增加额外的硬件成本，因为它们已在 Linux、编译器和工具得到支持，并在消费市场得到广泛验证。”这句话重点有二：其一，安全并非以面积增加或 BOM 成本上升为代价；其二，“工具链就绪”让安全从可选项变成量产的起点。

Lionel 同时表示，虽然Arm 推出了多款面向边缘AI的产品，例如Arm Cortex-A320 和 Arm Cortex-M85，但其中Cortex-M85 是当前 Cortex-M 体系中性能最高的处理器，但生态从 Cortex-M4/M33/M55/M7 迁移需要时间，厂商会基于既有产品节奏分批切换；这并非推进乏力，而是典型的技术扩散曲线——新的高性能平台注定需要更长的市场教育期。

边缘AI规模化落地方法论真正决定“能不能大规模装机”的，是一整套从“模型—固件—系统—合规—运维”的方法论。第一条是功耗—时延—隐私的三角平衡：把“用户要的体验”翻译成“系统可验证指标”，诸如“唤醒响应时间 xx 毫秒”“电池续航 xx 小时”“哪些数据必须本地”，然后反推出感知链路（麦克风阵列/低帧率视觉/关键词唤醒）、任务编排（NPU 主干 + CPU 长尾/控制流）、缓存与中断策略。第二条是算子演进的预案：开发初期以 CPU+向量扩展快速迭代，部署期将主干迁至 NPU，升级期允许临时回退/旁路到 CPU 覆盖新算子。这也是为什么 Arm 把 S-EL2 + PAC/BTI + MTE 下放到 Cortex-A320 级别：如果没有“可隔离、可诊断、可 OTA”的底座，任何“跑起来”的 demo 都难以转入“跑十年”的产品。第三条是工具链一致性：Arm 与 PyTorch/ExecuTorch 的深度协作，把 Kleidi/KleidiAI 软件级加速“焊”进主流框架，让开发者升级框架本身就等于升级性能，而不是在不同芯片上重复“体力活”。在端侧，用 Llama.cpp + Tiny Stories 这类真实负载测得，Cortex-A320 借助 KleidiAI 可获得显著性能提升（最高约 70%）；在云侧，KleidiAI 与 PyTorch 主线的集成也已在 AWS Graviton 上展示了首 token 延迟与推理吞吐的改善。再往下，是SystemReady 之类标准把系统启动、驱动与 OS 安装做成“有标尺”的流程，辅以长期支持（LTS）与年度更新，照顾到 IoT 设备运行 7、10、甚至 15 年的现实周期。Lionel的另一句原话可以作为生态面向量产的注脚：“我们会在技术开发的早期阶段就与合作伙伴对接，及时分享技术演进路线与发展规划……在最新架构上开展精准测试、推进服务部署与落地实践。”这句话的隐含逻辑是：路线图与工具链前置，行业才有条件把“实验室可跑”变成“工厂可交付”。关于“模型有多大才合适”，Arm 给出的是可扩展解：从几百万到十多亿参数，都能在边缘设备上找到匹配档位——设备越严苛，越要选更轻的模型与更积极的剪枝/量化；若要在边缘承接更大的模型，可以选择 Arm 更高性能的处理器等级（如 C1 系列中的 C1-Pro、C1-Ultra）来提升端侧推理能力。 “当 AI 模型在边缘端运行时，人机交互将变得更加自然、直观和友好。”Lionel Belnet谈到了更好的人机交互体验：不依赖网络、不漂移不抖动，用户与设备才有稳定的“节拍感”。从“IP 可得”到“方案可用”，Arm的生态工具链“衡量边缘 AI 生态系统的成功，核心标准在于创新活力。我们致力于构建开源、标准化的生态系统，让开发者能够自助获取所需工具，持续激发创新潜能。” Lionel介绍，Arm 是全球应用最广泛的计算平台，拥有全球规模最大的计算生态系统，以及超过 2200 万名软件开发者；软件技术方面，Arm KleidiAI 软件库已经集成到多个主流 AI 框架，包括 Llama.cpp、ExecuTorch 和 LiteRT，能够对Meta Llama 3 和 Phi-3 等主流AI 大模型进行加速，进一步释放 AI 计算性能。 Lionel表示，从硬件平台可得与方案可用之间还有很长的路要走，Arm 试图用“订阅授权 + 开源集成 + 标准化”去减少开发者的工作难度。据介绍，Arm Flexible Access 采用“先试后付”的商业模式——合作伙伴可以在前期低成本甚至免费（符合条件的初创）获取大量 Arm IP、工具与培训，只有当设计进入制造、并最终选用某些 IP 时才支付授权；过去五年，这个计划积累了约 400 次成功流片、300+ 活跃成员，在中国也已有 70+ 合作伙伴采用（例如帝奥微电子、摩芯半导体、杭州芯势力等），他们的共同反馈集中在两个关键词：“自由试错”与“成本可控”。就时间表而言，Cortex-A320 预计 2025 年 11 月纳入该计划，Ethos-U85 预计 2026 年初纳入。在软件侧，Arm 把KleidiAI 直接集成到 PyTorch/ExecuTorch 与端侧常用运行时（含 XNNPack 等），让开发者在统一的 PyTorch 工作流中从云到端“开箱即用”，不必为了“适配某个 Arm 实现”反复加班；云端与 AWS 的联动已展示在 Graviton 平台的首 token 延迟改善与通用推理吞吐增益，端侧与 Meta 的合作中，ExecuTorch 1.0 也把“同模型多端部署”的门槛进一步拉低。在合规与互操作方面，SystemReady 把“能装系统、能起得来、驱动对得上”做成统一标准，LTS 则把“长期能修、修得住”变成可承诺的服务。这一切叠在一起，行业第一次看到了一条从IP 选型—SoC 设计—固件与 OS—AI 框架—模型部署—量产与运维的“连续绿道”。从伙伴生态看，亚马逊云科技(AWS)、西门子、瑞萨电子、研华科技、Eurotech 等已对这代平台表达支持，这意味着“芯片—操作系统—框架—行业应用”之间的接口开始有了更顺畅的协同路径。对中国开发者而言，Arm 一直在做本地化配套：例如在 Ethos-U85 上提供 9 个 PaddleLite 经典视觉模型的参考实现与设计指南；再比如把 ExecuTorch 的最佳实践与 KleidiAI 的接入要点做成可复用的范式，减少“从模型到产品”的时间消耗。边缘AI落地三大应用方向Lionel认为，从中国市场的成熟度与刚需程度看，工业自动化、智能家居/可穿戴、智慧城市是边缘AI落地的三条“快车道”。工业侧的闭环控制、视觉质检、预测性维护等，对时延与稳定极度敏感，且大量数据涉及工艺配方与设备状态，本地推理更符合“隐私友好+可靠运行”的刚性需求；以 Cortex-A320 + Ethos-U85 为基座，视觉/语音/时序等复合负载可以在不依赖云的条件下稳定执行，断网与弱网场景也可维持“安全停机/降级运行”。家居与可穿戴近两年从“Always-on 语音”快速演进到“多模态理解”（语音 + 视觉 + 手势/传感），毫瓦级待机功耗与“随叫随到”的唤醒延迟是直接决定 NPS 的指标，MCU（如 Cortex-M85）的低功耗感知与 A 级小核的表达能力协同运作，可以把体验做“够好且省电”。在智慧城市侧，更强调隐私友好与本地自治：诸如能耗优化、交通调度、异常检测，完全可以“本地优先、按需上云”，而不是默认把原始数据全量回传；Arm 的平台与工具链组合，让“本地推理 + 云端汇总”的混合式治理更易实现与维护。具体到工程推进，Lionel建议把“目标体验”先写进一张系统指标表——例如“连续语音唤醒 95 百分位时延 ≤ x 毫秒”“24 小时典型使用场景续航 ≥ y 小时”“本地存储留存类型：A/B/C”，然后再展开芯片选型、模型方案与工具链；把“CPU 先跑—NPU 提效”当成默认节奏，把 S-EL2 + PAC/BTI + MTE 当成默认开关，同时把 SystemReady + LTS 纳入项目计划表，让“量产、运维、合规”从第一天就有据可依。这样做的收益是：第一，不被单点技术卡住节奏；第二，安全与隐私有可验证的“硬证据”；第三，生态工具可复用，团队不必每代产品都“从零造轮子”。总结“人工智能的未来在边缘。正如我先前所说，AI 的终点不在边缘，而是始于边缘，并从边缘侧推动着下一波智能计算的浪潮。” 总结Lionel 这句话的真正含义，那就是Arm 给出的是一条工程可交付、生态可协同、商业可复制的边缘 AI 上车路径。笔者认为，AI产业真正的分水岭，不在于有没有把一个模型跑起来，而在于能不能把“模型+系统”变成“能跑十年”的产品：在功耗与时延上形成工程闭环；在安全与隐私上建立可验证曲线；在工具与生态上保持云到端一致体验。当这些条件被系统化地满足，边缘设备不只是“更聪明”，而是更可靠、更可管、更可进化。这正是 Arm传递的关键信号：下一轮 AI 的规模增量，不只在数据中心，更在你我身边的每一台设备上。

来源：与非网

标签：智能战略 arm npu lionel

本文地址：http://news.43b.com.cn/a/1785873.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!