把智能放在离数据最近的地方——解读Arm边缘AI战略

B站影视 内地电影 2025-11-13 15:47 1

摘要:随着AI大模型的普及与发展,AI服务器和计算中心的需求暴增,行业内似乎都热衷于讨论英伟达的GPU这些更适合于机器学习的芯片。但是提到大规模部署边缘侧AI推理,则来到了Arm的优势领域。 10月30日,在深圳举行的 Arm Unlocked 2025 AI技术峰

随着AI大模型的普及与发展,AI服务器和计算中心的需求暴增,行业内似乎都热衷于讨论英伟达的GPU这些更适合于机器学习的芯片。但是提到大规模部署边缘侧AI推理,则来到了Arm的优势领域。 10月30日,在深圳举行的 Arm Unlocked 2025 AI技术峰会边缘 AI 专场上,Arm 物联网事业部硬件产品管理高级总监 Lionel Belnet 对与非网记者再次谈到了他对边缘侧AI的看法:当设备需要随时响应、当数据难以离开现场、当功耗与成本成为量产分界线,智能就必须尽量靠近数据源——靠近人、靠近传感器、靠近生产线。“始终在线 (Always-on)的感知能力是提升边缘设备用户交互体验的关键途径之一。” Lionel Belnet表示。

边缘AI的五大现实诉求从AI需求侧的数据来看,多家研究机构预估到 2030 年,基于边缘 AI 的 SoC 市场营收在 800–1000 亿美元区间;到 2028 年,AI 将成为物联网项目里应用占比最高的主导技术;同一时间窗口,边缘 AI 基础设施投资预计增长 60%+。这意味着,边缘不是“下一代”的选题,而是“当下”的交付问题:你是把计算放在设备边上,还是把体验丢在网络的另一端? Lionel Belnet认为,边缘 AI 的价值不是“换个位置跑大模型”, 在语音交互、家居控制、产线质检、楼宇自控等场景里,设备最好在本地“当场算完”,一方面减少往返云端的等待,另一方面把敏感数据留在设备侧,天生缩小外泄面。 Lionel Belnet把边缘AI落地的关键概括成五个词:时延、隐私/安全、能效、成本、系统韧性——前面三项决定用户能不能感到“顺手、安心、省电”,后面两项决定厂商能不能“做得起、跑得稳”。在他看来,“始终在线(Always-on)”是体验可持续的分水岭:传感器与轻量模型以毫瓦级功耗保持监听与唤醒,命中指令即可本地响应,而不是先连云、再等回。 “哪怕复杂的 AI 算法,也可以仅凭几毫瓦功率运行。” Lionel Belnet这句话这背后包含两层含义:其一,算法与前后处理需要为低功耗重写;其二,硬件必须在极小功耗预算下仍具备“能跑得动、跑得准”的向量/矩阵计算能力。边缘AI硬件平台底座:Cortex-A320+Ethos-U85“CPU+NPU 是否边缘AI最优解?”这已经是可穿戴与 IoT 场景被反复验证的主路线:CPU 负责开发期的快速可用与长尾算子,NPU 负责定型后的能效极值。当出现“新框架/新算子暂未覆盖”的空窗,CPU 的 SVE2/矩阵扩展即时兜底,产品不必“等芯片支持”;当模型成熟,主干运算迁到 NPU,能效成绩出来,体验和续航同时达标。工程上,这是把“先能跑,再提效”写进了体系结构。 今年 Arm 面向 物联网应用发布了全球首个 Armv9 边缘 AI 计算平台,核心由 Cortex-A320 CPU 与 Ethos-U85 NPU 组成。Cortex-A320 是一颗强调能效的 A 级内核,相比 Cortex-A35,机器学习(ML)性能提升约 10 倍、标量性能提升约 30%;它引入 SVE2(可伸缩矢量扩展) 与矩阵乘法等特性——如果用白话来比喻,SVE2 像把一条数据“车道”加宽变灵活:同一时间并行处理更多同类数据,特别适合图像卷积、语音滤波、信号处理这类“批处理味道很重”的工作;“可伸缩”的含义在于编译器可以根据实现选择不同向量宽度,软件不需要为不同芯片写不同代码。Ethos-U85 则是端侧推理的高能效 NPU,覆盖到 Transformer 在内的主流网络算子,目标是把“每瓦算力”极限抬上去。 这代平台把安全做成了“默认配置”:S-EL2 在安全世界(TrustZone 内)引入虚拟化与更强隔离,把不同任务分到彼此不干扰的“安全房间”;PAC/BTI 给程序关键跳转与返回“加签名、定方向”,降低控制流劫持与指针篡改风险;MTE(内存标记扩展) 给内存块打“颜色标签”,访问“不对色”就报警,能在开发与运行期更早暴露 C/C++ 常见的越界与悬挂指针问题。 Lionel特别提醒:“这些新的安全功能不会增加额外的硬件成本,因为它们已在 Linux、编译器和工具得到支持,并在消费市场得到广泛验证。”这句话重点有二:其一,安全并非以面积增加或 BOM 成本上升为代价;其二,“工具链就绪”让安全从可选项变成量产的起点。

Lionel 同时表示,虽然Arm 推出了多款面向边缘AI的产品,例如Arm Cortex-A320 Arm Cortex-M85,但其中Cortex-M85 是当前 Cortex-M 体系中性能最高的处理器,但生态从 Cortex-M4/M33/M55/M7 迁移需要时间,厂商会基于既有产品节奏分批切换;这并非推进乏力,而是典型的技术扩散曲线——新的高性能平台注定需要更长的市场教育期。

边缘AI规模化落地方法论真正决定“能不能大规模装机”的,是一整套从“模型—固件—系统—合规—运维”的方法论。 第一条是功耗—时延—隐私的三角平衡:把“用户要的体验”翻译成“系统可验证指标”,诸如“唤醒响应时间 xx 毫秒”“电池续航 xx 小时”“哪些数据必须本地”,然后反推出感知链路(麦克风阵列/低帧率视觉/关键词唤醒)、任务编排(NPU 主干 + CPU 长尾/控制流)、缓存与中断策略。 第二条是算子演进的预案:开发初期以 CPU+向量扩展快速迭代,部署期将主干迁至 NPU,升级期允许临时回退/旁路到 CPU 覆盖新算子。这也是为什么 Arm 把 S-EL2 + PAC/BTI + MTE 下放到 Cortex-A320 级别:如果没有“可隔离、可诊断、可 OTA”的底座,任何“跑起来”的 demo 都难以转入“跑十年”的产品。 第三条是工具链一致性:Arm 与 PyTorch/ExecuTorch 的深度协作,把 Kleidi/KleidiAI 软件级加速“焊”进主流框架,让开发者升级框架本身就等于升级性能,而不是在不同芯片上重复“体力活”。 在端侧,用 Llama.cpp + Tiny Stories 这类真实负载测得,Cortex-A320 借助 KleidiAI 可获得显著性能提升(最高约 70%);在云侧,KleidiAI 与 PyTorch 主线的集成也已在 AWS Graviton 上展示了首 token 延迟与推理吞吐的改善。再往下,是SystemReady 之类标准把系统启动、驱动与 OS 安装做成“有标尺”的流程,辅以长期支持(LTS)与年度更新,照顾到 IoT 设备运行 7、10、甚至 15 年的现实周期。Lionel的另一句原话可以作为生态面向量产的注脚:“我们会在技术开发的早期阶段就与合作伙伴对接,及时分享技术演进路线与发展规划……在最新架构上开展精准测试、推进服务部署与落地实践。”这句话的隐含逻辑是:路线图与工具链前置,行业才有条件把“实验室可跑”变成“工厂可交付”。 关于“模型有多大才合适”,Arm 给出的是可扩展解:从几百万到十多亿参数,都能在边缘设备上找到匹配档位——设备越严苛,越要选更轻的模型与更积极的剪枝/量化;若要在边缘承接更大的模型,可以选择 Arm 更高性能的处理器等级(如 C1 系列中的 C1-Pro、C1-Ultra)来提升端侧推理能力。 “当 AI 模型在边缘端运行时,人机交互将变得更加自然、直观和友好。”Lionel Belnet谈到了更好的人机交互体验:不依赖网络、不漂移不抖动,用户与设备才有稳定的“节拍感”。从“IP 可得”到“方案可用”,Arm的生态工具链“衡量边缘 AI 生态系统的成功,核心标准在于创新活力。我们致力于构建开源、标准化的生态系统,让开发者能够自助获取所需工具,持续激发创新潜能。” Lionel介绍,Arm 是全球应用最广泛的计算平台,拥有全球规模最大的计算生态系统,以及超过 2200 万名软件开发者;软件技术方面,Arm KleidiAI 软件库已经集成到多个主流 AI 框架,包括 Llama.cpp、ExecuTorch 和 LiteRT,能够对Meta Llama 3 和 Phi-3 等主流AI 大模型进行加速,进一步释放 AI 计算性能。 Lionel表示,从硬件平台可得与方案可用之间还有很长的路要走,Arm 试图用“订阅授权 + 开源集成 + 标准化”去减少开发者的工作难度。 据介绍,Arm Flexible Access 采用“先试后付”的商业模式——合作伙伴可以在前期低成本甚至免费(符合条件的初创)获取大量 Arm IP、工具与培训,只有当设计进入制造、并最终选用某些 IP 时才支付授权;过去五年,这个计划积累了约 400 次成功流片、300+ 活跃成员,在中国也已有 70+ 合作伙伴采用(例如帝奥微电子、摩芯半导体、杭州芯势力等),他们的共同反馈集中在两个关键词:“自由试错”与“成本可控”。就时间表而言,Cortex-A320 预计 2025 年 11 月纳入该计划,Ethos-U85 预计 2026 年初纳入。 在软件侧,Arm 把KleidiAI 直接集成到 PyTorch/ExecuTorch 与端侧常用运行时(含 XNNPack 等),让开发者在统一的 PyTorch 工作流中从云到端“开箱即用”,不必为了“适配某个 Arm 实现”反复加班;云端与 AWS 的联动已展示在 Graviton 平台的首 token 延迟改善与通用推理吞吐增益,端侧与 Meta 的合作中,ExecuTorch 1.0 也把“同模型多端部署”的门槛进一步拉低。 在合规与互操作方面,SystemReady 把“能装系统、能起得来、驱动对得上”做成统一标准,LTS 则把“长期能修、修得住”变成可承诺的服务。这一切叠在一起,行业第一次看到了一条从IP 选型—SoC 设计—固件与 OS—AI 框架—模型部署—量产与运维的“连续绿道”。从伙伴生态看,亚马逊云科技(AWS)、西门子、瑞萨电子、研华科技、Eurotech 等已对这代平台表达支持,这意味着“芯片—操作系统—框架—行业应用”之间的接口开始有了更顺畅的协同路径。 对中国开发者而言,Arm 一直在做本地化配套:例如在 Ethos-U85 上提供 9 个 PaddleLite 经典视觉模型的参考实现与设计指南;再比如把 ExecuTorch 的最佳实践与 KleidiAI 的接入要点做成可复用的范式,减少“从模型到产品”的时间消耗。边缘AI落地三大应用方向Lionel认为,从中国市场的成熟度与刚需程度看,工业自动化、智能家居/可穿戴、智慧城市是边缘AI落地的三条“快车道”。 工业侧的闭环控制、视觉质检、预测性维护等,对时延与稳定极度敏感,且大量数据涉及工艺配方与设备状态,本地推理更符合“隐私友好+可靠运行”的刚性需求;以 Cortex-A320 + Ethos-U85 为基座,视觉/语音/时序等复合负载可以在不依赖云的条件下稳定执行,断网与弱网场景也可维持“安全停机/降级运行”。家居与可穿戴近两年从“Always-on 语音”快速演进到“多模态理解”(语音 + 视觉 + 手势/传感),毫瓦级待机功耗与“随叫随到”的唤醒延迟是直接决定 NPS 的指标,MCU(如 Cortex-M85)的低功耗感知与 A 级小核的表达能力协同运作,可以把体验做“够好且省电”。 在智慧城市侧,更强调隐私友好与本地自治:诸如能耗优化、交通调度、异常检测,完全可以“本地优先、按需上云”,而不是默认把原始数据全量回传;Arm 的平台与工具链组合,让“本地推理 + 云端汇总”的混合式治理更易实现与维护。 具体到工程推进,Lionel建议把“目标体验”先写进一张系统指标表——例如“连续语音唤醒 95 百分位时延 ≤ x 毫秒”“24 小时典型使用场景续航 ≥ y 小时”“本地存储留存类型:A/B/C”,然后再展开芯片选型、模型方案与工具链;把“CPU 先跑—NPU 提效”当成默认节奏,把 S-EL2 + PAC/BTI + MTE 当成默认开关,同时把 SystemReady + LTS 纳入项目计划表,让“量产、运维、合规”从第一天就有据可依。这样做的收益是:第一,不被单点技术卡住节奏;第二,安全与隐私有可验证的“硬证据”;第三,生态工具可复用,团队不必每代产品都“从零造轮子”。总结“人工智能的未来在边缘。正如我先前所说,AI 的终点不在边缘,而是始于边缘,并从边缘侧推动着下一波智能计算的浪潮。” 总结Lionel 这句话的真正含义,那就是Arm 给出的是一条工程可交付、生态可协同、商业可复制的边缘 AI 上车路径。 笔者认为,AI产业真正的分水岭,不在于有没有把一个模型跑起来,而在于能不能把“模型+系统”变成“能跑十年”的产品: 在功耗与时延上形成工程闭环; 在安全与隐私上建立可验证曲线; 在工具与生态上保持云到端一致体验。 当这些条件被系统化地满足,边缘设备不只是“更聪明”,而是更可靠、更可管、更可进化。这正是 Arm传递的关键信号:下一轮 AI 的规模增量,不只在数据中心,更在你我身边的每一台设备上。

来源:与非网

相关推荐