为 AI Agent 行为立“规矩”——字节跳动提出 Jeddak AgentArmor 智能体安全框架

摘要：继 LLM（大语言模型）之后，AI Agent（智能体）正掀起新一轮的技术革命。它们不再仅仅是语言的“复读机”，而是能够自主理解、规划并执行现实世界任务的“行动派”。从自动预订旅行、管理复杂的云资源，到处理成千上万封邮件，AI Agent 展现出的巨大潜力，预

技术报告地址：

线上 AI Agent 时代已来，但“失控”风险近在眼前

继 LLM（大语言模型）之后，AI Agent（智能体）正掀起新一轮的技术革命。它们不再仅仅是语言的“复读机”，而是能够自主理解、规划并执行现实世界任务的“行动派”。从自动预订旅行、管理复杂的云资源，到处理成千上万封邮件，AI Agent 展现出的巨大潜力，预示着一个由 AI 驱动的自动化新纪元。

然而，在这片充满希望的蓝海之下，一股汹涌的暗流正在涌动。

2025年5月，AI 安全公司 Invariant 披露了一个有关 GitHub MCP 集成的严重漏洞。攻击者可通过在公共存储库中放置恶意问题，劫持开发者的 AI Agent（如 Claude Desktop 中的Claude 4 Opus），诱导其主动泄露私有仓库的数据。这种“中毒代理流”攻击完全绕过了 GitHub 的权限系统，导致用户隐私和商业机密信息泄露。

2025年8月，AI 搜索独角兽 Perplexity 打造的AI浏览器 Comet 中被发现存在一个严重安全漏洞。Comet 本质上是一款能够代替用户完成浏览器操作的 AI Agent，攻击者将恶意指令隐藏在 Reddit 帖子里，AI Agent 自动读取并执行登录邮箱、获取验证码、将 Cookie 和 token 回传给攻击者的操作，造成信息窃取，整个过程仅需150秒，无需用户点击。

2025年8月，AI 编程工具 Cursor 被发现存在高危漏洞“CurXecute”（CVE - 2025 - 54135）。攻击者可利用其对 MCP 协议实现的缺陷，通过第三方服务器发布恶意消息，诱导 AI 执行任意命令，实现远程代码执行。

针对 Agent 的攻击事件还在继续，无不指向一个核心问题：AI Agent 的“失控” 并非偶然，背后潜藏着哪些深层的驱动因素？

深挖“失控”根源：揭开 AI Agent 安全挑战的本质

AI Agent 的“失控”根源

AI Agent 通常是由 LLM 驱动、与现实世界的工具及知识库进行交互的智能代理，具备深度推理、自主决策和动作执行的能力。与传统软件的静态运行逻辑相比，AI Agent 具有极高的动态适应性和行动自主性。

然而，AI Agent 复杂的技术架构与自主工作模式使其暴露出四大安全缺陷：

输入端——过度依赖不可信环境输入

AI Agent 运行时需要从外部环境（如邮件系统、论坛、GitHub等）获取各类信息，但这些环境可被攻击者渗透，导致恶意指令以环境注入的方式进入 AI Agent 系统，成为攻击向量的起点。

规划端——自然语言媒介的模糊二义性

AI Agent 以自然语言作为工作媒介，而自然语言本身存在模糊性，无法清晰区分指令与数据、可信与不可信来源，这使得攻击者可利用该特性实施 LLM 劫持，干扰 AI Agent 的正常决策。

行动端——以过高权限访问并操纵用户资源

为了完成用户委托的任务，AI Agent 必须访问数据库、凭证、信息资产等用户敏感数据，这种直接接触使得敏感信息在 AI Agent 处理过程中面临被窃取、滥用、篡改的风险。

输出端——对外输出缺乏有效管控

AI Agent 拥有向外部世界自由输出信息的能力，可通过邮件、评论、云盘等多种渠道传递内容，一旦被劫持，攻击者可利用此弱点窃取敏感信息、破坏信息完整性甚至实施资金盗取等行为。

当这些缺陷被攻击者利用时，AI Agent 面临前所未有的安全挑战，典型安全威胁包括但不限于：

跨站注入劫持

攻击者向办公协作软件（如日历、云盘、会议等）或在线媒体服务（如外卖软件等）注入恶意指令，劫持 AI Agent 以达成攻击者预先设定的恶意目标（如删除重要文件、窃取商业机密等）。

金融欺诈

攻击者在交易记录（如水电费、信用卡账单）、商品详情和评论等载体中注入恶意指令，诱导 AI Agent 执行未经授权的支付或不符合用户需求的消费操作，以达成攻击者设定的资金盗取、消费诱导目标，或使 AI Agent 做出欠佳的消费选择（如选择价格虚高的酒店）。

工具投毒

攻击者通过篡改或注入恶意内容至 MCP (Model Context Protocol) 工具的描述信息，误导 AI Agent 对工具功能、使用场景、参数要求等形成错误认知（如 delete_all 工具可快速清理冗余文件，无需确认直接执行），致使 AI Agent 在调用工具时执行不符合预期的操作，偏离用户真实需求或造成潜在危害。

一个严峻的问题摆在面前：如何确保 AI Agent 不会“失控”？

传统防御“治标不治本”，为何难以束缚 AI Agent？

面对 AI Agent 新兴的安全挑战，人们尝试了多种传统防御手段，但效果不尽人意。

内容过滤

如同给 AI Agent 戴上“关键词口罩”，基于已知攻击模式进行启发式拦截。然而，工作在 AIGC 对话之上，对 AI Agent 的丰富行为上下文缺乏捕捉和理解能力；并且，面对新型攻击手法与零日攻击时，易被绕过。

安全扫描

类似给 AI Agent 做“体检”，通过检测已知的安全漏洞模式，对 AI Agent、MCP 等代码和运行环境进行排查。然而，它如同戴着固定的“检测眼镜”，在缺乏 AI Agent 运行时上下文的前提下，尺度难以把控。若标准过度严格，容易对正常样本造成误判；若标准过度宽松，则可能对恶意代码漏查，难以在两者之间寻得平衡。

访问控制

这相当于为 AI Agent 戴上一个“安全手铐”，把其权限约束在“最小必要”且能完成任务的范围内，控制它与外部环境资源的访问交互。然而，传统的身份与访问控制遵循静态设计，难以适配 AI Agent 的功能通用性、场景多样性、细粒度交互。例如，虽然在单个用户场景中（如总结邮件），AI Agent 仅需被赋予最小权限（如邮箱只读不发）；但为全面支撑多样化任务，AI Agent 出厂时又需开放极高权限（覆盖邮件、云盘、数据库、代码仓库等全资源访问）。这种矛盾使传统的身份与访问控制机制失效，AI Agent 因此暴露于安全风险中。

执行隔离

将 AI Agent 的规划与行动环节分开，如同在“大脑”和“手脚”之间设立屏障。看似安全了，实则牺牲了效率。这就好比让一个人手脚和大脑之间的神经信号传递变慢，做事自然变得迟钝；或者开车时频繁踩刹车，遇到复杂路况根本没法灵活应对，最终导致任务完成得又慢又差。

这些传统方案的根本缺陷在于，将 AI Agent 等价于传统软件，将 AI Agent 行为视为遵循固定逻辑的无智能机械实体，既未深入解析 AI Agent “思考”与“行动”的动态过程，更无法在其动态生成的复杂行动计划付诸实施前，开展结构化、可验证的安全分析。

我们需要一种全新的范式，从根本上改变游戏规则。

AgentArmor：将 Agent 行为“编译”为可验证的程序

软件工程经典领域 v.s. Al Agent 全新领域

为了从根源上解决 AI Agent 的安全困境，字节跳动安全研究团队提出了全新的智能体安全框架——Jeddak AgentArmor。

AgentArmor的设计哲学——将 AI Agent 运行时的行为轨迹，视为一段可分析、可验证的结构化程序。

这一视角彻底扭转了局面。它意味着，我们可以将对模糊、善变的“自然语言”的分析，转变为对精确、严谨的“程序语言”的分析。如此一来，过去几十年在软件工程领域积累的成熟技术和思路，如程序分析和软件验证，便可直接应用于 AI Agent 安全领域。

如果说传统安全方案是在给一辆“黑盒”汽车安装外部护栏和摄像头，那么 AgentArmor 则是直接拿到了这辆车的“设计蓝图”和“电路图”，在汽车每次失控前，能精准剖析出问题部件与步骤，并从根源处阻止、缓解、响应风险点。

AgentArmor 智能体安全框架

为了实现这一技术目标，AgentArmor 设计了三大核心组件：

图构建器 (Graph Constructor)

负责将 AI Agent 运行时线性的行为轨迹实时转换为一个结构化的程序依赖图（Program Dependency Graph），捕获控制流和数据流，让 AI Agent 的“思维链”与“行为链”一目了然。

属性注册表 (Property Registry)

一个丰富的安全元数据库，负责为图中的每一个节点（工具、数据）附加安全属性。对于未知的未知工具、MCP、三方服务等，自动挖掘其数据操作流程，生成对应安全等级。

类型系统 (Type System)

类型即“安全等级”，类型系统将在程序依赖图上自动推导新节点的安全等级，并执行基于安全等级的策略校验，在风险行为发生前精准识别，并给出风险响应建议，如升密、降密、告警、拦截等。

AgentArmor 基于程序依赖图与类型系统的安全工作流

在 AI Agent 工作时，AgentArmor 首先借助图构建器，将 AI Agent 运行过程中的执行轨迹迅速且精准地转化为程序依赖图，从而清晰呈现其控制流与数据流。接着，依靠属性注册表进一步完善程序依赖图，不仅详细添加 AI Agent 调用工具的内部数据流细节，还为程序依赖图中的数据节点与行为节点设置初始类型，以此赋予各节点安全属性。最后，通过类型系统全面完善整个图中的类型标签，并严格对程序依赖图开展类型检查，以切实防止任何不安全的操作出现，确保 AI Agent 的运行安全。

值得一提的是，AgentArmor 类型系统中囊括了三大类型，满足用户与社会对于 AI Agent 在不同侧面上的安全期待：

信任类型——跨域互操作的信任建立

确保 AI Agent 在与本地服务、云服务、其它多智能体交互时建立恰当的信任关系，能准确判别交互对象的可信度，避免因信任误判引发数据泄露或恶意代码执行等风险。例如，在与基于可信执行环境 (TEE) 的代码执行器交互时可以施加高信任，可共享必要数据；而与身份未知的外部智能体交互时则保持低信任和谨慎态度，如谨慎提供自身敏感信息，不随意执行对方指令。

安全类型——对外部攻击的健壮抵御

使 AI Agent 拥有强大的防御机制，能够有效识别并抵御来自外部的各类攻击，像恶意指令注入、网络渗透等，保障自身系统的安全性与稳定性，维持正常的任务执行流程。例如，如果接收到由外部陌生人邮件触发的 App 转账指令，及时拦截上报，防止资金被盗取。

规则类型——对用户指令的忠实执行

保证 AI Agent 绝对遵循用户下达的指令，不被外部干扰或恶意篡改任务目标，精确且完整地落实用户需求。例如，在电商场景中，如果用户要求购买200元以内的鞋子，则不能购买200元以上的鞋子；或者用户要求整理文档，AI Agent 就不能将其扭曲为删除指定文件。

AgentArmor 三大类型概念的提出，体现了我们对 AI Agent 安全版图的总体认知——信任、安全、健壮、可靠、可控，是 AI Agent 实现大规模应用的前提。

性能卓越：攻击成功率直降93%

理论的先进性最终需要海量评估与测试实验来检验。

在业界公认的 AI Agent 安全基准测试平台 AgentDojo 上， AgentArmor 接受了严苛的考验。在覆盖企业办公、金融管理、个人旅行等多种高风险场景、数百个真实世界任务、7000多个安全测试用例中，AgentArmor 表现出了优异的防御性能：

风险行为识别率接近满分

在 AI Agent 因遭受攻击而执行风险行为的案例中，AgentArmor 成功拦截比例达93%。

使大多数攻击尝试失败

与未受保护相比，AgentArmor 将针对 AI Agent 的攻击成功率从28%显著降至4%；特别是在指令覆盖等攻击模式下，攻击成功率降至0%。

维持 AI Agent 正常效用水平

AgentArmor 使 AI Agent 正常完成用户任务的能力从73%轻微降至72%，降幅仅1%。

在与其他传统竞争技术路线对比中，AgentArmor 的安全防御能力（以攻击成功率下降幅度衡量）和效用维持能力（以正常任务完成率衡量）亦展现出显著的相对优势。

对比技术路线Basic idea举例AgentArmor 安全优势AgentArmor效用优势系统级安全类策略执行、规划-执行隔离等Progent、Camel持平优胜 (>20%)提示词安全加固类在提示词中强化安全约束Repeat、Spotlight优胜 (>10%)优胜 (>5%)内容过滤器类过滤工具返回中的恶意指令提示词注入检测器优胜 (>5%)优胜 (>20%)对抗训练类LLM基模在对抗样本上训练SecAlign持平持平

特别地，对抗训练类技术路线虽与 AgentArmor 性能相当，但面临泛化性欠佳、需访问基座模型、训练成本高、不支持增量变更与策略微调、解释性不足、不可验证等挑战，致使其实用性远低于 AgentArmor。

AgentArmor 的核心性能仍在持续迭代中。

无缝集成：行为零信任的运行时加固

AgentArmor 以“行为零信任”理念与 Al Agent 运行时集成

AgentArmor 受“零信任”架构与理念启发，确保所有对外行为都经过输出验证。通过“运行态执行交互”与“控制态策略决策”双向联动，与 AI Agent 深度集成，在不改变其原有功能架构的前提下构建全流程安全防护体系，核心模块是：

策略执行点

是执行枢纽，将 AI Agent 的不可信行为化为可信。一方面，镜像 AI Agent 的 LLM 调用流量，采集上下文，为策略决策提供输入；另一方面，根据策略决策点结果，允许可信调用通行，阻断或缓解不可信行为。

策略决策点

是智能决策核心，输出安全决策。先通过行为轨迹采集获取 AI Agent 行为信息，经行为表示转化后，结合动态策略生成与行为安全分析，识别风险并响应，进而对行为进行判断，输出策略决策结果给策略执行点。

在 AI Agent 运行时，AgentArmor 的安全工作流是：

行为采集

收到用户请求后，策略执行点以上下文为载体，采集 AI Agent 的不可信行为并传送至策略决策点。

行为干预

策略执行点对不可信行为采取拦截、降密、审计等干预措施。

此集成模式覆盖用户交互、LLM 调用、环境调用全链路，通过“行为数据-策略结果”实时联动，支持快速响应业务变化或新型攻击，使 AI Agent “能干活”且“不闯祸”，形成“可感知、可干预、可进化”的安全共生体。

未来展望：构建更安全的 AI Agent 生态

AgentArmor 的概念发布只是一个开始。未来，字节跳动安全研究团队将着力于 AgentArmor 核心技术的迭代升级，把目光聚焦在技术能力的产品化封装层面；同时，逐步把核心能力拓展至 AI Coding、ChatBI Agent、OS Agent 等垂直领域，为这些领域的智能应用提供支持。

更重要的是，团队计划将 Jeddak AgentArmor 的核心框架开源，贡献给社区，并希望与全球的开发者一起，共同打造一个更加繁荣、也更加安全的 AI Agent 生态系统。

来源：字节跳动技术团队

标签：智能体 agent aiagent a agentarmor

本文地址：http://news.43b.com.cn/a/820520.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐