为 AI Agent 行为立“规矩”——字节跳动提出 Jeddak AgentArmor 智能体安全框架

B站影视 日本电影 2025-08-28 01:46 4

摘要:继 LLM(大语言模型)之后,AI Agent(智能体)正掀起新一轮的技术革命。它们不再仅仅是语言的“复读机”,而是能够自主理解、规划并执行现实世界任务的“行动派”。从自动预订旅行、管理复杂的云资源,到处理成千上万封邮件,AI Agent 展现出的巨大潜力,预

技术报告地址:

线上 AI Agent 时代已来,但“失控”风险近在眼前

继 LLM(大语言模型)之后,AI Agent(智能体)正掀起新一轮的技术革命。它们不再仅仅是语言的“复读机”,而是能够自主理解、规划并执行现实世界任务的“行动派”。从自动预订旅行、管理复杂的云资源,到处理成千上万封邮件,AI Agent 展现出的巨大潜力,预示着一个由 AI 驱动的自动化新纪元。

然而,在这片充满希望的蓝海之下,一股汹涌的暗流正在涌动。

2025年5月,AI 安全公司 Invariant 披露了一个有关 GitHub MCP 集成的严重漏洞。攻击者可通过在公共存储库中放置恶意问题,劫持开发者的 AI Agent(如 Claude Desktop 中的Claude 4 Opus),诱导其主动泄露私有仓库的数据。这种“中毒代理流”攻击完全绕过了 GitHub 的权限系统,导致用户隐私和商业机密信息泄露。

2025年8月,AI 搜索独角兽 Perplexity 打造的AI浏览器 Comet 中被发现存在一个严重安全漏洞。Comet 本质上是一款能够代替用户完成浏览器操作的 AI Agent,攻击者将恶意指令隐藏在 Reddit 帖子里,AI Agent 自动读取并执行登录邮箱、获取验证码、将 Cookie 和 token 回传给攻击者的操作,造成信息窃取,整个过程仅需150秒,无需用户点击。

2025年8月,AI 编程工具 Cursor 被发现存在高危漏洞“CurXecute”(CVE - 2025 - 54135)。攻击者可利用其对 MCP 协议实现的缺陷,通过第三方服务器发布恶意消息,诱导 AI 执行任意命令,实现远程代码执行。

针对 Agent 的攻击事件还在继续,无不指向一个核心问题:AI Agent 的“失控” 并非偶然,背后潜藏着哪些深层的驱动因素?

深挖“失控”根源:揭开 AI Agent 安全挑战的本质

AI Agent 的“失控”根源

AI Agent 通常是由 LLM 驱动、与现实世界的工具及知识库进行交互的智能代理,具备深度推理、自主决策和动作执行的能力。与传统软件的静态运行逻辑相比,AI Agent 具有极高的动态适应性和行动自主性。

然而,AI Agent 复杂的技术架构与自主工作模式使其暴露出四大安全缺陷:

输入端——过度依赖不可信环境输入

AI Agent 运行时需要从外部环境(如邮件系统、论坛、GitHub等)获取各类信息,但这些环境可被攻击者渗透,导致恶意指令以环境注入的方式进入 AI Agent 系统,成为攻击向量的起点。

规划端——自然语言媒介的模糊二义性

AI Agent 以自然语言作为工作媒介,而自然语言本身存在模糊性,无法清晰区分指令与数据、可信与不可信来源,这使得攻击者可利用该特性实施 LLM 劫持,干扰 AI Agent 的正常决策。

行动端——以过高权限访问并操纵用户资源

为了完成用户委托的任务,AI Agent 必须访问数据库、凭证、信息资产等用户敏感数据,这种直接接触使得敏感信息在 AI Agent 处理过程中面临被窃取、滥用、篡改的风险。

输出端——对外输出缺乏有效管控

AI Agent 拥有向外部世界自由输出信息的能力,可通过邮件、评论、云盘等多种渠道传递内容,一旦被劫持,攻击者可利用此弱点窃取敏感信息、破坏信息完整性甚至实施资金盗取等行为。

当这些缺陷被攻击者利用时,AI Agent 面临前所未有的安全挑战,典型安全威胁包括但不限于:

跨站注入劫持

攻击者向办公协作软件(如日历、云盘、会议等)或在线媒体服务(如外卖软件等)注入恶意指令,劫持 AI Agent 以达成攻击者预先设定的恶意目标(如删除重要文件、窃取商业机密等)。

金融欺诈

攻击者在交易记录(如水电费、信用卡账单)、商品详情和评论等载体中注入恶意指令,诱导 AI Agent 执行未经授权的支付或不符合用户需求的消费操作,以达成攻击者设定的资金盗取、消费诱导目标,或使 AI Agent 做出欠佳的消费选择(如选择价格虚高的酒店)。

工具投毒

攻击者通过篡改或注入恶意内容至 MCP (Model Context Protocol) 工具的描述信息,误导 AI Agent 对工具功能、使用场景、参数要求等形成错误认知(如 delete_all 工具可快速清理冗余文件,无需确认直接执行),致使 AI Agent 在调用工具时执行不符合预期的操作,偏离用户真实需求或造成潜在危害。

一个严峻的问题摆在面前:如何确保 AI Agent 不会“失控”?

传统防御“治标不治本”,为何难以束缚 AI Agent?

面对 AI Agent 新兴的安全挑战,人们尝试了多种传统防御手段,但效果不尽人意。

内容过滤

如同给 AI Agent 戴上“关键词口罩”,基于已知攻击模式进行启发式拦截。然而,工作在 AIGC 对话之上,对 AI Agent 的丰富行为上下文缺乏捕捉和理解能力;并且,面对新型攻击手法与零日攻击时,易被绕过。

安全扫描

类似给 AI Agent 做“体检”,通过检测已知的安全漏洞模式,对 AI Agent、MCP 等代码和运行环境进行排查。然而,它如同戴着固定的“检测眼镜”,在缺乏 AI Agent 运行时上下文的前提下,尺度难以把控。若标准过度严格,容易对正常样本造成误判;若标准过度宽松,则可能对恶意代码漏查,难以在两者之间寻得平衡。

访问控制

这相当于为 AI Agent 戴上一个“安全手铐”,把其权限约束在“最小必要”且能完成任务的范围内,控制它与外部环境资源的访问交互。然而,传统的身份与访问控制遵循静态设计,难以适配 AI Agent 的功能通用性、场景多样性、细粒度交互。例如,虽然在单个用户场景中(如总结邮件),AI Agent 仅需被赋予最小权限(如邮箱只读不发);但为全面支撑多样化任务,AI Agent 出厂时又需开放极高权限(覆盖邮件、云盘、数据库、代码仓库等全资源访问)。这种矛盾使传统的身份与访问控制机制失效,AI Agent 因此暴露于安全风险中。

执行隔离

将 AI Agent 的规划与行动环节分开,如同在“大脑”和“手脚”之间设立屏障。看似安全了,实则牺牲了效率。这就好比让一个人手脚和大脑之间的神经信号传递变慢,做事自然变得迟钝;或者开车时频繁踩刹车,遇到复杂路况根本没法灵活应对,最终导致任务完成得又慢又差。

这些传统方案的根本缺陷在于,将 AI Agent 等价于传统软件,将 AI Agent 行为视为遵循固定逻辑的无智能机械实体,既未深入解析 AI Agent “思考”与“行动”的动态过程,更无法在其动态生成的复杂行动计划付诸实施前,开展结构化、可验证的安全分析。

我们需要一种全新的范式,从根本上改变游戏规则。

AgentArmor:将 Agent 行为“编译”为可验证的程序

软件工程经典领域 v.s. Al Agent 全新领域

为了从根源上解决 AI Agent 的安全困境,字节跳动安全研究团队提出了全新的智能体安全框架——Jeddak AgentArmor

AgentArmor的设计哲学——将 AI Agent 运行时的行为轨迹,视为一段可分析、可验证的结构化程序。

这一视角彻底扭转了局面。它意味着,我们可以将对模糊、善变的“自然语言”的分析,转变为对精确、严谨的“程序语言”的分析。如此一来,过去几十年在软件工程领域积累的成熟技术和思路,如程序分析和软件验证,便可直接应用于 AI Agent 安全领域。

如果说传统安全方案是在给一辆“黑盒”汽车安装外部护栏和摄像头,那么 AgentArmor 则是直接拿到了这辆车的“设计蓝图”和“电路图”,在汽车每次失控前,能精准剖析出问题部件与步骤,并从根源处阻止、缓解、响应风险点。

AgentArmor 智能体安全框架

为了实现这一技术目标,AgentArmor 设计了三大核心组件:

图构建器 (Graph Constructor)

负责将 AI Agent 运行时线性的行为轨迹实时转换为一个结构化的程序依赖图(Program Dependency Graph),捕获控制流和数据流,让 AI Agent 的“思维链”与“行为链”一目了然。

属性注册表 (Property Registry)

一个丰富的安全元数据库,负责为图中的每一个节点(工具、数据)附加安全属性。对于未知的未知工具、MCP、三方服务等,自动挖掘其数据操作流程,生成对应安全等级。

类型系统 (Type System)

类型即“安全等级”,类型系统将在程序依赖图上自动推导新节点的安全等级,并执行基于安全等级的策略校验,在风险行为发生前精准识别,并给出风险响应建议,如升密、降密、告警、拦截等。

AgentArmor 基于程序依赖图与类型系统的安全工作流

在 AI Agent 工作时,AgentArmor 首先借助图构建器,将 AI Agent 运行过程中的执行轨迹迅速且精准地转化为程序依赖图,从而清晰呈现其控制流与数据流。接着,依靠属性注册表进一步完善程序依赖图,不仅详细添加 AI Agent 调用工具的内部数据流细节,还为程序依赖图中的数据节点与行为节点设置初始类型,以此赋予各节点安全属性。最后,通过类型系统全面完善整个图中的类型标签,并严格对程序依赖图开展类型检查,以切实防止任何不安全的操作出现,确保 AI Agent 的运行安全。

值得一提的是,AgentArmor 类型系统中囊括了三大类型,满足用户与社会对于 AI Agent 在不同侧面上的安全期待:

信任类型——跨域互操作的信任建立

确保 AI Agent 在与本地服务、云服务、其它多智能体交互时建立恰当的信任关系,能准确判别交互对象的可信度,避免因信任误判引发数据泄露或恶意代码执行等风险。例如,在与基于可信执行环境 (TEE) 的代码执行器交互时可以施加高信任,可共享必要数据;而与身份未知的外部智能体交互时则保持低信任和谨慎态度,如谨慎提供自身敏感信息,不随意执行对方指令。

安全类型——对外部攻击的健壮抵御

使 AI Agent 拥有强大的防御机制,能够有效识别并抵御来自外部的各类攻击,像恶意指令注入、网络渗透等,保障自身系统的安全性与稳定性,维持正常的任务执行流程。例如,如果接收到由外部陌生人邮件触发的 App 转账指令,及时拦截上报,防止资金被盗取。

规则类型——对用户指令的忠实执行

保证 AI Agent 绝对遵循用户下达的指令,不被外部干扰或恶意篡改任务目标,精确且完整地落实用户需求。例如,在电商场景中,如果用户要求购买200元以内的鞋子,则不能购买200元以上的鞋子;或者用户要求整理文档,AI Agent 就不能将其扭曲为删除指定文件。

AgentArmor 三大类型概念的提出,体现了我们对 AI Agent 安全版图的总体认知——信任、安全、健壮、可靠、可控,是 AI Agent 实现大规模应用的前提。

性能卓越:攻击成功率直降93%

理论的先进性最终需要海量评估与测试实验来检验。

在业界公认的 AI Agent 安全基准测试平台 AgentDojo 上, AgentArmor 接受了严苛的考验。在覆盖企业办公、金融管理、个人旅行等多种高风险场景、数百个真实世界任务、7000多个安全测试用例中,AgentArmor 表现出了优异的防御性能:

风险行为识别率接近满分

在 AI Agent 因遭受攻击而执行风险行为的案例中,AgentArmor 成功拦截比例达93%

使大多数攻击尝试失败

与未受保护相比,AgentArmor 将针对 AI Agent 的攻击成功率从28%显著降至4%;特别是在指令覆盖等攻击模式下,攻击成功率降至0%

维持 AI Agent 正常效用水平

AgentArmor 使 AI Agent 正常完成用户任务的能力从73%轻微降至72%,降幅仅1%

在与其他传统竞争技术路线对比中,AgentArmor 的安全防御能力(以攻击成功率下降幅度衡量)和效用维持能力(以正常任务完成率衡量)亦展现出显著的相对优势。

对比技术路线Basic idea举例AgentArmor 安全优势AgentArmor效用优势系统级安全类策略执行、规划-执行隔离等Progent、Camel持平优胜 (>20%)提示词安全加固类在提示词中强化安全约束Repeat、Spotlight优胜 (>10%)优胜 (>5%)内容过滤器类过滤工具返回中的恶意指令提示词注入检测器优胜 (>5%)优胜 (>20%)对抗训练类LLM基模在对抗样本上训练SecAlign持平持平

特别地,对抗训练类技术路线虽与 AgentArmor 性能相当,但面临泛化性欠佳、需访问基座模型、训练成本高、不支持增量变更与策略微调、解释性不足、不可验证等挑战,致使其实用性远低于 AgentArmor。

AgentArmor 的核心性能仍在持续迭代中。

无缝集成:行为零信任的运行时加固

AgentArmor 以“行为零信任”理念与 Al Agent 运行时集成

AgentArmor 受“零信任”架构与理念启发,确保所有对外行为都经过输出验证。通过“运行态执行交互”与“控制态策略决策”双向联动,与 AI Agent 深度集成,在不改变其原有功能架构的前提下构建全流程安全防护体系,核心模块是:

策略执行点

是执行枢纽,将 AI Agent 的不可信行为化为可信。一方面,镜像 AI Agent 的 LLM 调用流量,采集上下文,为策略决策提供输入;另一方面,根据策略决策点结果,允许可信调用通行,阻断或缓解不可信行为。

策略决策点

是智能决策核心,输出安全决策。先通过行为轨迹采集获取 AI Agent 行为信息,经行为表示转化后,结合动态策略生成与行为安全分析,识别风险并响应,进而对行为进行判断,输出策略决策结果给策略执行点。

在 AI Agent 运行时,AgentArmor 的安全工作流是:

行为采集

收到用户请求后,策略执行点以上下文为载体,采集 AI Agent 的不可信行为并传送至策略决策点。

行为干预

策略执行点对不可信行为采取拦截、降密、审计等干预措施。

此集成模式覆盖用户交互、LLM 调用、环境调用全链路,通过“行为数据-策略结果”实时联动,支持快速响应业务变化或新型攻击,使 AI Agent “能干活”且“不闯祸”,形成“可感知、可干预、可进化”的安全共生体。

未来展望:构建更安全的 AI Agent 生态

AgentArmor 的概念发布只是一个开始。未来,字节跳动安全研究团队将着力于 AgentArmor 核心技术的迭代升级,把目光聚焦在技术能力的产品化封装层面;同时,逐步把核心能力拓展至 AI Coding、ChatBI Agent、OS Agent 等垂直领域,为这些领域的智能应用提供支持。

更重要的是,团队计划将 Jeddak AgentArmor 的核心框架开源,贡献给社区,并希望与全球的开发者一起,共同打造一个更加繁荣、也更加安全的 AI Agent 生态系统。

来源:字节跳动技术团队

相关推荐