摘要:为了从根源上解决 AI Agent 的安全困境,字节跳动安全研究团队提出了全新的智能体安全框架——Jeddak AgentArmor。关于框架的详细介绍,可以查看上篇文章:。本篇文章将继续深入分享该框架下的可信AI Agent。
为了从根源上解决 AI Agent 的安全困境,字节跳动安全研究团队提出了全新的智能体安全框架——Jeddak AgentArmor。关于框架的详细介绍,可以查看上篇文章:。本篇文章将继续深入分享该框架下的可信AI Agent。
构建可信AI Agent:智能体行为偏离的深层危机
在人工智能技术快速演进的背景下,AI Agent 已经成为复杂任务的执行主体与人机协作的关键接口。
当关键任务被委托给 Agent,我们需要的不是一次性的“准点执行”,而是贯穿输入、推理与行动全流程的“意图理解与约束遵循”能力。近期的安全事件表明,意图误解与约束失守可以在零交互或间接注入条件下触发严重风险:
有报告显示电商平台智能购物助手在用户提出 “帮我买200元以下的衣服” 请求时,因对颜色、尺码、促销等动态因素的意图理解偏差,错误估算商品价格,导致实际支付价格超过用户预算,可能造成用户经济损失,反映出意图误判与约束失守的潜在风险。
某代码协作平台的 AI 开发工具被发现存在配置篡改漏洞,攻击者通过间接提示词注入将恶意命令添加至允许列表或串联恶意 MCP 服务,最终引发任意代码执行,暴露出工具侧约束失守与能力越权问题。
某AI Coding工具在用户明确要求禁止修改代码的情况下,仍执行了生产数据库删除操作,该数据库存储有大量企业核心数据及高管信息,导致用户遭受重大损失,凸显不可信智能体的潜在风险
研究团队在 44 个真实部署场景中对 22 个先进智能体发起约 180 万次注入攻击,其中超 6 万次成功诱发政策违背行为(包括未授权数据访问、违规金融操作、违反监管要求等),揭示了意图误导与约束规避的系统性脆弱特征。
这些事件并非偶发,而是揭示了构建可信 AI Agent 的系统性挑战——如何让 Agent 在开放环境、长序列决策与多工具协作中,持续正确理解意图并严格遵循约束,从而保持可信、可控、可审计的行为状态?
根因洞察:意图误解与约束失守贯穿全生命周期
行为风险在输入感知、推理规划与行动输出三个阶段叠加,核心表现为:意图理解偏差、约束表达与执行不稳、以及长期序列中的误差放大。
1. 输入感知阶段:认知入口的偏差与污染
Agent 接收用户意图、上下文、历史对话与外部输入并进行编码。如果入口即失真或被污染,可信性将难以建立:
用户表达的模糊性:自然语言本身的二义性导致理解偏差,影响任务执行的准确性
上下文的衰减性:长对话中的记忆衰减使 Agent 偏离初始目标,破坏行为一致性
语境信息的虚假性:虚假信息、误导性环境信息、Prompt 注入,严重威胁系统安全性
2. 推理规划阶段:策略生成的冲突与诱骗
Agent 根据对用户目标与环境理解,进行任务分解、路径规划、策略选定,这些环节里AI Agent面临着复杂的决策挑战,这些挑战直接影响其可信度:
任务分解的复杂性:复杂任务的分解容易遗漏关键步骤,导致执行偏差
优先级的混乱性:多目标冲突时的判断失误,影响决策的合理性
恶意诱导的欺骗性:攻击者通过隐晦表达绕过安全检测,破坏系统完整性
3. 行动输出阶段:工具协作与结果呈现的失守
Agent 开始与环境进行交互(包括工具调用、API 执行、外部系统操作、文本输出等),在执行过程中,微小偏差会在长序列任务里逐渐放大,对 AI Agent 的可用性和安全性产生严重影响。
工具调用的错误性:API 选择错误导致执行偏离,影响任务完成质量
反馈信号的不完整性:环境反馈不足或被篡改,影响自我纠错能力
恶意工具的诱导性:攻击者通过工具投毒实施攻击,威胁系统安全
需要特别强调的是,恶意攻击已成为阻碍可信 AI Agent 构建的主要威胁。攻击者通过环境注入、指令劫持、工具投毒等手段,系统性地破坏 AI Agent 的正常工作逻辑,这种威胁的严重性远超传统的技术缺陷,直接挑战了 AI 系统的可信性基础。
构建理论基础:面向可信 AI Agent 的双重建模视角
1. 全生命周期视角:基于自动驾驶范式的纵向可信建模
在构建可信 AI Agent 的进程中,借鉴现实世界里自动驾驶汽车的成熟设计逻辑具有重要参考价值:自动驾驶汽车作为复杂动态环境下的自主决策系统,其核心目标在于保障安全的基础上精准地完成运输任务,这与可信 AI Agent 在开放场景中可靠执行任务、严格遵守约束的需求高度吻合。
自动驾驶汽车
精准的道路巡航能力,避免路线偏离
严格的交通规则遵循,保障行驶安全
双重安全保障机制
可信 AI Agent
任务指令遵循能力,避免意图偏离
安全政策遵循能力,保障行为安全
双重可信保障体系
具体地,构建可信 AI Agent 必须同时满足两类基本机制:
机制 A: Working Towards Utility Goal(面向正确目标工作)
确保 AI Agent 始终围绕用户下达的指令和任务目标开展工作,避免因各种原因(恶意攻击导致的目标覆盖,或指令理解、幻觉、能力限制等造成的行为漂移)偏离既定目标。这是构建可信 AI Agent 的基础要求。
机制 B: Meeting Security Constraints(在安全约束内工作)
确保 AI Agent 的行为符合来自社会、行业、机构以及用户自定义的各类安全政策与约束,防止出现违背用户明确的安全约束和相关安全策略的情况。这是可信 AI 的核心保障。
2. t 时刻视角:基于零信任理念的横向即时验证建模
受现代网络安全“零信任”理念的启发,构建可信 AI Agent 需摒弃传统的“信任后验证”模式,转而采用“持续验证”的新范式。该理念的核心为:“永不信任,始终验证”。针对 AI Agent 的每个具体t时刻,我们需要首先精准捕捉其关键概念及关系,这为构建可信 AI 赋予了精细化的监控与干预能力。
在第t步,AI Agent中的关键概念及相互关系
这种精细化的时刻建模为实时监控和干预 AI Agent 行为奠定了理论基础,是可信 AI 的关键技术支撑。具体而言,t 时刻的意图与约束遵循发生在两个信息实体 a, b 之间,其检查范围如下:
ab(a, b) 意图和约束遵循的直观意义对齐检查类别LLM 的思考与行动 tAssistant Message系统提示词System PromptLLM 在第 t 步的思考与行动符合厂商和系统管理员为AI Agent制定的助手角色、可承担任务范畴、可使用的工具清单等任务指令遵循型(Utility 型)用户提示词User PromptLLM 在第 t 步的思考与行动符合用户下达的指令、发出的需求、发布的任务LLM的思考与行动 0:tAssistant MessageLLM 在第 t 步的思考与行动符合其从0到第t-1步的整体思考与行动逻辑和连贯性,无行为漂移社会安全政策符合人类价值观、道德伦理、无歧视偏见等安全政策遵循型(Security 型)行业安全政策符合所在行业制定的安全规范、安全实践机构安全政策符合所在机构制定的安全标准、安全基线等用户安全政策符合用户自定义的安全设定、规则、明确的约束条件等创新解决方案:AgentArmor 构建可信 AI Agent 的技术突破
1. 任务指令遵循型:基于概率性信任传播的目标对齐机制
算法核心理念:通过对 AI Agent 消息交互模式的深入观察发现:Agent 消息具有天然的层次结构特征,且与 System/User Prompt 的“距离”越远,消息的可信水平呈递减趋势。
概率性信任传播理念
在可信AI系统中,信任不是二元的(信任/不信任),而是概率性的。每个 AI Agent 的行为都应该基于其在整个交互链条中的"信任传播路径"来评估可信度。
这种理念认为,AI Agent 的每个决策都应该能够追溯到最初的可信源(用户指令),并且这种信任会随着传播距离的增加而衰减,需要通过持续的对齐检查来维持。
技术实现:
我们构建了 Alignment Tree 来表示这种概率性信任传播:
树状结构建模:将 Agent 交互过程建模为树状依赖关系,每个节点代表一个决策点
信任分数传播:通过 PrivilegeScore(PS) 量化信任水平,实现信任的概率性传播
贡献度评估:通过 ContributeToScore(CTS) 评估节点间的依赖强度,精确控制信任传播
这套机制体现了"距离衰减"和"依赖追溯"两大核心算法理念,为可信AI提供了理论严谨的意图指令对齐验证框架。
Alignment Tree
2. 安全政策遵循型:基于概率性约束表达的安全保障机制
算法核心理念:自然语言的概率性特征启发我们提出了概率性安全约束的创新理念。传统的安全检查往往采用硬性规则匹配,但在 AI Agent 的复杂交互环境中,这种方法面临语义多样性和表达灵活性的挑战。
概率性安全约束
在可信AI系统中,安全约束不应该是刚性的规则匹配,而应该是概率性的语义理解。"禁止泄漏机密数据"这样的约束,其中"泄漏"可能表现为"公开"、"发送"、"分享"等多种形式,"机密"可能涵盖"密码"、"token"、"内部文档"等多种对象。
通过构建 Policy Tree,我们实现了约束的概率性表达和验证,使 AI 系统能够理解约束的语义本质而非仅仅匹配字面含义。
技术实现:
我们以概率性约束表达为核心,通过结构化处理与动态匹配实现约束遵循能力,具体技术路径如下:
约束结构化:基于 ABAC (Attribute-Based Access Control) 模型,按类别(属性)对约束知识进行结构化抽取和扩展
量化与权重分配:基于“类 TF-IDF (Term Frequency-Inverse Document Frequency)”方法,为所有树节点赋予权重,量化约束的潜在表达
概率性匹配:根据上下文和历史行为动态匹配潜在的约束表达,输出约束的遵循概率
这套机制体现了"语义理解"和"概率匹配"两大核心算法理念,为可信 AI 提供了智能化的安全约束验证能力。
防护验证:AgentArmor 可信 AI Agent 的实践成效分析
AgentArmor 方案于实际应用场景中展现出卓越成效,凭借创新的意图对齐与约束遵循机制,为构建值得信赖的 AI Agent 提供了坚实且高效的技术支撑,有力地促进了可信 AI 的发展进程。
1. 效果实证:典型场景的防护实践
案例一:行为劫持的识别
行为劫持攻击的识别
行为劫持的发生:AI Agent 在访问恶意网站时,因网站注入恶意指令,致使 Agent 被劫持并执行破坏性终端命令
AgentArmor 检测:AgentArmor 的意图对齐机制将 Agent 行为构建为 Alignment Tree,识别到要执行恶意命令的节点的 PS 值(PrivilegeScore)低于信任阈值。
案例二:约束违背的发现
约束违背的发现
约束违背的发生:AI Agent 在购物过程中,因对用户 “预算小于 5000 元” 的约束理解不充分,或受商品描述信息(如夸大优惠、隐藏附加成本)的误导,出现违背预算约束的行为。
AgentArmor检测:AgentArmor 的约束遵循检测机制抽取用户的约束条件,构建 Policy Tree,并检测每一步的策略遵循分,最终在将要下单前发现要购买价格大于5000元的手机,违背了约束。
2. 核心优势:多维可信的技术特性
AgentArmor 意图与约束遵循方案在构建可信 AI Agent 方面具备以下核心技术优势:
实时性:在 AI Agent 执行的每个关键节点进行意图和约束遵循检查,实现对可信 Agent 的持续保障。
精确性:通过概率性信任传播和语义理解精确量化行为偏离程度,提高可信 Agent 的准确性。
可解释性:提供清晰的信任传播路径分析和决策依据,增强可信 Agent 的透明度。
兼容性:与现有 AI Agent 架构实现无缝集成,降低可信 Agent 的部署成本。
总结与展望:迈向可信 AI Agent 的新时代
在此前的工作中,字节跳动安全研究团队提出了将 AI Agent 运行轨迹视作可分析、可验证的结构化程序,并以类型系统对控制流、数据流及策略进行严谨校验的框架。今天,围绕“可信 AI Agent”的主题,我们进一步强调:
愿景:可信意味着意图对齐、约束满足、安全隐私三位一体,并以“可验证计算”贯穿始终。
路径:以全生命周期与t时刻的双视角,将对齐检查做成嵌入式、概率化、可解释的治理能力。
落点:在工程层面,我们以规则的抽象类型化承载上述理念,使“忠实执行用户指令”与“遵循安全政策”的能力可被产品化封装,并随场景持续演化。
迈向可信 AI Agent,不是一次性修补,而是一个以概率刻画不确定性、以零信任理念落实始终校验、以结构化验证消解复杂性的长期工程。团队希望与全球开发者一道,共同打造一个更加繁荣、也更加安全的 AI Agent 生态系统。
来源:字节跳动技术团队