迈向可信AI Agent：Jeddak AgentArmor意图对齐与约束遵循方案

摘要：为了从根源上解决 AI Agent 的安全困境，字节跳动安全研究团队提出了全新的智能体安全框架——Jeddak AgentArmor。关于框架的详细介绍，可以查看上篇文章：。本篇文章将继续深入分享该框架下的可信AI Agent。

为了从根源上解决 AI Agent 的安全困境，字节跳动安全研究团队提出了全新的智能体安全框架——Jeddak AgentArmor。关于框架的详细介绍，可以查看上篇文章：。本篇文章将继续深入分享该框架下的可信AI Agent。

构建可信AI Agent：智能体行为偏离的深层危机

在人工智能技术快速演进的背景下，AI Agent 已经成为复杂任务的执行主体与人机协作的关键接口。

当关键任务被委托给 Agent，我们需要的不是一次性的“准点执行”，而是贯穿输入、推理与行动全流程的“意图理解与约束遵循”能力。近期的安全事件表明，意图误解与约束失守可以在零交互或间接注入条件下触发严重风险：

有报告显示电商平台智能购物助手在用户提出 “帮我买200元以下的衣服” 请求时，因对颜色、尺码、促销等动态因素的意图理解偏差，错误估算商品价格，导致实际支付价格超过用户预算，可能造成用户经济损失，反映出意图误判与约束失守的潜在风险。

某代码协作平台的 AI 开发工具被发现存在配置篡改漏洞，攻击者通过间接提示词注入将恶意命令添加至允许列表或串联恶意 MCP 服务，最终引发任意代码执行，暴露出工具侧约束失守与能力越权问题。

某AI Coding工具在用户明确要求禁止修改代码的情况下，仍执行了生产数据库删除操作，该数据库存储有大量企业核心数据及高管信息，导致用户遭受重大损失，凸显不可信智能体的潜在风险

研究团队在 44 个真实部署场景中对 22 个先进智能体发起约 180 万次注入攻击，其中超 6 万次成功诱发政策违背行为（包括未授权数据访问、违规金融操作、违反监管要求等），揭示了意图误导与约束规避的系统性脆弱特征。

这些事件并非偶发，而是揭示了构建可信 AI Agent 的系统性挑战——如何让 Agent 在开放环境、长序列决策与多工具协作中，持续正确理解意图并严格遵循约束，从而保持可信、可控、可审计的行为状态？

根因洞察：意图误解与约束失守贯穿全生命周期

行为风险在输入感知、推理规划与行动输出三个阶段叠加，核心表现为：意图理解偏差、约束表达与执行不稳、以及长期序列中的误差放大。

1. 输入感知阶段：认知入口的偏差与污染

Agent 接收用户意图、上下文、历史对话与外部输入并进行编码。如果入口即失真或被污染，可信性将难以建立：

用户表达的模糊性：自然语言本身的二义性导致理解偏差，影响任务执行的准确性

上下文的衰减性：长对话中的记忆衰减使 Agent 偏离初始目标，破坏行为一致性

语境信息的虚假性：虚假信息、误导性环境信息、Prompt 注入，严重威胁系统安全性

2. 推理规划阶段：策略生成的冲突与诱骗

Agent 根据对用户目标与环境理解，进行任务分解、路径规划、策略选定，这些环节里AI Agent面临着复杂的决策挑战，这些挑战直接影响其可信度：

任务分解的复杂性：复杂任务的分解容易遗漏关键步骤，导致执行偏差

优先级的混乱性：多目标冲突时的判断失误，影响决策的合理性

恶意诱导的欺骗性：攻击者通过隐晦表达绕过安全检测，破坏系统完整性

3. 行动输出阶段：工具协作与结果呈现的失守

Agent 开始与环境进行交互（包括工具调用、API 执行、外部系统操作、文本输出等），在执行过程中，微小偏差会在长序列任务里逐渐放大，对 AI Agent 的可用性和安全性产生严重影响。

工具调用的错误性：API 选择错误导致执行偏离，影响任务完成质量

反馈信号的不完整性：环境反馈不足或被篡改，影响自我纠错能力

恶意工具的诱导性：攻击者通过工具投毒实施攻击，威胁系统安全

需要特别强调的是，恶意攻击已成为阻碍可信 AI Agent 构建的主要威胁。攻击者通过环境注入、指令劫持、工具投毒等手段，系统性地破坏 AI Agent 的正常工作逻辑，这种威胁的严重性远超传统的技术缺陷，直接挑战了 AI 系统的可信性基础。

构建理论基础：面向可信 AI Agent 的双重建模视角

1. 全生命周期视角：基于自动驾驶范式的纵向可信建模

在构建可信 AI Agent 的进程中，借鉴现实世界里自动驾驶汽车的成熟设计逻辑具有重要参考价值：自动驾驶汽车作为复杂动态环境下的自主决策系统，其核心目标在于保障安全的基础上精准地完成运输任务，这与可信 AI Agent 在开放场景中可靠执行任务、严格遵守约束的需求高度吻合。

自动驾驶汽车

精准的道路巡航能力，避免路线偏离

严格的交通规则遵循，保障行驶安全

双重安全保障机制

可信 AI Agent

任务指令遵循能力，避免意图偏离

安全政策遵循能力，保障行为安全

双重可信保障体系

具体地，构建可信 AI Agent 必须同时满足两类基本机制：

机制 A: Working Towards Utility Goal（面向正确目标工作）

确保 AI Agent 始终围绕用户下达的指令和任务目标开展工作，避免因各种原因（恶意攻击导致的目标覆盖，或指令理解、幻觉、能力限制等造成的行为漂移）偏离既定目标。这是构建可信 AI Agent 的基础要求。

机制 B: Meeting Security Constraints（在安全约束内工作）

确保 AI Agent 的行为符合来自社会、行业、机构以及用户自定义的各类安全政策与约束，防止出现违背用户明确的安全约束和相关安全策略的情况。这是可信 AI 的核心保障。

2. t 时刻视角：基于零信任理念的横向即时验证建模

受现代网络安全“零信任”理念的启发，构建可信 AI Agent 需摒弃传统的“信任后验证”模式，转而采用“持续验证”的新范式。该理念的核心为：“永不信任，始终验证”。针对 AI Agent 的每个具体t时刻，我们需要首先精准捕捉其关键概念及关系，这为构建可信 AI 赋予了精细化的监控与干预能力。

在第t步，AI Agent中的关键概念及相互关系

这种精细化的时刻建模为实时监控和干预 AI Agent 行为奠定了理论基础，是可信 AI 的关键技术支撑。具体而言，t 时刻的意图与约束遵循发生在两个信息实体 a, b 之间，其检查范围如下：

ab(a, b) 意图和约束遵循的直观意义对齐检查类别LLM 的思考与行动 tAssistant Message系统提示词System PromptLLM 在第 t 步的思考与行动符合厂商和系统管理员为AI Agent制定的助手角色、可承担任务范畴、可使用的工具清单等任务指令遵循型（Utility 型）用户提示词User PromptLLM 在第 t 步的思考与行动符合用户下达的指令、发出的需求、发布的任务LLM的思考与行动 0:tAssistant MessageLLM 在第 t 步的思考与行动符合其从0到第t-1步的整体思考与行动逻辑和连贯性，无行为漂移社会安全政策符合人类价值观、道德伦理、无歧视偏见等安全政策遵循型（Security 型）行业安全政策符合所在行业制定的安全规范、安全实践机构安全政策符合所在机构制定的安全标准、安全基线等用户安全政策符合用户自定义的安全设定、规则、明确的约束条件等

创新解决方案：AgentArmor 构建可信 AI Agent 的技术突破

1. 任务指令遵循型：基于概率性信任传播的目标对齐机制

算法核心理念：通过对 AI Agent 消息交互模式的深入观察发现：Agent 消息具有天然的层次结构特征，且与 System/User Prompt 的“距离”越远，消息的可信水平呈递减趋势。

概率性信任传播理念

在可信AI系统中，信任不是二元的（信任/不信任），而是概率性的。每个 AI Agent 的行为都应该基于其在整个交互链条中的"信任传播路径"来评估可信度。

这种理念认为，AI Agent 的每个决策都应该能够追溯到最初的可信源（用户指令），并且这种信任会随着传播距离的增加而衰减，需要通过持续的对齐检查来维持。

技术实现：

我们构建了 Alignment Tree 来表示这种概率性信任传播：

树状结构建模：将 Agent 交互过程建模为树状依赖关系，每个节点代表一个决策点

信任分数传播：通过 PrivilegeScore(PS) 量化信任水平，实现信任的概率性传播

贡献度评估：通过 ContributeToScore(CTS) 评估节点间的依赖强度，精确控制信任传播

这套机制体现了"距离衰减"和"依赖追溯"两大核心算法理念，为可信AI提供了理论严谨的意图指令对齐验证框架。

Alignment Tree

2. 安全政策遵循型：基于概率性约束表达的安全保障机制

算法核心理念：自然语言的概率性特征启发我们提出了概率性安全约束的创新理念。传统的安全检查往往采用硬性规则匹配，但在 AI Agent 的复杂交互环境中，这种方法面临语义多样性和表达灵活性的挑战。

概率性安全约束

在可信AI系统中，安全约束不应该是刚性的规则匹配，而应该是概率性的语义理解。"禁止泄漏机密数据"这样的约束，其中"泄漏"可能表现为"公开"、"发送"、"分享"等多种形式，"机密"可能涵盖"密码"、"token"、"内部文档"等多种对象。

通过构建 Policy Tree，我们实现了约束的概率性表达和验证，使 AI 系统能够理解约束的语义本质而非仅仅匹配字面含义。

技术实现：

我们以概率性约束表达为核心，通过结构化处理与动态匹配实现约束遵循能力，具体技术路径如下：

约束结构化：基于 ABAC (Attribute-Based Access Control) 模型，按类别（属性）对约束知识进行结构化抽取和扩展

量化与权重分配：基于“类 TF-IDF (Term Frequency-Inverse Document Frequency)”方法，为所有树节点赋予权重，量化约束的潜在表达

概率性匹配：根据上下文和历史行为动态匹配潜在的约束表达，输出约束的遵循概率

这套机制体现了"语义理解"和"概率匹配"两大核心算法理念，为可信 AI 提供了智能化的安全约束验证能力。

防护验证：AgentArmor 可信 AI Agent 的实践成效分析

AgentArmor 方案于实际应用场景中展现出卓越成效，凭借创新的意图对齐与约束遵循机制，为构建值得信赖的 AI Agent 提供了坚实且高效的技术支撑，有力地促进了可信 AI 的发展进程。

1. 效果实证：典型场景的防护实践

案例一：行为劫持的识别

行为劫持攻击的识别

行为劫持的发生：AI Agent 在访问恶意网站时，因网站注入恶意指令，致使 Agent 被劫持并执行破坏性终端命令

AgentArmor 检测：AgentArmor 的意图对齐机制将 Agent 行为构建为 Alignment Tree，识别到要执行恶意命令的节点的 PS 值（PrivilegeScore）低于信任阈值。

案例二：约束违背的发现

约束违背的发现

约束违背的发生：AI Agent 在购物过程中，因对用户 “预算小于 5000 元” 的约束理解不充分，或受商品描述信息（如夸大优惠、隐藏附加成本）的误导，出现违背预算约束的行为。

AgentArmor检测：AgentArmor 的约束遵循检测机制抽取用户的约束条件，构建 Policy Tree，并检测每一步的策略遵循分，最终在将要下单前发现要购买价格大于5000元的手机，违背了约束。

2. 核心优势：多维可信的技术特性

AgentArmor 意图与约束遵循方案在构建可信 AI Agent 方面具备以下核心技术优势：

实时性：在 AI Agent 执行的每个关键节点进行意图和约束遵循检查，实现对可信 Agent 的持续保障。

精确性：通过概率性信任传播和语义理解精确量化行为偏离程度，提高可信 Agent 的准确性。

可解释性：提供清晰的信任传播路径分析和决策依据，增强可信 Agent 的透明度。

兼容性：与现有 AI Agent 架构实现无缝集成，降低可信 Agent 的部署成本。

总结与展望：迈向可信 AI Agent 的新时代

在此前的工作中，字节跳动安全研究团队提出了将 AI Agent 运行轨迹视作可分析、可验证的结构化程序，并以类型系统对控制流、数据流及策略进行严谨校验的框架。今天，围绕“可信 AI Agent”的主题，我们进一步强调：

愿景：可信意味着意图对齐、约束满足、安全隐私三位一体，并以“可验证计算”贯穿始终。

路径：以全生命周期与t时刻的双视角，将对齐检查做成嵌入式、概率化、可解释的治理能力。

落点：在工程层面，我们以规则的抽象类型化承载上述理念，使“忠实执行用户指令”与“遵循安全政策”的能力可被产品化封装，并随场景持续演化。

迈向可信 AI Agent，不是一次性修补，而是一个以概率刻画不确定性、以零信任理念落实始终校验、以结构化验证消解复杂性的长期工程。团队希望与全球开发者一道，共同打造一个更加繁荣、也更加安全的 AI Agent 生态系统。

来源：字节跳动技术团队

标签： agent aiagent agentarmor

本文地址：http://news.43b.com.cn/a/1554371.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐