从实验室到生活：AI智能体大规模应用前的必经之路

摘要：当下，众多公司正竞相推出人工智能（Artificial Intelligence，AI）智能体，这些智能体能够代劳各类事务，如发送邮件、创建文档乃至编辑数据库。然而，从初步市场反馈来看，这些智能体的表现并未完全达到预期，主要问题在于它们难以与我们数字生活中的复

当下，众多公司正竞相推出人工智能（Artificial Intelligence，AI）智能体，这些智能体能够代劳各类事务，如发送邮件、创建文档乃至编辑数据库。然而，从初步市场反馈来看，这些智能体的表现并未完全达到预期，主要问题在于它们难以与我们数字生活中的复杂组件进行有效交互。

部分原因在于，我们仍处于为AI智能体构建必要基础设施的阶段。若期望智能体能够高效地为我们完成任务，就必须为它们配备必要的工具，并确保它们能够负责任地运用这些能力。

Anthropic和谷歌（Google）等公司与团体正致力于解决这一难题。过去一年中，他们相继推出了新的协议，旨在定义AI智能体之间以及它们与外部世界交互的方式。这些协议有望让AI智能体更轻松地操控电子邮件客户端、笔记应用等其他程序。

这一变革的核心在于应用程序编程接口（API，Application Programming Interfaces），它们构成了我们线上世界中计算机与程序之间信息交换的基石。目前，API通过标准化的信息回应“ping”请求。然而，AI模型的设计并非旨在每次均以完全相同的方式响应，其内在的随机性既让对话显得自然且富有表现力，也给调用API并理解其响应带来了挑战。

“模型使用的是自然语言，”Anthropic的项目经理Theo Chu表示，“要让模型获取上下文并利用其完成任务，就必须存在一个翻译层，使模型能够理解这些信息。”Chu所参与的，正是这样一种翻译技术——模型上下文协议（MCP，Model Context Protocol），该协议由Anthropic于去年年底推出。

MCP旨在标准化AI智能体通过各种程序与世界互动的方式，且已迅速普及。一个用于MCP服务器（本质上是智能体访问不同程序或工具的门户）的网络聚合器显示，已有超过15,000个服务器上线。

如何治理AI智能体之间的互动，无疑是一个更为严峻的挑战。谷歌在今年四月推出的Agent2Agent（A2A）协议便试图应对这一难题。若说MCP的作用是翻译语言和代码之间的请求，那么A2A则旨在协调不同智能体之间的信息交换。谷歌云A2A项目的Rao Surapaneni在给《麻省理工科技评论》的邮件中写道，这是“行业超越单用途智能体所必需的关键一步”。

谷歌透露，已有150家公司（包括Adobe和Salesforce）与其合作开发和采用A2A。从宏观层面看，MCP和A2A均会告知AI智能体哪些是必须做的、哪些是应该做的，以及哪些是为了确保与其他服务安全互动而不能做的。从某种意义上说，两者相辅相成——在一次A2A互动中，每个智能体均可独立使用MCP来获取对方请求的信息。

尽管如此，Chu仍强调MCP仍处于“非常早期的阶段”，同时A2A的发展路线图也显示还有大量工作尚待完成。我们认为，MCP、A2A及其他智能体协议主要有三个发展方向：安全性、开放性和效率。

目前，研究人员和开发者仍未完全理解AI模型的工作原理，新的漏洞也在不断被发现。对于聊天机器人这类AI应用，恶意攻击可能导致模型出现重复训练数据和发表不当言论等问题。但对于代表用户与世界互动的AI智能体而言，风险则要大得多。

例如，一个用于读写邮件的AI智能体已被证实易受“间接提示词注入”（indirect prompt injection）攻击。攻击者可通过一封精心设计的邮件，劫持AI模型并使其发生故障。若该智能体拥有用户文件的访问权限，便可能被指令将私人文件发送给攻击者。

一些研究者认为，像MCP这样的协议应能阻止智能体执行此类有害行为，但目前它还做不到。芝加哥大学从事AI智能体安全研究并使用MCP服务器的博士生Zhaorun Chen指出：“基本上，它没有任何安全设计。”

安全研究员及活动家Bruce Schneier对此持怀疑态度，他不认为像MCP这样的协议能有效降低AI的固有风险，并担心赋予这项技术更多权力只会增加其造成现实世界物理伤害的能力。“我们只是还没有好的方法来保障这东西的安全，”Schneier说，“它很快会变成一个安全问题的污水池。”

当然，也有人更为乐观。安全设计可被添加到MCP和A2A中，就像互联网协议中的HTTPS一样（尽管AI系统面临的攻击性质截然不同）。Chen和Anthropic均相信，将MCP和A2A等协议标准化，有助于更轻松地发现和解决安全问题。Chen在他的研究中利用MCP测试不同程序在攻击中所扮演的角色，以更好地理解其漏洞。Anthropic的Chu则认为，这些工具能帮助网络安全公司更有效地应对针对智能体的攻击，因为追溯攻击源头将变得更加容易。

尽管MCP和A2A是当今最流行的两种智能体协议，但还有许多其他协议正在开发中。思科（Cisco）和IBM等大公司在开发自己的协议，其他研究团体也提出了不同方案，例如牛津大学研究人员设计的Agora协议，它能将智能体与服务之间的通信从人类语言升级为结构化数据进行实时处理。

许多开发者希望，未来能出现一个安全可信的系统注册表，以应对日益增多的智能体和工具。包括Chen在内的一些人则希望用户能对不同服务进行评分，就像一个AI智能体工具领域的“大众点评”。甚至一些更小众的协议在MCP和A2A之上构建了区块链，以便服务器证明自己并非垃圾信息源。

MCP和A2A均为开源，这对于有望成为行业标准的协议来说是很常见的，因为它能让更多人参与共建，从而推动协议更快、更透明地发展。

“如果我们共同构建，整体上花费的时间就会更少，因为我们不必各自重复造轮子，”在亚马逊云服务（Amazon Web Services）领导开发者体验并与包括A2A和MCP在内的众多开源系统打交道的David Nalley说。

谷歌已于去年六月将A2A捐赠给了负责指导开源项目的非营利组织——Linux基金会，亚马逊云服务现在也是该项目的合作者之一。在基金会的管理下，所有参与A2A开发的开发者（包括谷歌及其他公司的员工）在协议的演进方向上均有发言权。而MCP则归Anthropic所有，并提供免费许可。这一点让一些开源倡导者感到担忧，他们希望代码库的开发也能有更广泛的参与权。

“由单一个人或实体拥有绝对控制权，无疑会增加一些风险，”Nalley表示，“大多数人会更倾向于让多个团体‘同桌共议’，以确保这些协议能服务于所有人的最佳利益。”

不过，Nalley相信Anthropic是出于善意行事——他指出，MCP的许可是非常宽松的，允许其他团体创建自己的修改版本，这个过程被称为“分叉”（forking）。“如果事情完全偏离了轨道，任何人都可以随时进行分叉，”Nalley说。事实上，IBM的智能体通信协议（Agent Communication Protocol）就是从MCP中衍生出来的。

Anthropic仍在决定如何发展MCP。目前，它通过一个由外部公司组成的指导委员会来辅助决策，但Anthropic对改变这一模式持开放态度。“我们正在探索未来如何发展我们对所有权和治理的看法，”Chu说。

MCP和A2A均基于“智能体的语言”来工作——它们使用词语和短语（在AI领域被称为自然语言），就像AI模型回应人类时一样。这是这些协议的卖点之一，因为它意味着模型无需为了适应一种不自然的方式而接受额外训练。“允许在智能体之间，而不仅仅是与人类之间，使用自然语言接口，从而释放了这些智能体内置的智能，”Surapaneni解释道。

但这种选择也有其弊端。自然语言接口缺乏API的精确性，可能导致不正确的响应，并造成效率低下。

我们真的准备好把钥匙交给AI智能体了吗？我们正开始赋予AI智能体真正的自主权，但我们还没准备好应对可能发生的后果。

通常，AI模型通过将文本拆分成“令牌”（token）来读取和响应。AI模型读取提示，将其拆分为输入token，生成响应，再将输出token组合成词语发送回去。这些token在某种程度上定义了AI模型需要完成多少工作量——这也是大多数AI平台根据使用的token数量向用户收费的原因。

然而，token的根本意义在于让人类能够理解其输出。对于机器对机器的通信而言，直接通过代码交互通常更快、更高效。MCP和A2A均采用自然语言，这意味着智能体在与其他机器（如工具或其他智能体）对话时，也需要消耗token。用户甚至永远看不到这些在后台发生的交流——所有将信息转化为人类可读格式的努力，最终并没有被任何人类读取。“如果你想用MCP，会浪费大量的token，”Chen指出。

Chen描述说这个过程可能成本极高。例如，假设用户想让智能体读取一份文档并进行总结。如果智能体调用另一个程序来执行总结任务，它需要读取原始文档，将文档内容写入该程序，读取程序返回的摘要，再将摘要写回给用户。由于智能体需要读取和写入所有内容，原始文档和摘要的token消耗都翻了一倍。用Chen的话说，“这实际上是很大一笔token开销。”

与MCP和A2A设计的许多方面一样，其优势也带来了新的挑战。“如果想把它们规模化并真正使其变得有用，我们还有很长的路要走，”Chen总结道。