什么叫Agent？简单理解一下

摘要：Agent，我们通常说的是智能体。一般来说一个智能体，首先得是一个应用程序，可能会结合硬件，也可能是一个纯软件。然后这个应用程序，可能带有一点智能的属性，一般来说可能我们就会把它叫做Agent，所以它的概念本身不是特别的清晰。

Agent，我们通常说的是智能体。一般来说一个智能体，首先得是一个应用程序，可能会结合硬件，也可能是一个纯软件。然后这个应用程序，可能带有一点智能的属性，一般来说可能我们就会把它叫做Agent，所以它的概念本身不是特别的清晰。

下图是一个我们最常见的一张有关Agent的概念图：

主体（Agent）位于中心位置，其上下左右分别代表其所具备的核心能力。以最典型的能力来说就是它能使用工具。此外，众所周知，语言模型的主要交互模式是通过Prompt（提示词）实现，正如我们之前的文章也介绍了你唯一可以跟它去互动的方式就是Prompt。用户与模型之间的互动仅能通过输入文字指令来完成，而模型的反馈同样局限于文本形式的输出。当然，部分进阶模型可能具备生成图像或视频的能力，但其输出形式仍受限于此类特定内容。

那你说它能操作软件吗？它能完成任务吗？它能去操作一些电脑吗？或者它能去完成一些，比如调用接口或者数据同步吗？它可以去你公司的数据库里面调一些数据？好像都不能！

所以语言模型，我们所说的LLM大语言模型本身，它99%的场景都是文字输入文字输出。但是Agent不行，所以Agent必须要有啊使用工具的能力。当Agent调用工具时，其运作机制并非仅依赖于语言模型本身，而是需要一系列辅助功能、周边代码及其他协同工具的配合。尽管如此，语言模型仍处于核心地位。然而，从概念上讲，智能体与单纯的语言模型存在本质区别：语言模型的交互仅限于文本的输入与输出，而智能体必须具备工具调用能力，这是其作为自主智能体的首要特征。

其次，Agent要具备记忆能力，就是说语言模型是我们说的大模型，其实没有任何记忆的。这与传统语言模型（即大语言模型）存在本质差异：基础语言模型本身不具备任何记忆功能，其每次会话都是独立的。为实现记忆能力，需在语言模型架构之外附加记忆模块，这可能包括：

短期记忆保存当前会话的上下文信息长期记忆存储历史交互的关键数据

这种扩展使得Agent突破了语言模型的固有局限。需要特别强调的是，虽然大语言模型本身是无状态的（stateless），但作为智能体的必要组成部分，记忆功能是其区别于基础语言模型的核心特征之一。

规划能力（Planning）是指智能体执行任务时的系统性规划与决策过程。这一能力包含多个子模块，主要包括：

反思（Reflection）对执行过程进行思考自我反思（Self-reflection）对执行过程进行误差分析与优化链式推理（Chain-of-Thought）通过显式推理步骤解决问题任务分解(Task Decomposition)将复杂目标拆解为可执行的子任务

这些功能的实现主要依赖于思维链（Chain-of-Thought, CoT）机制。与即时响应模式不同，在处理复杂问题时，智能体需要：建立中间推理步骤；进行多次验证计算；可能借助外部"草稿纸"式的临时存储空间（如Scratchpad）；最典型的应用场景是数学问题求解，但该机制同样适用于复杂决策制定，多步骤流程规划，开放性问题的系统分析。

基础语言模型（如DeepSeek-V3、GPT-4）通常采用直接生成（Direct Generation）模式，而新一代模型架构（如o1、R1系列）已实现：迭代式思考（Iterative Reasoning）,内部验证机制（Internal Verification）,动态规划能力（Dynamic Planning）这种演进使得智能体能够模拟人类"先思考再回答"的认知过程，显著提升了复杂任务的处理能力。

动作执行（Action）能力并非大语言模型的固有属性，这主要受限于其基础架构特性，标准的LLM仅支持文本生成（及有限的图文多模态输出）。但是LLM可以输出或者说它能做出决策，动作执行本身得依托于决策，只有有了决策才能做动作。

针对Agent是什么，上面结合图片已经介绍了，但是感觉还是不够清晰，那么可以参考下面两张图片，可以更直观的感受Agent到底是什么：