摘要:人类在复杂的模式识别任务中表现卓越,但他们通常需要借助书籍、谷歌搜索或计算器等工具来补充已有知识,才能得出结论。与人类类似,生成式人工智能(Generative AI)模型也可以被训练使用工具,以获取实时信息或触发现实世界的行为。例如,一个模型可以通过数据库检
这种结合推理、逻辑和访问外部信息的能力,且所有这些都与生成式人工智能模型相连接的方式,引出了"智能体"(agent)的概念。
引言
人类在复杂的模式识别任务中表现卓越,但他们通常需要借助书籍、谷歌搜索或计算器等工具来补充已有知识,才能得出结论。与人类类似,生成式人工智能(Generative AI)模型也可以被训练使用工具,以获取实时信息或触发现实世界的行为。例如,一个模型可以通过数据库检索工具访问客户的历史购买记录,从而生成个性化的购物推荐;或者根据用户指令,调用多种API接口向同事发送邮件回复,或代替用户完成金融交易。
要实现这些功能,模型不仅需要连接外部工具,还需具备自主规划并执行任务的能力。这种将推理、逻辑与外部信息访问相结合,并全部集成到生成式人工智能模型中的方式,引出了智能体(Agent)的概念——即一种能够突破生成式AI模型独立能力边界的程序。
本白皮书将深入探讨上述及相关主题的更多细节。
什么是Agent?
从最基础的形式来看,生成式人工智能智能体(Generative AI Agent)可定义为一种应用程序,其通过观察环境并采取行动(利用自身可调用的工具),试图实现特定目标。智能体具有自主性,可在无需人类干预的情况下独立运行,尤其是在被赋予明确目标时。此外,智能体还能以主动规划的方式达成目标——即使未接收到人类的直接指令,它也能通过推理决定下一步行动以完成最终任务。
尽管AI领域的"智能体"概念具有广泛而强大的内涵,但本白皮书将聚焦于当前生成式AI模型能够构建的特定类型智能体。
要理解智能体的内部运作机制,需首先了解驱动其行为、行动和决策的核心组件。这些组件的组合可视为一种认知架构(cognitive architecture),通过不同组件的灵活搭配,可实现多种架构形式。聚焦核心功能,智能体的认知架构包含以下三个基本组件(如图所示):
接下来,我们分模型,工具,编排层分别来看一下这三大块。
模型(Model)
在智能体(Agent)的架构中,"模型"特指作为其核心决策中枢的语言模型(Language Model, LM)。该模型可以是单一或多个不同规模(小型/大型)的语言模型,需具备遵循基于指令的推理与逻辑框架的能力,例如ReAct(推理-行动协同)、思维链(Chain-of-Thought)或思维树(Tree-of-Thoughts)等。
根据智能体架构的具体需求,模型可设计为通用型、多模态型或微调型。为实现最佳生产效果,建议选择最适合目标终端应用的模型,并优先选用已基于计划使用的工具相关数据特征进行预训练的模型。
需注意:模型本身通常不会预先内置智能体的特定配置(如工具选择、编排/推理逻辑设置)。但可通过提供示例(例如展示智能体在不同场景下使用特定工具或执行推理步骤的实例)对模型进行针对性优化,从而提升其在智能体任务中的表现。
工具(Tools)
尽管基础模型(foundational models)在文本和图像生成方面表现卓越,但其本质仍受限于无法与外部世界交互。工具(Tools)通过以下方式弥合这一鸿沟:
扩展行动边界:使智能体能够与外部数据和服务交互,突破基础模型的固有能力限制。多样化形式与复杂度:工具可涵盖简单到复杂的实现形式,但通常基于常见Web API方法(如GET(数据获取)、POST(数据提交)、PATCH(部分更新)、DELETE(数据删除))。
示例:更新数据库中的客户信息,获取天气数据以优化智能体提供的旅行建议。
3. 支持高级系统:
工具使智能体能够访问实时信息,从而支持检索增强生成(RAG, Retrieval Augmented Generation)等技术,大幅提升能力上限。
核心价值:工具作为桥梁,连接智能体的内部能力与外部世界,释放更广泛的可能性(详见下文深入探讨)。
编排层(Orchestration Layer)
编排层定义了智能体运行的循环流程,其核心机制为:接收信息 → 内部推理 → 行动决策,并持续迭代直至达成目标或触发终止条件。其复杂程度因智能体类型及任务性质差异显著:
简单场景:基于预设规则的计算与判断(如“若库存量复杂场景:链式逻辑(多步骤任务依赖)集成机器学习算法(如动态优先级排序)概率推理技术(处理不确定性决策)动态性:根据实时反馈(如工具返回结果、环境变化)调整行动策略。目标导向:始终以预设目标为终点,灵活选择实现路径(如迂回执行子任务)。来源:正正杂说