摘要:现在,我们正在进入一个全新的时代,在这个时代,AI 不仅仅是模型,而是拥有自主思考和行动能力的agent。它不仅能理解你的指令,还能像人类一样规划、推理、并利用外部工具来完成任务,那将带来怎样的变革?这正是 AI agent 的核心理念。它们超越了传统模型的局
Google: 2025年是AI Agents元年;
Sam Altman: 2025年我们能构建出达到AGI L3的Agent。
Google trends 关于Ai Agents搜索词汇过去5年的趋势如下,最近几个月突然加速:
最新Google发布了一份关于Agents的白皮书,写的特别精彩,50多页的pdf。
Agent:AI 的新边界,从模型到智能体
现在,我们正在进入一个全新的时代,在这个时代,AI 不仅仅是模型,而是拥有自主思考和行动能力的 agent。它不仅能理解你的指令,还能像人类一样规划、推理、并利用外部工具来完成任务,那将带来怎样的变革?这正是 AI agent 的核心理念。它们超越了传统模型的局限,将 AI 的应用推向了新的高度。
Agent 的核心:不止是模型
那么,到底什么是 agent 呢?简单来说,agent 是一个能够观察世界、思考决策并采取行动的程序。它不是一个被动执行指令的工具,而是一个主动解决问题的智能体。我们可以将其拆解为以下三个核心组件:
模型 (Model) :这是 agent 的“大脑”,可以是任何 LLM,比如 Gemini。模型负责理解语言、进行推理和规划。你可以根据需要选择不同大小、不同功能的模型。工具 (Tools) :模型再强大,也无法访问真实世界。工具就像 agent 的“双手”,让它可以与外部世界互动。比如,使用 API 查询天气,或在数据库中查找信息。编排层 (Orchestration Layer) :如果说模型是 agent 的大脑,那么编排层就是它的执行机制。它负责协调模型的思考和工具的使用,让 agent 按部就班地完成任务。编排层中,我们可以使用诸如ReAct、Chain-of-Thought (CoT) 或 Tree-of-Thoughts (ToT) 等推理框架来引导 agent 进行思考。Agent 与模型:关键区别
现在,你可能会问:“agent 和模型到底有什么区别?”这里有一个简单的对比:
特征模型 (Model)Agent推理方式单次推理可管理历史会话,基于上下文进行多次推理工具没有原生工具集成原生工具执行逻辑无逻辑层,仅提供预测使用推理框架,构建复杂逻辑下图是一个在编排层使用 ReAct 推理构建的Agent示例。它基本上通过 1-n 次思考、动作(带有输入)和观察的迭代,以及访问关键工具来尝试解决问题。
工具:连接世界的钥匙
工具是 agent 的核心能力。它们赋予了 agent 与外部系统交互的能力,包括:
扩展 (Extensions) :标准化连接 API 的方式,让 agent 无需关心底层实现细节,可以轻松调用外部服务。函数 (Functions) :在客户端执行的自定义代码,可实现更精细的数据处理和系统控制。数据存储 (Data Stores) :让 agent 可以访问外部数据源,如网站、文档、数据库等,以扩展知识面。数据存储通常实现为向量数据库。也可以为Agent提供各种格式的数据。
增强 agent 的学习能力
除了强大的工具,我们还可以使用以下方法来增强 agent 的学习能力:
上下文学习 (In-context learning) :在运行时提供示例,让 agent "即时"学习如何使用工具。检索式上下文学习 (Retrieval-based in-context learning) :动态检索最相关的知识和例子,来优化 agent 的决策。微调 (Fine-tuning) :使用特定数据集微调模型,让 agent 在特定领域表现更出色。Agent 的实际应用:无限可能
有了这些强大的组件和技巧,我们可以构建出各种各样的 agent。例如:
旅行规划助手: 根据用户的需求,查询航班、酒店,并生成行程安排。代码生成器: 根据用户的描述,自动编写代码,甚至可以运行并测试。智能客服: 理解用户的问题,并使用知识库和工具来提供解答。Agent 的未来:一个新时代的开端
Agent 的发展潜力是巨大的,它不仅仅是技术的进步,更是一场思维方式的变革。随着工具的日益完善和推理能力的不断提升,agent 将逐渐成为我们工作和生活中不可或缺的一部分。
最后,别忘了:
白皮书地址:https://www.kaggle.com/whitepaper-agents
来源:人工智能学家