智能体:第二波浪潮已至

B站影视 电影资讯 2025-05-04 19:53 1

摘要:这里,我们说的智能体就是一个能感知环境,基于需求进行推理、决策,进而调动各类工具来完成特定任务的系统——最直接能想到的,可能就是《钢铁侠》中的管家“贾维斯(Jarvis)”。

大型语言模型 (LLM) 正在催生新一代的智能体,它们远比 Siri 或 Alexa 更强大、更自主。

文/王子威@零售威观察

大模型犹如电力般赋能企业,并开始成为每个人的新助手。

但是和电力不同的是,灯泡才是真正让电力被普通人所接受的“杀手级应用”,那么,大模型的杀手级应用在哪里?许多人都认为是“智能体(Agent)”。

这里,我们说的智能体就是一个能感知环境,基于需求进行推理、决策,进而调动各类工具来完成特定任务的系统——最直接能想到的,可能就是《钢铁侠》中的管家“贾维斯(Jarvis)”。

智能体这个词早在计算机科学(Computer Science)领域出现很多年了,但是,它真正出现在普罗大众面前,其实是各类“聊天机器人”(Chatbot),比如苹果的 Siri、亚马逊的 Alexa 等等。

这类聊天机器人最大的特点就是常常被称为“人工智障”。原因很简单:它们是规则(rule-based)或命令驱动的,如果它没接收过某个规则/命令,就无能为力了。

因此,此类智能体的能力通常仅限于特定的、明确的任务,比如设定闹钟、播放音乐、开启窗帘等等。

它们看似能听懂你的命令,其实理解依然是浅层的。对于复杂、多步骤的命令,或者需要特定背景知识、甚至需要推理的任务,基本就无能为力了。

因此,这一代智能体几乎没有自主性,完全是被动接受用户指令,根本不可能主动为用户进行规划、制定策略,或者执行超过其预设功能范围的复杂任务。

转折点出现在 2022 年 11 月,OpenAI 推出了 GPT-3.5。这是一种可以和人类进行对话的大语言模型,尽管其内容有时可能充满幻觉。

这些大语言模型在理解和生成类似人类的文本方面表现出了非凡的能力。它们不仅能处理语言,还能进行一定程度的推理、总结信息、翻译,甚至编写代码——这就为智能体的第二波浪潮奠定了基础。

因此,这一代智能体被称作“基于大语言模型的智能体(LLM-based Agent)”。

所以,不同点到底在哪?

两代智能体之间的天差地别首先来自大模型本身:

大模型可以更好地进行用户意图识别,接受更复杂的指令(例如,“帮我规划一个十一假期去五台山的行程”),并将其拆分为一系列子任务。

更重要的是,在拆分后,大模型可以调用相关的工具、API 来完成对应任务,例如阅读网页、总结攻略、查阅航班信息、预订酒店机票等。

换句话说,智能体出现了自主性,可以在仅需人类少量干预的情况下完成任务。比如Auto-GPT、BabyAGI 等框架都展现了相关的潜力——虽然它们各有各的问题。

此外,一些 Agent 甚至可以基于用户的反馈和既往交流历史(即“记忆”)来学习用户的偏好,并随着交互的增加而展现出更强大的能力。

由此,我们会发现,基于大模型的智能体真正有可能带来效率和生产力的提升,去处理复杂的、多步骤的任务:例如一位外贸企业的外经理需要寻找潜在客户企业,找到关键联系人的联系方式(通常是邮箱或社交媒体),撰写开发信,甚至进行询盘与商务谈判。这一过程正在一步步被智能体替代。

从实践来看,当前的第二波智能体主要有两种模式:第一类是基于工作流(Workflow)的,这也是最常见的模式;第二类是有自主决策能力的智能体,常常被称为“Agentic”。

对于工作流型的智能体,其背后本质上是人类明确的先验知识。例如,对于企业中签署合同的场景,存在明确的审核流程,只要我们将既有流程嵌入智能体,让每个步骤根据需求(主要考量包括模型能力、成本和响应速度等)去调用不同的大模型,并与不同的节点进行连接。

本质上,这是一个典型的 AI 工程(AI Engineering)问题,可以视为传统 RPA 的升级版。而且,这类智能体非常擅长特定的工作,即在特定场景下为人类减负甚至替代人工——但是,通常而言,需要加强人类和 AI 之间的协作来保证最终结果。

对于 Agentic 型的智能体,它们也会有一定的工作流作为背景知识,并且调用各类工具、API。但是,它们常常可以处理更为复杂的问题:不仅能自动化任务,还能自主规划并采取行动以实现更广泛目标的系统,比如可以将没见过的问题直接拆解为各个步骤,然后调用工具或进一步分解子问题来解决每一个步骤。

现在,国外 OpenAI 的ChatGPT、Google 的 Gemini、xAI 的 Grok,以及国内的Genspark、Manus等推出的深度研究(Deep Research)功能,本质上就是一种 Agentic 模式。它根据用户的指令,与用户进行对话以明确相关细节后,对问题进行拆分、检索信息(如阅读网页),最终总结生成深度报告——其工作流本质是“发现→决策→执行→学习→发现”的无限循环,大模型的推理能力背后的核心能力。

目前,这种具备自主决策能力的智能体也已经开始出现在创业公司的服务中:

总部位于美国旧金山的 HappyRobot 是一家专注于物流行业沟通自动化的 AI 创业公司。作为 Y Combinator S23 批次毕业的项目并获得 Andreessen Horowitz 领投的 A 轮融资,HappyRobot 开发了“Agentic AI”平台,通过 AI 虚拟工作者来替代人工完成大量物流沟通任务。

在 HappyRobot 的应用场景中,这些智能体不仅能进行对话响应,还能根据预设目标自动采取行动。例如,当 AI 座席致电一位承运商询问报价时,如果对方报价高于标准,AI 可以自主依据规则进行二次议价,或者决定联系另一家承运商获取报价。再如,AI 在与司机沟通过程中得知货物延迟,它可以触发通知,让收货仓库重新安排卸货时间。

这些功能要求 AI 具备一定的规划和执行能力,而非纯粹的被动问答。

毫无疑问,我们正处在一个激动人心的时刻。由大型语言模型驱动的第二波智能体代表着 AI 领域的新飞跃:它们远超第一代语音助手的有限能力,已经开始展现前所未有的自主性、理解力和问题解决能力。智能体的第二波浪潮才刚刚拍打海岸,这一切才刚刚开始。

来源:零售威观察一点号

相关推荐