摘要:1月24日,OpenAI发布了首个AI Agent(AI智能体)产品Operator,无论订餐、买票、网上购物、还是预约清洁工,只需下达一句指令,Operator都能在后台自动完成。
大模型造神,Agent加冕。
文丨胡镤心
编辑丨张睿
2025年,智能体元年来了。
1月24日,OpenAI发布了首个AI Agent(AI智能体)产品Operator,无论订餐、买票、网上购物、还是预约清洁工,只需下达一句指令,Operator都能在后台自动完成。
此前,智谱在OpenDay上也演示过的Agent产品AutoGLM,根据语音口令,就能点外卖、建微信群、发微信红包,还能在不同APP之间来回跳转,比如在美团和饿了么之间比价,在手机电脑新能源汽车内同步使用。
Agent意味着大模型从Chat走向Act,更承载着AI行业的最大野望:掌握互联网入口,重塑流量分发格局。
只不过,由于当下部分网站访问受限、大模型黑盒依然存在、用户付费意愿未知,Agent将走向何方,蜂拥而至的Agent厂商又有谁能活到三年后,依然是未解之谜。
Agent发展超40年,经历了基于符号规则、统计学习、强化学习三种业务模式,前两者只能用于特定任务或特定能力的执行,本轮Agent基于大模型,具有知识记忆、长期规划、有效泛化等特点,可以通过与环境互动学习,也可以从少量样本中推理出最优策略。
据Markets and Markets预测,全球AI Agent市场将从2024年的51亿美元增长到2030年的471亿美元,年复合增长率达44.8%。
01
大模型学会了“网上冲浪”,一句话实现跨App全自动无人操作
Operator,被OpenAI定义为“能够为你执行网络任务的AI智能体”。
Operator的页面与ChatGPT大致相似,只是输入框的提示词从“我能帮您什么吗?”变为了“我能帮您做什么吗?”
图片来源:Open AI
在演示中,输入订餐要求,比如“在 Beretta餐厅订一桌两人位置,今晚 7 点。”Operator 会打开一个浏览器,开始搜索餐厅并着手预订。
过程中,如果Operator发现Beretta今晚 7 点没有位置后,它会主动询问用户是否选择“今晚 7 : 45”,当“今晚 7 : 45”这个时间点也无法预定后,它又提供了 6 : 15和 8 : 15两个预订时间供选择。
图片来源:Open AI
当用户想要购买日用品时,Operator可以找到购物网页,搜索商品-添加到购物车,搜索商品-添加到购物车,不断重复,直到买齐所有商品。最终结算时,Operator 会将操作权交还给用户,要求用户手动确认和支付。
Operator实际上是模拟人类在电脑上的操作行为,通过点击、滚动、输入等操作直接与网页进行交互,完成各种任务。简单来说,Operator 就像你的数字管家,可以浏览网页、填写表格、订购商品以及预订餐厅等,也可以代替我们进行一些繁琐甚至复杂的操作。
智谱的AutoGLM也是如此。
在2024 年11月29日的智谱OpenDay 上,智谱CEO张鹏演示了这样的情景:对手机说“面对面建群,密码是xxxx”以及“给xx群发红包”,AutoGLM自动点开微信,搜索并点开xx群,开始发红包。只不过在支付环节,仍然需要手动输入支付密码。
据介绍,AutoGLM 可以自主执行超过50 步的操作,也可以跨App执行任务,比如在美团和饿了么比价、在小红书搜攻略然后去携程订酒店,在抖音、微博、饿了么、京东、拼多多等App之间来回跳转都不是问题。智谱还推出快捷口令功能,可以预设常用指令短语,提升使用的便利程度。
不管是网页还是App,Agent能做到像人一样流畅操作,背后是模型视觉能力和推理能力的提升带来的质变。
比如Operator 之所以能够像人类一样操作电脑,离不开 OpenAI 量身打造的“计算机使用智能体(CUA)”。这是一套基于 GPT-4o 的视觉能力和高级推理能力,可以观察屏幕并使用虚拟鼠标和键盘来完成任务,不用专门的API接口。
图片来源:Open AI
通过GPT-4o的视觉能力,Operator能够“看懂”屏幕截图,“理解”网页的按钮、链接、文本框等要素,然后通过推理能力制定计划,使用虚拟鼠标和键盘完成界面操作,直到任务完成。
从“说(Chat)”到“做(Act)”,Agent迈出大模型走向现实世界的第一步。
02
垂类应用率先落地,你的工作助理上线了
相较于C端Agent的“网上冲浪”能力,在B端,Agent已经更早融入工作流程,开始“打工人”的一生。
2024年10 月,微软开发部署10款AI Agent——主要服务于企业的销售环节、会计业务以及客户服务等领域。这些智能体可以读取Microsoft 365 Graph、记录系统、Dataverse 和 Fabric 中的工作数据上下文,从而具备业务理解能力与工作技能,支持从 IT 服务台到员工入职的所有工作,相当于充当销售和服务人员的工作助理。
根据微软公布的案例,麦肯锡正在开发加速客户引入流程的Agent,项目试点结果显示,Agent可以节省 90%的筹备时间和 30%的行政工作;汤森路透则开发了一个用户法律尽职调查的Agent,部分任务可用过去一半的时间完成。
Shopify 则将Agent和电商工作流相结合,不仅能帮助商家快速准确地回复客户查询,还可以针对商店开发、营销、客户支持和后台管理等任务,提供个性化且符合情境的支持,比如产品描述、电子邮件、在线商店标题和常见问题解答等。
钉钉在2024年1月发布了AI助理(AI Agent),4月正式上线AI助理市场(AI Agent Store),覆盖企业服务、行业应用、效率工具、财税法务、教育学习、生活娱乐等类目。钉钉表示,其AI助理市场致力成为最活跃的AI助理孵化、分发和交易平台,钉钉官方的Al助理、生态伙伴和开发者构建的Al助理、个体用户创造的Al助理,将成为三个主要组成部分,并从中获取商业收益。
国内的Agent还有支付宝旗下AI App支小宝、百度文心智能体平台、腾讯元器、讯飞星火智能体创作中心、通义智能体、字节扣子等,面向企业用户提供智能体创建平台。
根据亿邦动力观察,Agent在B端已经被广泛应用于金融、医疗、法律、财务、生产、物流、资管、人力等专业性极强的领域。
图片来源:InfoQ
其中,金融已经成为Agent应用的首选。Gartner 调查发现,61%的银行高管表示所在公司正在或计划未来增加对人工智能的投资。例如为客户提供财务建议的AI 理财教练,在增收方面至少可以提升30%。
医疗服务同样需求旺盛。Agent可以涵盖日常辅助、影像分析、病历管理、手术支持、慢病管理等多场景,IBM的 AI智能体Watson Health还可以分析医疗数据并推荐治疗方案。
法律行业也有望成为Agent 的重要应用场景。Agent 可以帮助律师起草法律材料、汇总文档、做好研究。
这些“数字员工”能够在特定领域熟练分解复杂问题,动态选择最优解决路径。因为Agent会将大型任务分解为子任务,自动进行任务规划,并对所有流程进行评估;在执行任务的过程中,Agent具备记忆能力,短期记忆基于上下文,长期记忆基于向量数据库,可以进行多轮对话、保存用户特征、更新业务数据与最新信息。此外,Agent还能够调用API、插件等工具,更新业务信息并支持开发新功能。
德勤AI研究院称,AI智能体将改变基础业务模式,实现新的工作、运营和价值交付方式。而红杉合伙人Konstantine Buhler则预测,医疗和教育等“高服务成本”领域,将成为AI技术的下一个重要战场。
怪不得比尔盖茨在博客上写:AI Agent“将彻底改变计算机使用方式,并颠覆软件行业”。他还预言“Android、iOS和Windows都是平台,AI Agent将成为下一个平台”。
03
不够靠谱的Agent,能不能承载“下一个平台”的野心?
无数人对Agent寄予厚望,这种情绪在2024年下半年更加强烈。
毕竟在线上高质量数据到头、预训练结束、Killer App哑火之后,大模型行业需要新的“重塑世界”的故事和野望来支撑行业发展的信心和动力,Agent就这样成了“全村的希望”。
但Agent目前面临的首要问题还不是商业化,而是能力限制。目前Operator、AutoGLM等C端应用还面临诸多限制,比如,对提示词的要求较高,部分网页/APP拒绝Agent访问,操作延迟时间长,以及大模型长期记忆中的一致性问题,等等。
B端对专业化的要求更高,Agent训练需要在通用模型的基础上,配备垂直领域数据,和业务流程做深度耦合。同时,Agent的效果与企业配套的信息化、数据化能力正相关,企业的数据积累能力,决定了Agent在企业应用中的价值。
大模型的“黑盒”和“幻觉”也是不能忽视的限制要素。Agent的架构包括感知、规划、记忆、工具使用和行动等关键组件。在LLM“黑盒”面前,每个步骤都存在不可预测性,而工作流程更是要将多个AI 步骤连接起来,不可预测性层层放大,会影响任务的准确性和安全性。
目前这些“不靠谱”并不会使Agent降温,其背后也有相应的理论支撑。
智谱给大模型发展定义出五个发展阶段:L1 语言能力、L2 逻辑能力、L3 使用工具的能力、L4 自我学习能力、L5 探究科学规律。目前大模型已经初步具备了人类与现实物理世界互动的部分能力,而Agent被认为位于L3 使用工具能力,同时正在开启对L4的自我学习能力的探索。
图片来源:智谱
在当下这个节点,Agent产品如雨后春笋,不仅大厂开始布局,创业者更是蜂拥而至。但我们所期待的真正Agent——如全能助手Jarvis一样灵活,或者如专家学者一般可靠,有待关键技术突破。这也意味着未来一段时间内,我们能期待的,还是L1到L3之间Agent,它们通过大量能源和算力成本,慢悠悠解决一个点外卖或做笔记的任务,然后等着厂商们一个场景一个场景的试错。
来源:亿邦动力