中金 | AI进化论(8):AI Agent:AI的L3时刻?

B站影视 韩国电影 2025-03-25 07:33 1

摘要:在ChatGPT引领本轮AI的产品开端后,关于下一代AI的产品形态也引起了广泛关注。近期创业公司Monica推出通用型AI Agent Manus,引发了对AI Agent这一AI的L3阶段产品的讨论,Manus在多代理模式和可靠性问题上有所创新。我们认为AI

在ChatGPT引领本轮AI的产品开端后,关于下一代AI的产品形态也引起了广泛关注。近期创业公司Monica推出通用型AI Agent Manus,引发了对AI Agent这一AI的L3阶段产品的讨论,Manus在多代理模式和可靠性问题上有所创新。我们认为AI Agent这类产品形态的创新与底层的模型演进同样重要,并展现出了强大的商业化变现和落地潜力。展望未来,我们认为AI Agent或将通过接管手机的方式,重塑互联网生态。

从推理者到智能体,AI Agent的L3时刻加速到来。在AI发展的路线图方面,L3“智能体”与L1、L2的本质区别在于能否使用工具和执行决策,近半年来海内外厂商在执行能力相关技术上的进展明显加快,我们认为“智能体”规模化落地的时点在加速到来。近半年来海外厂商密集发布AI Agent产品及相关工具。我们认为这些产品主要针对两个目标:1)解决影响Agent执行效果的痛点,以增强Agent接管设备的能力,实现L3级别AI的落地;2)增强开发者构建Agent的能力,简化针对个人需求的Agent的落地流程。

聚焦Manus:AI Agent在C端落地的模式创新。3月6日,Monica发布Manus,Manus在GAIA(一个评估通用AI助手解决实际问题能力的基准)三个难度等级上的评分都超越了OpenAI Deep Research成为第一。我们认为Manus更多地是一种模式上的创新:1)Manus证明了多代理模式可以相对容易地实现通用AI Agent的落地,这也与海外厂商推出构建模块、统一API协议的目的比较类似;2)“展示过程”的形式有助于降低大众的理解门槛,提高用户对AI产物的信任度,并催化AI Agent实现大规模落地。

AI Agent演进:改变人机交互入口,重塑生态。从AI Agent的变化出发,长期来看,我们认为AI Agent将会改变当前的人机交互方式,并对内容分发、终端硬件产生深远影响。2024年至今手机厂商纷纷推出拥有系统级AI Agent的手机,互联网厂商也相继布局拥有设备接管能力的自主智能体,考虑到手机厂商拥有硬件、用户和底层权限,互联网厂商拥有软件开发能力、平台和数据,我们认为短中期或呈现百花齐放的格局。此外,随着AI Agent能力渗透至设备控制权以及多模态模型的发展,AI Agent或将带来终端设备形态的重构。

宏观因素影响消费者需求;技术迭代不及预期;AI商业化不及预期;算力供应不及预期;数据安全监管收紧风险。

从推理者到智能体,AI Agent的L3时刻加速到来

从L2向L3级别迈进,AI进入智能体时代

从推理者到智能体,AI的L3时代加速来临。在ChatGPT引领本轮AI的开端后,关于AI的演进过程即下一代AI的产品形态也引起了世界的关注。在AI发展的路线图方面,OpenAI参考智能驾驶等级将AI发展划分为聊天机器人(Chatbots)、推理者(Reasoners)、智能体(Agents)、创新者(Innovators)、完整组织(Organizations)五个阶段。

► Level 1:ChatGPT的推出标志着AI达到L1阶段,即能够理解语言,智谱认为L1能力已经达到了80~90%。

► Level 2:OpenAI o1模型的发布代表着逻辑思维能力的快速进化,推动AI进入“推理者”阶段,DeepSeek的模型创新则进一步将“推理者”AI推向市场。

► Level 3:L3“智能体”与L1、L2的本质区别在于——能否使用工具和执行决策,近半年来海内外厂商在执行能力相关技术上的进展明显加快,我们认为“智能体”规模化落地的时点在加速到来。

图表:OpenAI定义AI发展五个阶段

资料来源:OpenAI,智谱,中金公司研究部

图表:智谱对AGI各项能力发展进度的评估

资料来源:智谱,中金公司研究部

图表:ChatGPT、DeepSeek分别代表L1、L2阶段取得突破性进展

资料来源:AI产品榜(aicpb.com),中金公司研究部

近半年以来,包括OpenAI、微软、Anthropic在内的海外厂商密集发布AI Agent产品及相关工具。我们认为这些产品主要针对两个目标:1)致力于解决影响Agent执行效果的痛点,如对图形用户界面的解析,以增强Agent接管设备的能力,实现L3级别AI的落地;2)增强开发者构建Agent的能力,包括提供统一的API、部署平台等,简化针对个人需求的Agent的落地流程。

图表:海外厂商开发的AI Agent产品及相关工具

资料来源:各公司官网,中金公司研究部

目标#1:增强AI Agent对GUI的理解能力,逐步实现设备接管

Anthropic:率先提出Computer Use的概念,能和人类一样“观察”和“操作”计算机。2024年10月22日美国初创公司Anthropic在更新Claude3.5模型家族的同时推出了Computer Use(计算机使用)功能。相比于设计一个用来完成单一任务的专用工具,Anthropic构建了一个API,让Claude模型通过观看屏幕截图、移动光标、点击按钮、输入文本的方式使用电脑上的标准工具和软件,真正模拟人类与电脑的交互。例如在官方案例中,需求“使用本地和在线数据填写表单”可以转换为电脑指令“检查本地表格;移动光标打开浏览器;点击相关网页;识别网页中的数据填写表单”。

OpenAI:继Anthropic之后,2025年1月OpenAI发布类似功能的Operator,但更聚焦在操控浏览器上。Operator由一个名为CUA(Computer-Using Agent,计算机使用智能体)的新模型提供支持,CUA将GPT-4o的视觉功能与通过强化学习获得的高级推理相结合,可以与图形用户界面(GUI,即按钮、文本等)进行交互。因此,Operator可以通过屏幕截图“观察”网页,并通过虚拟的鼠标和键盘在网页上进行“操作”,此外,当Operator遇到需要用户确认的问题(如登录账号等)时,它也会将控制权交还给用户。

图表:Computer Use代替人类使用电脑的标准工具

资料来源:Anthropic官网,中金公司研究部

图表:Operator是主打网页浏览的计算机使用代理

资料来源:OpenAI官网,中金公司研究部

Computer Use和Operator接管设备的共同途径是去理解人类常用的UGI。微软在推出屏幕解析工具OmniParser时解释了其实现路径,即先从常见网页中提取数据,构建一个可交互图标检测数据集和一个图标描述数据集,并微调成两个专用模型,包括一个用于识别和定位UI上可交互区域的检测模型,和一个用于生成图标功能描述的描述模型。OmniParser在获得屏幕截图后,可以将检测到的图标和生成的描述整合为结构化元素,在各类结构化元素上叠加边界框,并辅助Agent根据用户指令点击某个结构化元素。

图表:OmniParser将UI屏幕截图转换为结构化元素

资料来源:微软官网,中金公司研究部

从结果看,AI Agent代理计算机的能力较人类仍有较大差距,但在快速进步。根据OSWorld测试基准(旨在测试多模态代理在真实计算机环境中处理开放性任务的能力),受限于GUI基础和操作知识,AI Agent的任务完成度仅为12.24%,而人类的完成度超过72.36%。但我们看到近半年来Agent的代理能力正在快速提升,例如在解析屏幕截图这一项任务中,在Anthropic推出Computer Use前,Agent的最高任务完成度仅为7.8%,Computer Use将这一水平提升到了14.9%,而截至2025年3月,OpenAI的Operator已能达到38.1%的完成度,此外Simular、Anthropic、字节等厂商也陆续优化到了20%以上水平。

图表:OSWorld对解析屏幕截图这一项任务的完成度评分(部分)

资料来源:OSWorld官网,中金公司研究部

目标#2:增强Agent部署能力,让Agent的诞生更加容易

海外大厂相继推出构建模块、构建平台等Agent开发工具,打造专有生态。2025年3月11日OpenAI发布了其第一组构建模块,通过Response API,用户仅需几行代码就可以调用OpenAI的内置工具(包括Web搜索、文件搜索和计算机使用)来构建符合自身需求的Agent,而无需再专门编写调用外部工具的复杂代码,大大简化了Agent开发的流程。这初步体现了OpenAI的平台战略,OpenAI提到未来还将推出构建平台,使开发人员和企业在OpenAI的生态中能够更轻松地构建、部署和扩展可靠的AI Agent产品。此外,微软在2024年11月时发布了Agent构建平台Copilot Studio,开发人员和企业使用自然语言就可以快速地生成具有专属功能的Copilot Agent。

图表:利用Responses API构建AI Agent

资料来源:OpenAI官网,中金公司研究部

图表:Copilot Studio允许用户构建自己的Agent

区别于建立一站式构建平台,Anthropic另辟蹊径推出MCP开放标准,但同样致力于提升Agent开发能力和效率。MCP(Model Context Protocol,模型上下文协议)发布于2024年11月,提供了一种调用外部工具和数据库的通用标准(类似于拓展坞),使得AI Agent(MCP客户端)可以以统一的方式连接到工具和数据源(MCP服务器),而无需为每个Agent和每个数据源的链接单独编写代码。根据Anthropic官网,Anthropic已为Google Drive、Slack、GitHub、Git、Postgres和Puppeteer等常用的系统共享预构建的MCP服务器,此外Zed、Replit、Codeium和Sourcegraph等开发工具公司已在平台开发中应用了MCP。

图表:MCP标准为AI Agent和外接数据源提供便捷连接

资料来源:硅星人Pro公众号,中金公司研究部

聚焦Manus:AI Agent在C端落地的模式创新

通用型AI Agent Manus引发热议

中国创业公司Monica推出通用型AI Agent Manus。3月6日,Monica发布Manus,Manus在GAIA(一个评估通用AI助手解决实际问题能力的基准)三个难度等级上的评分都超越了OpenAI Deep Research成为第一。Manus的任务处理能力和输出能力非常多样化,官方案例中涉及了简历筛选、股票分析、购房推荐、课程设计、文娱创作等多个种类,输出形式也不局限于文字报告,而是通过外接各种工具,实现文档、图像、音频、Dashboard甚至APP等类型的输出。

与以往的AI Agent有所不同,Manus将其处理问题的过程在屏幕右侧的虚拟机上展示了出来。以官网案例“四月日本之旅”为例,当用户提出需求后,Manus首先使用LLM模拟人类的思考模式,将需求拆解为多个子任务并输出“To Do List”(包括查找交通、天气、入境事项、景点、地图等任务);当Manus接入Coding Agent、Computer Use等工具来完成子任务时,虚拟机上会实时展示完成进度、Manus正在编写的代码或浏览的网页等信息,其中Manus浏览网页时也会采取类似于人类的“滚动”、“点击”等操作;最后Manus按照用户要求输出了HTML格式的旅游攻略。

相比于上述海外厂商在Agent底层技术上的创新,我们认为Manus更多地是一种模式上的创新:1)Manus证明了多代理模式可以相对容易地实现通用AI Agent的落地,这也与海外厂商推出构建模块、统一API协议的目的比较类似;2)“展示过程”的形式有助于降低大众的理解门槛,提高用户对AI产物的信任度,并催化AI Agent实现大规模落地。

图表:Manus官方演示案例——四月日本之旅

资料来源:Manus官网,中金公司研究部

图表:Manus具备多模态输出能力

资料来源:Manus官网,中金公司研究部

图表:Manus成为GAIA评分第一

资料来源:Manus官网,中金公司研究部

创新#1:通过多代理模式,快速实现通用AI Agent落地

Manus采用了一种“多代理”的套壳模式。我们认为面向C端的通用AI Agent可能有两种落地形式,一种是单独一个Agent就能解决大多数场景的问题,即全能型选手;另一种是由母Agent分解任务并调配多个子Agent的资源,使用最合适的工具来完成不同任务,如Manus。

在2024年初,Perplexity的CEO就发表过对这一模式的看法:“拥有十万用户的套壳产品显然比拥有自有模型却没有用户更有意义。”从Manus的演示结果和用户测试评价来看,我们认为可以说明多代理模式是一种相对比较容易去推动AI Agent在通用场景中落地的模式,未来初创公司、互联网大厂乃至手机厂商都有可能在众多现有的Agent基础上形成自己的通用产品。

创新#2:处理过程展示降低用户门槛,解决可靠度问题

从供给侧来看,海外大厂已在密集发布AI Agent的产品;从需求侧来看,Agent的需求旺盛,但面临的最大问题是“可靠性”。根据LangChain的调查报告(报告访问了1,300名B端用户,我们认为对B/C端落地都有一定参考意义),人们在长耗时任务中对AI Agent有较大需求,例如:研究总结(提炼关键信息)、个人生产力提高(协助安排日程、管理任务)、客户服务(处理客户咨询、提升响应速度)、代码生成、数据转换、互动型游戏和陪伴等。但用户对AI Agent普遍存在“完成质量”或“可靠性”方面的担忧,AI Agent在复杂场景中并不一定能够持续保持响应和问题解决路径的准确性,因此有一半以上的受访者在实际使用中会为AI Agent补充跟踪和观察的控件。

Manus展示了处理过程,降低用户理解门槛,有望解决阻碍Agent规模化落地的可靠度问题。我们认为阻碍AI Agent成为真正的生产力工具(尤其ToC)的原因之一在于“执行任务准确度不足、用户信任度不高”,因此短期能够在C端大规模应用的AI Agent不一定是自主能力最强的,而是能够兼顾性能和用户信任度的。Manus的任务处理过程一边会在屏幕右侧虚拟机上展现出来,一边也可以通过左侧的任务进程来回溯、复核,并且整个交互界面以及机器处理任务的逻辑都是不具备编程能力的普通人也能够理解的形式,可以大幅提高生成内容的可信度。我们认为后续大厂和初创公司都有可能跟进这种形式,为AI Agent设计一个“展示过程”的交互界面,若能解决大众使用AI Agent的最大担忧,AI Agent的市场渗透率或将实现质变突破。

图表:受访者(企业用户)为Agent采取的控制措施

资料来源:LongChain State of AI Agent Report,中金公司研究部

图表:限制受访者(企业用户)更多地使用Agent的因素

资料来源:LongChain State of AI Agent Report,中金公司研究部

AI Agent演进:改变人机交互入口,重塑生态

在前面两个章节中,我们探讨了AI Agent产品的最新发展趋势和落地速度的加快。随之而来的问题是,如果AI Agent成为现实,那整个互联网生态也大概率会出现变化。一方面AI相关应用层出不穷,如互联网大厂纷纷推出自己的搜索问答产品如豆包,也通过接入DeepSeek等方式加快产品迭代如腾讯元宝;另一方面如何与现有互联网生态尤其是手机为核心的终端硬件在操作系统层面打通也成为了更进一步的目标,目前我们已经看到阿里与苹果合作等变化。我们认为这背后体现了AI对交互方式的变革,以及后续对内容分发、终端硬件的深远影响。

终局形态:AI Agent成为互联网核心,聚合流量并进行内容分发

AI Agent接管手机,改变人机交互入口

智能手机交互体验从GUI(图形用户界面)发展为VUI(语音用户界面)+GUI(图形用户界面),未来或将升级为Agent(APP-less)UI。在传统的智能手机时代,软件应用需要产业生态中各厂商在擅长的领域推动产品和服务的更新,体现为移动互联网厂商和应用开发者作为主力军、APP为主要交互界面。随着生成式AI、多模态技术的发展,各厂商将语音助手接入大模型,增强其交互能力。展望未来,随着各厂商将大模型融入底层操作系统,越来越多的功能和服务将被接入到AI Agent,我们认为AI Agent或将逐渐成为连接数字生态的入口,而部分APP(尤其工具类APP)或退居后台服务提供方的位置,用户只需要提出需求(如微信和朋友晚上约地点吃饭),AI Agent能自动综合不同APP信息给出较好的解决方案。

图表:智能手机交互体验演进过程

资料来源:《生成式AI手机产业白皮书》(联发科&Counterpoint,2024),中金公司研究部

更进一步,AI Agent或重塑互联网格局和流量生态

未来用户流量或从多个APP聚合到单一Agent,并影响应用开发商格局。移动互联网时代各类APP负责满足不同垂类场景的需求,)、淘宝(电商)、抖音(短视频)、高德(地图导航)等多个垂直类头部APP,QuestMobile数据显示各类头部APP的MAU接近,这也使得应用开发商在市场竞争中有比较多元的生存路径。到了Agent时代,我们认为垂类Agent主要用于增强特定场景下的生产力,有可能会形成接近当前APP的格局;但通用Agent具备跨场景任务执行能力(如独立甚至同时处理日程管理、商品比价、路线规划),用户流量不再需要分散在多个APP上,而是有可能向单一入口(Agent)聚合。因此,我们认为当技术达到一定成熟度、即通用Agent可完全接管终端交互时,应用开发商的格局或更加趋于集中,少数拥有强劲Agent产品的厂商占据大部分市场,因此手机厂商和互联网厂商均在抢滩AI Agent。

内容分发权力或将转移至AI Agent,催生手机厂商和互联网厂商的入口争夺。移动互联网时代,用户从应用商店手动下载APP、使用APP,这一行为代表了用户人为地将内容分发的权利交给了某个APP(以大众点评为例),传统高MAU的APP制定推送机制并借此向内容生产者(如餐饮商家)收取服务费。而在Agent(APP-less)交互模式下,APP弱化为硬件的后台服务提供方,Agent可以通过语义理解直接调用底层API(如整合携程攻略、头条图文的数据生成餐饮决策),代替APP掌握内容分发的权力,同时由于内容筛选规则的改变,其变现商业模式可能也异于当前。内容分发带来的利润在互联网厂商和手机厂商的总利润中占据较大比重,因此我们看到手机厂商和互联网厂商都希望能构建自己的AI Agent产品来竞逐内容分发的入口控制权。

图表:2024年Q4移动APP平均MAU

资料来源:QuestMobile,中金公司研究部

图表:AI Agent接管传统APP的内容分发权力

资料来源:大众点评,超级小爱,中金公司研究部

图表:互联网厂商广告收入、手机厂商互联网业务收入情况

注:其中标橙色的为硬件厂商,标红色的为互联网厂商;数据来自2023年年报 资料来源:Wind,中金公司研究部

竞争格局:百花齐放,手机及互联网厂商竞相布局AI Agent

手机厂商:拥有硬件、用户和底层权限,布局系统级AI

手机厂商布局系统级AI,将语音助手升级为智能体。梳理GenAI端侧应用,我们认为AI手机的发展分为“AI App”、“AI功能化”、“AI系统化”三个阶段:

► “AI App”:ChatGPT、Claude等独立第三方APP出现为“AI App”,是AI手机第一阶段,AI App成为用户与云端LLM交互的路径。

► “AI功能化”:随着端侧大模型推出并融入手机操作系统,大模型赋能手机日常应用,如三星Galaxy S24手机中画圈搜索、电话摘要、AI图像消除功能,已初具AI Agent雏形,但更多还是集中在功能端。

► “AI系统化”:2024年4月华为Pura 70发布,智能助手升级为“小艺智能体”;10月苹果推送iOS18.1更新实现校对和重写等AI写作工具、照片记忆及全面升级的siri;10月小米推出搭载澎湃OS 2系统的小米15系列,将小爱同学升级为超级小爱,可实现“帮记”、“帮找”、“帮执行”;10月荣耀发布了首款搭载AI Agent的Magic 7,集成了AI操作系统MagicOS 9,YOYO助理升级为YOYO智能体,可实现模糊理解、界面识别、自动执行等能力如“一键点饮品”、“一键旅行规划与订票”等。

图表:各手机厂商推出AI Agent手机

展望未来,AI Agent的硬件载体或突破传统边界,带来消费电子格局的改变。我们认为,随着AI Agent的能力逐步渗透至设备控制权,以及VLM(视觉语言模型)发展带来的多模态交互能力增强,传统手机为核心的消费电子产品亦将发生变化,可穿戴设备如眼镜等也将在AI加持下实现更多功能,重塑消费电子格局。

互联网厂商:掌握软件开发、平台和数据,布局“接管设备”的智能体

通过智能体虚拟机,互联网厂商可以拥有终端的使用权。除了海外厂商近半年来相继推出的AI Agent产品,我们看到国内互联网公司在手机端也推出了“接管设备”类型的智能体。2024年10月智谱推出AutoGLM,可根据用户指引完成购物、进入应用程序完成文字填写、总结归纳等操作,主要聚焦在手机应用场景;原理是通过光学字符识别技术理解用户界面的组件,通过思维链训练理解、规划和执行能力、使得其具备按指令规划执行的能力。第三方App适配方面,AutoGLM已经可以执行微信、淘宝、美团、小红书等。

互联网厂商也与手机厂商合作,把握C端应用机会。2024年9月,荣耀与智谱共建大模型技术联合实验室,荣耀产品线总裁方飞表示:“智谱专注于通用人工智能的基座大模型创新,荣耀专注于把物理世界与数字世界通过智能终端连接起来。双方持续深度的合作,将加速智能终端与人的交互变革与深度体验变革。”无独有偶,2025年2月,苹果和阿里宣布将合作为中国iPhone用户开发AI功能。从苹果的角度,阿里凭借电商业务在中国市场建立了庞大的用户基础,对个人用户的习惯和偏好有更深入的理解,可以帮助苹果有针对性地解决用户的个性化需求;从阿里的角度,当前阿里的千问在C端应用中落后于DeepSeek、豆包等产品,而苹果在中国终端市场拥有15.6%的市场份额(2024年,IDC),此次合作有望成为阿里竞逐C端AI应用的重要着力点。

图表:智谱在安卓手机上可以支持微信、淘宝等多个应用的自动化任务执行

资料来源:智谱官网,中金公司研究部

图表:互联网厂商与手机厂商合作实现C端AI应用的双赢

资料来源:中金公司研究部

我们认为,目前AI Agent的发展还处于相当初期的阶段,无法判断具体哪个厂商会胜出,但长期来看,无论是硬件厂商还是互联网厂商均围绕AI Agent的底层模型、产品形态、用户体验等多个方面进行了多方布局,长期能够推出符合消费者需求并形成商业化闭环的公司或有望获得更好的成长机遇。

风险提示

宏观因素影响消费者需求:如汇率波动、大宗商品价格、通胀等宏观因素影响消费者对可选消费品的需求。

技术迭代不及预期:AI Agent和大模型迭代放缓,或在端侧适配中面临难以攻克的技术挑战。

AI商业化不及预期:客户对AI付费意愿和使用习惯存在差异,若缺乏持续使用的动力,AI产品难以成为生活必需品,可能导致用户粘性不足,抑制商业化变现能力。

算力供应不及预期:AI Agent对推理算力的高需求,使得算力供应成为关键。若国内研发和供应进展低于预期,或因地缘政治风险导致进口算力产品供应受限,可能会影响AI Agent推广落地。

数据安全监管收紧风险:数据广泛应用可能引发数据安全相关担忧,若监管政策进一步收紧,将对企业数据处理和AI模型训练形成制约。

本文摘自:2025年3月22日已经发布的《AI进化论(8):AI Agent:AI的L3时刻?》

温晗静 分析员 SAC 执证编号:S0080521070003 SFC CE Ref:BSJ666

彭虎 分析员 SAC 执证编号:S0080521020001 SFC CE Ref:BRE806

贾顺鹤 分析员 SAC 执证编号:S0080522060002

李澄宁 分析员 SAC 执证编号:S0080522050003 SFC CE Ref:BSM544

来源:新浪财经

相关推荐