Agent 正在重新划分大模型竞争格局

B站影视 内地电影 2025-03-31 20:38 1

摘要:如果两个人都在前年开始投身 AI 图像生成领域,一个人花大量时间和金钱投入 ComfyUI 和工作流的研究,另一个人两年都在游山玩水,那么 GPT-4o 发布更新之后,他们仍然站在了同一起跑线上。

没有基础模型,就做不了Agent。

作者丨马晓宁

编辑丨陈彩娴

3月27日,OpenAI发布GPT-4o原生图像生成功能,效果炸裂令人震撼,以至于这两天在网上出现了一个很流行的段子:

如果两个人都在前年开始投身 AI 图像生成领域,一个人花大量时间和金钱投入 ComfyUI 和工作流的研究,另一个人两年都在游山玩水,那么 GPT-4o 发布更新之后,他们仍然站在了同一起跑线上。

这个段子说出了不少创业者内心的恐慌。换句话说,你很难说服自己(和投资人)相信,你不只是一直在一架上升中的电梯里做俯卧撑。

每当基座模型能力突破某个临界点,此前以工程优化能力作为卖点、从而实现某个类型能力的应用,就立刻失去价值。尽管“模型无关”的思想出现,但事实上基于模型开发的上层应用始终没有摆脱基座大模型的支配。文生图产品如此,近日来火热的 Agent 也如此。

虽然 Manus 掀起了 Agent 的热度,但不少业内人认为,“如果一个 Agent 团队没有基座模型与强化学习技术,只是单纯的产品人员做 Agent,那么最终必然被模型公司吞噬。”

这个观点并非悚然听闻:因为结合了大模型与强化学习技术的 Agent 本质上就是人工智能时代的“AI Being”(类似于 Human Being),可以完成从理解任务、思考推理、决策执行的全流程。区分于过往的 AI 工具,前者只能完成一个环节、且需要由人来指导,终极 Agent 则完全自主、且能执行完整个流程、继而代替一个工种。

由于 Agent 基于大模型与强化学习,那么不难想象:如果说 Agent 是一个个“毕业生”,掌握基础模型与强化学习的大模型公司就是正规大学,只掌握强化学习、不掌握基础模型的团队就是课外辅导班,而基础模型与强化学习都不掌握的纯 Agent 公司则很可能连牌照都没有。

今天,智谱在中关村论坛上发布它们首个集深度研究能力和操作能力于一体、并且直接上线客户端的最新 Agent 产品 AutoGLM “沉思” ,验证了这一趋势的发生。智谱发布的 Agent 打响了模型厂商反击的第一枪,也意味着 Agent 的竞争进一步加剧。

1 大模型与 RL 才是 Agent 的核心

Agent 的机会,追根到底,还是大模型公司的机会。所谓的模型即产品,无论是说未来的模型自己即可成为产品本身也好,还是说未来的产品都是模型也好,这两种说法都是只有视角的差别,却不能否认一个事实,模型和产品二者密不可分。

Agent 这一概念起初来自于强化学习,并不是有了大模型之后才有的概念。市场上现在流行的一些产品,只是workflow的堆积,其实更多是鱼目混珠。

具有自我学习和决策能力的Agent,其起源可以追溯到AlphaGo的问世。在此之前,传统游戏 AI,如打败人类国际象棋世界冠军的超级计算机“深蓝”,依赖的是人类棋谱和专家编写的评估函数,并非具备人一样的思维,更别提比人聪明。

AlphaGo 划时代的意义在于,它是直接通过深度神经网络,直接从数据中学习棋局评估和落子策略的。它有自我学习的能力,摆脱了对人工经验规则的路径依赖,第一次证明了数据驱动+强化学习的范式,可以突破人类经验的局限。

强化学习的基本原理

这种能力迁移的底层逻辑,正是当前大模型 Agent追求的核心目标——让 AI 在复杂开放环境中自主进化。能达成这一目的,最重要的手段,就是强化学习。

没有强化学习,就做不了Agent。OpenAI 的 Deep Research团队在访谈中多次强调,基于强化学习的端到端训练是当前Agent技术革命的核心。因为强化学习能够解决传统AI系统在复杂场景下的灵活性难题与泛化能力瓶颈。

到 2023 年文本与多模态大模型的能力大幅提升后,大模型与强化学习技术强强融合,又给 Agent 带来了新的想象力:基础模型提供基础的语言理解、任务拆分与推理能力,此外强化学习又能在 Agent 从大模型分出来后针对某个具体岗位强化其细分能力。

一位强化学习研究员向 AI 科技评论这样描述 AlphaGo 和当前 Agent 的区别,他说,以前用强化学习训练AlphaGo,就像是在训练单细胞生物,虽然也能取得令人惊诧的效果,但单细胞生物只能完成一项任务。现在用大模型与强化学习训练Agent,更像是训练人类。

目前基座模型提供的模型能力,相当于一位接受了通识教育的大学毕业生,有着基本的人文素质,但是还没有足够的职业技能;那么经过了强化学习的大模型 Agent ,就像是一个接受了职业培训的大学生,已经能够走上工作岗位,处理实际问题了。

2024 年智能体已进入“千体大战”,但直到 R1 的出现,强化学习的地位提升,模型的长链路思考推理能力增强,OpenAI 发布 Deep Research、Monica 团队发布 Manus 后,Agent 才有了执行完整工作流程的可能。

OpenAI 作为大模型创新者所提出的 Deep Research 在过去数月也验证了其新的商业可行性。

OpenAI 自己掌握基础模型,模型与 Agent 均掌握在自己的手上,对 Agent 的定价也有了更大的自主权,Deep Research 定价月付 200 美金可以悉数收入囊中;相比之下,没有掌握基础模型的纯 Agent 团队在定价时受到模型 API 价格浮动与模型能力稳定性等多方面的影响。

也因此,Agent 逐渐成为基础模型厂商的必争之地,2025 注定是 Agent 爆发的一年。

作为培养 Agent 的大学所在地,智谱同时掌握模型与产品,能够对 Agent 进行完全自主权的定价。当前对 Agent 定价的标准,业内还没有形成统一共识,但圈内已有讨论,如:模型公司将自己的 Agent 以月、日或次数的形式向需要 Agent 的用户收费,或定制 Agent 服务。

在这种情况下,由于各个基础模型的能力有所差异,其培养的“毕业生”能力也有差异,收费的等级也自然不一。模型即产品,这意味着,大模型公司通过 Agent 或将重新获取“AI 能力收费”的主动权,而不是单纯为第三方产品与应用团队提供交付服务。Agent 也或将成为 AI 2.0 时代的新分水岭。

2 第一个做 Agent 的国产大模型

如上文所言,Agent的关卡主要有两个,第一是要有基座模型,第二则是要有强化学习的能力。

大部分专门做Agent的公司是没有基座模型的研发能力,拥有强化学习团队的也是寥寥无几。唯一的机会,就是不断用工程能力,优化自己的产品体验,或者用差异性的产品定位,来做出一款功能上有所创新的产品。

但是由于缺乏最底层的模型能力,这种做法也只是给他们在于大模型公司的竞赛中稍微争取一些时间。这就造成了,能够训练模型的公司,在开发Agent时,往往也能够取得事半功倍的效果。

智谱AI是国内最早着手研究和发布Agent产品的团队,在经验上远超同侪。

根据一些公开资料显示,智谱清言是国内最早具备了Function Call(函数调用)能力的模型产品,在今年1月16日就上线了这项能力,它能够允许大语言模型动态调用外部函数或API,以完成特定任务,是Agent的基础能力之一;

而在此一年之前,智谱清言上线了GLMs个性化智能体定制功能,为后续开发自主智能体打下了良好的基础;

而且智谱AI还是最早推出设备操控智能体AutoGLM的公司,去年十一月的Agent OpenDay上,智谱AI的CEO张鹏当场展示了在AI Agent方面最新成果,一句话就在手机端完成了建群发红包这一任务,同时还演示了手机远程只会电脑自动向群聊中发送文件。

而今天在智谱清言PC端全新上线的自主智能体AutoGLM沉思,还学会了自己挣钱。在中关村论坛现场,它能够自动打开某网站,搜索有偿征稿信息,然后按照征稿要求写出对应的文章,并且自动发送到指定邮箱。

使用智谱AutoGLM沉思处理十进制转九进制问题

国外的通用Agent产品已经相继问世。Anthropic在去年10月22日就推出了computer use,能够观看屏幕截图,实现移动光标、点击按钮、使用虚拟键盘输入文本等操作。

OpenAI也于2025年1月23日正式发布了其最新研发的智能体Operator,2月2日又推出了名为Deep Research,帮助用户进行多步骤的互联网研究,完成复杂任务。

国内的通用Agent产品尚属罕见。Manus发布时,作为国内首个同类产品,就曾备受关注。但是Manus此前一直未开放使用,让中国用户更为好奇,Agent的功能到底有多强大。

在这次中关村论坛上,智谱AI发布的最新Agent产品AutoGLM沉思,能力主要体现在三个方面:1、模拟人的思考,尤其是像人一样的深度研究和反思;2、能够像人一样感知这个世界;3、能够像人一样使用工具。

OpenAI Deep Research与智谱AutoGLM沉思两个产品,有不少可以对比之处。

根据官方介绍,Deep Research由一个优化版的 o3 模型驱动,专注于网页浏览和数据分析,并基于端到端强化学习进行训练。它能做到在互联网上跨模态搜索、解读和分析大量文本、图片及 PDF 文件,同时根据实时信息动态调整搜索策略。

AutoGLM沉思背后的推理模型 GLM-Z1-Air,也是智谱基于扩展强化学习技术训练的新一代推理模型,面对复杂、开放问题,能够进行推理和反思,为Agent提供了强大的推理、规划与反思能力。这款模型效果比肩DeepSeek-R1,提速8倍,价格是R1的1/30,可以在消费级显卡上运行。

此外,智谱还推出一个学习者免费版本GLM-Z1-Flash,轻量级,速度更快,完全免费调用。

除网络搜索外,Deep Research还可以分析用户上传的文件并提取关键内容;使用Python工具制作数据可视化图表,将这些图表和网站抓取的图片整合到回复中;为了保证研究结果的可靠性,系统也会严格标注信息来源,精确引用原文中的相关段落。

AutoGLM沉思更进一步,除了深度研究能力,还有操作能力,真正做到了一边思考,一遍行动。它能够像人类一样拆解复杂问题,一边推理,一边搜索,浏览数十甚至上百个网页,查看如知网、小红书、公众号、京东、巨潮资讯等优质但不对外开放API的信源,同时具有多模态理解能力,能够理解网页上的图文信息,使研究更充分。最后它能总结出调理清晰的长文报告,并提供所有引用来源,让AI输出的内容切实可查。

现在AutoGLM沉思还是preview版本,更多支持research相关场景,在未来的两周将增加更多的Agent执行能力。

最显著的区别可能是二者的价格。Deep Research每月订阅费用为200美元,每月限120次查询机会。而智谱清言上的沉思功能是免费开放给所有用户的。可以想见,大部分用户都是首次体验到真正的自主性Agent。

智谱AI的模型研发能力有目共睹。现在“AutoGLM沉思”从内到外的所有模型技术都是国产自研,包括负责推理规划的推理模型GLM-Z1-Air、基模GLM-4-Air0414;再到负责执行的AutoGLM,每个模型均为智谱自研,并且将于4月14日开源。

3 通往AGI的未来

有人称,AGI要称为AGI,那么它的标准就是要能替代80%的人类工作,也就是实现80%以上的人类能力。而Agent是达成这个任务的基本AGI载体。

无论是数据分析,还是内容报告,亦或是长文总结,Agent能力正在逐渐与人类的需求接轨。这将创造出一个全新的赛道,改变人机交互的形态,甚至达到我们现在还无法想象的程度。

人类利用Agent完成连续多步骤复杂任务的执行。最开始,这些任务可能只是纯粹的数字任务,接下来,Agent的影响将会逐步蔓延至物理世界,我们生活中的一些简单事务可以先由Agent接管,比如每天的打车、订外卖、订酒店机票,更进一步地来说,Agent还能帮我们完成更多现实世界中的工作,比如找人修水管灯泡等等。

我们正处于AGI的前夜。Agent正如其名,很快就会成为人类的数字代理。大模型公司的第二场战斗才刚刚打响。除了模型能力,好的Agent产品才是接下来竞争的关键。

往前来看,Manus在空中打了一记发令枪,把Agent的概念普及到了大众的认知中。往后来看,其他国产大模型公司对这类产品,可能还缺乏经验,目前还没有同类公司的竞品出现。

归根结底,作为一款C端产品,如果能够恰好在用户已经充满期待的时候,正好出现在大众面前,仍然将获得极大的先发优势。在诸强围俟的情况下,智谱今天先拔头筹。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

//

基座大模型「六进二」:南阶跃,北智谱

智谱 AI 狂飙:与商业化博弈的一年

价格战之后,智谱来到商业化的下一站

来源:AI科技评论一点号

相关推荐