摘要:在科技飞速发展的当下,AI领域的新突破不断吸引全球目光。Manus发布后,迅速在国内外引发高度关注。围绕它,我们深入探索2025年热门话题之一 ——AI agent。
在科技飞速发展的当下,AI领域的新突破不断吸引全球目光。Manus发布后,迅速在国内外引发高度关注。围绕它,我们深入探索2025年热门话题之一 ——AI agent。
当我们讨论AI agent时,我们在讨论什么。Agent在技术界由来已久,核心是具备 “autonomous”(自主)能力,可独立或协作完成任务。
要实现自主,需具备感知外界输入、使用工具以及处理复杂问题时的长程规划能力,这对底层模型在感知、输出、工具使用和推理等方面均有要求。此外,agent能在工作中自我进化、积累经验,其能力和要求借鉴了人类专业分工。
复盘2024年agent发展,主要体现在三方面。定义上,从最初的众说纷纭,年底基本聚焦到使用工具和自主决策,虽不同公司解释有别,但已更为明晰。
产品方面,调研类如Gemini、openAI等产品,能以agentic方式助力用户深度浏览互联网并给出回答。
技术层面,agentic AI构建工具大量涌现,不同工具体现不同团队认知。总体而言,2024年agentic AI在定义、产品和技术上更具确定性与活力。
Manus发布时提及的GAIA是重要衡量标准。GAIA是2023年底由Mela和哈根face领导提出的基准测试,全称General AI Assistant。
当时AI发展中,GPT-4在考试中得分高,引发对AI发展方向思考,即AI是靠记忆还是真有推理等智能。
GAIA题目强调推理、多模态网页浏览及工具使用能力,人类易获高准确率,而当时先进AI即便调用工具的GPT - 4准确率也低。
GPT-4的一些测试结果
为防数据泄露致AI背题,GAIA 将400多道题分为测试题和验证题,测试题只公布题目,验证题同时公布题目和答案,且为客观题以便自动化测试。
不过GAIA并不完美,各公司公布结果需明确是在验证集还是测试集,且测试相对简单,难以测出长期记忆和大contexts window的AI优势。
MCP由anthropic去年11月发布,因市场大模型多、工具调用格式不一而产生。
一个好的协议需具备抽象、表达力强、易用、调试方便等特点,MCP表现较好,形成行业标准,但技术上仍有改进空间。郑灿认为其与集装箱标准形成类似,降低行业摩擦。
从去年到今年,模型推理有巨大变化,出现DeepSeek、Gemini thinking等强推理模型,使Manus能进行长程推理、完成任务规划。
但当前模型推理仍有不足、易出错,Manus的重要贡献是在模型不确定基础上,通过规划、执行和反思相对确定地达成目标,相比去年进步显著。
Manus融合了depressor调研类产品和Cursor、Devon代码生成类产品功能,改变了用户体验。以往用户完成复杂任务需自行拆解、选工具、设计接口,有了Manus只需交付需求,由其分割问题和执行。
且Manus产品完成度高,解决数据抓取等痛点,可用性强,实现了用户定义问题,AI自主执行的初衷,以最短链路达成目标。
Manus有创新,整合Browser、图像理解与生成、反爬等多种模型和工具,让用户无需操心工具使用就能完成复杂任务,体现强大产品力。
在大模型不可控、易出错情况下,Manus通过大量工作保证可用性,与Cursor等产品类似,都是新产品形态的创新。
同时,Manus使用中展示工作过程,任务中可随时对话,给用户真实agent感受,且不仅能调研,还能进行多种生成类工作,作为通用型AI agent备受期待和好评。
Manus诞生并非偶然。团队前期做了大量工作,前年9 - 10月尝试agent方案。去年3月做GPS的GPTS 平台,积累技术为Manus操作浏览器提供基础等。
这些工作在市场窗口期和技术成熟时,组合形成强大创新能力,体现团队前瞻认知和强大执行力。且莫妮卡产品中调教好的工具,为Manus使用工具提供优势。
对于大厂谁先发布类似Manus产品,字节可能性大。字节在半专业agent工具上有诸多实践,如扣子、tria等。
很多模型厂商和 AI 初创企业发布deeprearch相关产品,从调研角度类似AI agent产品。但像 Manus擅长的具体任务,可能并非模型公司目标,不过他们可能提供工具箱支持。目前开源框架不断涌现,行业热闹,期待更多新产品和突破。
从长远看,agentic AI产品核心竞争点在于工具、数据和智能的复利。工具复利单纯堆砌数量和广度难以构建优势,易被抄袭。
数据复利方面,产品若能积累和外化用户数据,如个人喜好、团队流程等,可构建竞争力,增加用户迁移难度。
智能层面,对资源、资本和系统优化能力要求高,一般由资源雄厚公司竞争,小公司可针对特定领域微调竞争。
所以,从数据方面建立护城河较为简便可行,构建好数据沉淀流程和方法论,形成强大数据管理和知识外化体系,是长期竞争的关键组织能力。
长期是好事,短期影响不大。训练方面,高效模型架构在研究中,英伟达用量可能不像原来大幅增长。
以DeepSeek为例,其出现后海外H200租金上涨,因为大家需要host deep seek,且蒸馏模型在推理中用量增加。
像Manus通过token完成规划和输入输出,消耗大量算力和token,这是当前这类产品面临的问题。在DeepSeek出现前,去年推理成本下降,之后大家囤货。
应关注AI agent产品模型推理效率低、消耗token多的问题,期待未来能得到解决,若模型能在体内思考,效率会大幅提高、成本降低,虽不一定减少算力消耗,但能节省时间成本,这是大家期待的新长程推理模型。
AI agent时代即将来临。随着DeepSeek、各种thinking model以及Manus等产品出现,模型能力提升使agent产品得以落地,这个时代越来越近,尤其这一季度推进明显。
来源:波波百谈