摘要:与此同时,Manus的开源替代方案如雨后春笋般冒出。国内初创公司DeepWisdom的MetaGPT团队,仅用3小时便利用开源框架复刻出OpenManus;开源社区CAMEL-AI团队也“0天”复刻出Manus通用智能体OWL……持续涌现的复刻浪潮似乎也向外界
图源:视觉中国
“开源永存。”这是MetaGPT研究员、OpenManus合作者向劲宇在面向时代财经等的分享中,留下的结束语。
近一周来,全球首款通用AI智能体——Manus爆火,成为科技圈持续热议的话题。
与此同时,Manus的开源替代方案如雨后春笋般冒出。国内初创公司DeepWisdom的MetaGPT团队,仅用3小时便利用开源框架复刻出OpenManus;开源社区CAMEL-AI团队也“0天”复刻出Manus通用智能体OWL……持续涌现的复刻浪潮似乎也向外界传递了一个信息:Agent(智能体)的门槛并非高不可攀。
Manus的“护城河”究竟有多深?Agent赛道的终极竞争力是什么?当业内普遍认为“2025年有望成为AI Agent爆发元年”时,这个赛道还有哪些待解难题?
近日,OpenManus核心作者向时代财经等分享了其中的故事,并给出了他们对于Agent的理解。
3小时复刻Manus团队:00后挑大梁
Manus发布当晚,向劲宇感受到身边的人都很兴奋,“大多数人的兴奋似乎来自于AI能使用电脑了。”
但在他看来,这样的功能在业内认识里并不是特别稀奇。
“比如Planning(规划)的能力在我们2024年的开源工作Data Interpreter(数据解释器)工作中已经有了相关的实现;而Computer Use和Browser Use等功能也在OpenHands(之前被称为OpenDevin,一个由AI提供支持的软件开发代理平台)以及智谱AutoGLM等各个工作中均有实现。”向劲宇说。
他判断,仅从一个demo(试用版)级别的实现来说,“搓”一个Manus开源版本给大家用“应该不是很难”。
MetaGPT研究员、OpenManus核心作者梁新兵迅速响应,并在第二天(3月6日)一早根据彼时已知信息对Manus做了一次完整调研,包括技术细节和分析。当天晚上下班后,向劲宇召集团队(向劲宇、梁新兵、张佳钇、于兆洋、洪思睿)讨论了Manus的产品形态和技术路线,决定加班赶出开源版本。
仅用了3小时左右,“大概(晚上)11点的时候,我们就把第一个版本合并开出去,然后挂到GitHub上面了。”向劲宇回忆。
发布不到1天,该项目已在GitHub上收获了7000多颗星星。“当时没想过OpenManus会爆火。”梁新兵说。
作为OpenManus核心作者,梁新兵研究生毕业于华东师范大学,之前曾参与爆火的AI Agent数据科学家Data Interpreter的开发工作。而向劲宇本科就读于西南交通大学应用物理系,去年,读大四的他和队友一起使用GPT-4与Claude 3组成多智能体的方案,让AI分饰多个角色、相互验证来完成答题步骤,获得了阿里巴巴数学竞赛AI赛道全球第二名。二人均是00后,同时在2024年7月加入MetaGPT团队。
直到现在,MetaGPT团队还对OpenManus引发的大量讨论,感到恍惚。
在OpenManus发酵了一天后,“早上十点半醒过来,看到微信三十多个添加好友,我就知道应该爆了,我想继续安心地补个瞌睡,但是怎么都睡不着,拿起手机,没想到消息已经回不过来了。”由锦秋基金牵头举办的分享会上,向劲宇向时代财经等分享道。
Manus是一款基于AI核心模型所开发的AI Agent(人工智能代理)。所谓AI Agent,其往往需要以大语言模型作为核心,并叠加规划(Planning)、记忆(Memory)、工具调用(Tools),从而通过解决任务逻辑连贯性的问题完成特定的跨系统任务。
据MetaGPT团队解构分析Manus来看,Manus是一个多智能体系统,它首先使用Planning Tool做规划,形成一个包含多个任务的线性结构的计划,然后顺序执行每一个任务,并动态分配给相应的Agent。Agent在执行每个任务的过程中,以ReAct(Reason+Act,推理和行动)循环的形式调用工具以完成每一个任务。
3小时便复刻了Manus,MetaGPT团队是怎么做到的?
向劲宇认为:“一个极简的Agent框架,应该是可插拔的Tools(工具)和 Prompt(提示词)的组合,之后我们沿着这个思路,写了一个完整的Agent迷你框架。”
据他介绍,决定一个ReAct Agent效果的关键是提示词引导和工具使用。在OpenManus中,Prompt控制了Agent整体的行为逻辑,Tools给定了Agent的行动空间,二者被定义就能完整诠释一个ReAct Agent。
“可插拔的优点是可组合,我可以把几个不同场景下的Tools组合到一起来创造一个新的Agent,定义也很方便,不需要单独写内部逻辑,只需要修改动作空间(Tools)。”向劲宇进一步解释。
在他看来,“我们的工作是把抽象做得更干净。提供丰富的工具集合,支持多种Agent通过装备工具集来灵活扩展在不同场景下的能力。”
这其中,规划能力很重要。因此,OpenManus继承了Manus的规划优势,通过Planning Tool实现任务分解,可以处理现实世界中的复杂问题。
MetaGPT团队分享的OpenManus工作流程
谈及OpenManus后续工作,梁新兵表示,接下来将从增强Planning能力、引入标准化评测、拓展模型适配(从Claude-3-5扩展到DeepSeek V2.5)、实现容器化部署等诸多方面来提升OpenManus的效果。
OpenManus是否能超越Manus?
“Manus产品交互做得挺好的,有很多技术也值得学习。目前OpenManus效果还很有限,我们还没有单独调效果。OpenManus 前期目标打算达到原始Manus的相同效果,后续会依靠庞大的开源社区不断优化。”梁新兵希望,这些优化能给OpenManus带来更高的智能涌现。
Manus的“护城河”有多深?
据Manus官方网站介绍,Manus能一键帮用户做旅行规划、股票分析、做PPT、财报分析等工作,涵盖研究、生活、数据分析、教育、生产效率等多个领域。
在官方放出来的视频中,Manus的表现也令人惊艳,能完全自主地完成从规划到执行的全流程。例如,在特斯拉股票分析任务中,Manus能在45秒内完成“数据抓取→建模→报告生成”的全链路操作。
简单而言,用户只需要输入简单的提示指令,一段时间之后,便可以得到一个完整的成品交付。
但MetaGPT团队仅用5人3小时,便通过开源框架复刻出OpenManus;开源社区CAMEL-AI团队也实现“0天复刻”,推出OWL并直接开源部分模块。这些都让“Manus缺乏技术壁垒”的质疑声不断。
据此前媒体报道,Manus的模型能力来自Anthropic的Claude。3月10日,Manus创始人季逸超在社交平台透露,Manus产品使用了不同的基于阿里千问大模型(Qwen)的微调模型。
有市场人士认为,随着大模型能力的持续增强,大模型会逐步将更多工具链的功能内化。未来大模型便能独立实现Manus期望达成的效果,而无需再繁琐地调用外部工具链。因此Manus耗费大量精力所创造的价值,大概率会被大模型的内生能力的增长所淹没。
一名AI领域的投资人士林亚秋(化名)也向时代财经表达了类似的观点,“当大模型能力变强,未来一些高频场景,有可能模型本身就能覆盖,大模型公司可能也会内置这些Agent。”
Agent诞生的必要前提是基座模型的性能提升,这是行业内的共识,但为什么率先获得注意力的会是Manus?
“Manus能最先跑出来,一方面是因为从今年春节前后开始,推理模型的技术取得了比较大的进展,这件事对Manus有非常大的帮助,因为只有在推理模型成熟的情况下才有机会做。”林亚秋向时代财经表示,“Agent有规划、工具调用和记忆这三个特点,每一点上的成功率都会影响它最终的成功率。而推理模型变强会令第一步也是最重要的一步——规划能力提升。”
另一方面,Manus创作团队本身也具备一定的实力。“他们的产品能力非常强,非常懂用户的需求,且在功能实现上做得很好。”林亚秋说。据她了解,Manus创作团队在之前的两年里一直在“产品能力”上表现得很好,这是他们团队擅长的事情。
实际上,就算3小时实现复刻Manus的MetaGPT团队,也是基于MetaGPT在AI场景的自动化和智能体框架上多年的技术积累。
“从技术方案上来说,Manus使用了大量有业内共识的核心基础技术。但Manus本身是很好的作品,它在用户示例中展示了卓越的用户体验,以及很不错的整体交互效果。他们团队实现了复杂的规划,包括他们自己进行过Post Train的模型,提供了更好的效果和交互,也给我们提供了很多发展思路。”MetaGPT团队表示。
正如Manus团队的核心理念“Less structure, more inteligence(更少的结构,更多的智能)”,强调给予AI更多自主权以决定如何使用工具和完成任务,这种理念也体现在Manus的产品特性上,让用户体验更为出色。
事实上,Manus团队已声明,当前的Manus距离正式版想交付给大家的体验还差很远。“像模型幻觉、交付物友好度、运行速度等方面都还有很大的提升空间。”
Manus AI团队产品负责人张涛(HideCloud),同时也是Monica.im产品合伙人,近日在朋友圈发文表示,过去的十几个小时对于团队来说无异于一场充满各种意外的冒险,团队低估了大家的热情。这本是一个产品探索过程中的阶段性收获分享,因此服务器资源是对标demo水平来准备,不曾想过会引起巨大波澜。
Agent元年,成本与技术难题仍待解
“2025年有望成为AI Agent元年”似乎已经是行业内的一个共识。
开源证券指出,随着大模型性能提升与成本的降低,以及能够在消费级显卡部署带来的门槛降低,为AI大规模应用落地打下了坚实基础。Manus的发布有望加快AI Agent落地,重塑各行业工作流程。
华泰证券亦指出,Manus AI底层由多模型驱动,通过高效的工程化编排,有效满足了Agent交互过程中的规划、自主、准确三大核心需求,标志着Agent应用实现Action环节的关键突破。Agent应用已进入工程化落地关键阶段,有望在2025年进入放量元年。
Manus等AI Agent的诞生依赖于人们在基座模型上的不断投入和不断进化。但还有一个事实是,“随着大模型能力的增加,许多问题的解决成功率会提高,但问题本身并不会消失。”MetaGPT研究员、OpenManus合作者之一的洪思睿指出。
“人类社会有很多非常复杂和长尾的问题,包括我们正在解决的机器学习、代码修复,以及通过搜索组合结果提供给用户的问题。这些仍需要大量技术工作来提升大模型的效果,包括解决幻觉问题。”洪思睿补充道。
一方面,大模型幻觉依然困扰着AI落地。另一方面,业内目前在规划、记忆、工具调用上仍存在一些难点有待解决。
目前Agent在规划方面的进步,主要取决于模型本身能力的提升,另外也依靠外部结构的辅助,即在Agent的层面上加入更加复杂的结构进行辅助规划。
在工具上,如OpenManus目前主要还是使用一些现有的开源工具,“比如Claude Computer和Browser等。”有其他团队开展的Browser使用相关工作表明,仅凭这两个工具基本上就能完成许多任务,已经初步形成了Manus的雏形。而据MetaGPT团队设想,未来可能增加一种赋予Agent自己创建工具的能力。
不过,在洪思睿看来,大模型或者Agent使用工具本身并不新奇。“但是随着工具的数量逐步增加,其中的技术难点也随之而来:如果有众多相似工具,Agent在解决同一任务时如何做出准确决策,选择最合适的工具;以及工具的参数定义不合理或不够明确时,导致大模型在生成调用工具决策出错等等。这些都是工具使用环节中需要解决的问题。”
此外,在记忆(Memory)环节上,MetaGPT团队认为,目前Agent在处理复杂、长程任务(例如浏览网页时,网页信息可能非常长)时,如何压缩上下文并存储到记忆中,是一个非常具有挑战性的问题,并且要确保压缩后关键的信息不会被修改或遗漏。
Memory和推理效率、成本直接相关。“如果我们不考虑Memory,不做压缩和任何处理,目前的大模型仍然可以处理,但这样带来的问题并非质量下降,而是会显著增加处理时间和成本,严重影响用户体验。”梁新兵说。
如何降本增效,是大量的应用厂商首要考虑的问题,也是需要持续优化的方向。
据Manus团队此前透露,目前Manus单任务成本2美元,已经做了大量优化,但可能对很多用户来说还是会难接受。“对于商用来说,(这个价格)还是挺贵的。如果没有足够的群众基础以及转化率,可能商业化上就不一定会特别成功。”林亚秋向时代财经表示。
当一个Agent产品推出后,开源社区很快涌现出功能相近的复刻项目,这引发了行业对Agent领域核心竞争力的深度思考:该赛道的终极竞争壁垒究竟何在?
在洪思睿看来,Agent商业化的重要比拼在于将真实场景中的任务和效果,包括个性化的功能,做到极致。
“目前学术界的许多工作,无论是针对SWEBench、GAIA,还是其他的Agent测试,任务成功率依然有限。如果这种相对微小的任务标准对应到真实的商业场景中,不同用户面对不同难度的问题,目前Agent的成功率还相当受限。”
因此,她认为,“无论是编程任务,还是数据收集和报告生成任务,如果能够针对各种各样的用户问题和场景做到极致,将成功率提升到令人满意的程度,真正实现Agent达到人们当前所期望的行动能力,用户才会持续使用Agent。”
同时,展望Agent的未来,洪思睿认为,“在真正有效解决用户实际需求方面,多智能体的商业前景是明确且强烈的”,例如从代码生成——这个Agent技术目前能较好解决的场景来看,“目前用户在这方面的付费意愿也是较高的。”
谈及Manus的爆火对于行业带来的信心,林亚秋说,“Manus获得巨大关注,很大程度上加速了对大众的科普:AI Agent未来可以做很多繁琐的事务;同时吸引了很多潜在用户群。但从投资人和创业者的角度来看,早在2023年左右大家就认为Agent一定是就大语言模型之下能产生的非常重要的应用方向。现在大家信心提升的一个重要原因在于模型进步的速度,接下来会在Agent技术、产品化方面做探索。”
据她了解,市场上有很多团队在推理模型成功提升能力之后,正在快速做产品化。“估计今年还会有更多的类似的一些产品出现。”
来源:时代财经