实测 MGX|让一群Agent联手coding,比“模型即agent” 更接近AGI?

B站影视 日本电影 2025-10-09 14:38 1

摘要:首先,是学会使用工具。当人类祖先第一次握住木棍、点燃火焰时,他们就开启了与其他物种截然不同的道路。其次,是分工协作。没有人是万能的,于是让猎人去狩猎,让工匠去制造工具,这条社会分工的链路,最终让人类建立起文明。而与此并行的,还有第三个能力:反思。动物在死亡中不

人类和动物的差别在什么地方?这是一个很难回答的问题,但有三个特征是人类能成为“万物之灵”必不可少的。

首先,是学会使用工具。当人类祖先第一次握住木棍、点燃火焰时,他们就开启了与其他物种截然不同的道路。其次,是分工协作。没有人是万能的,于是让猎人去狩猎,让工匠去制造工具,这条社会分工的链路,最终让人类建立起文明。而与此并行的,还有第三个能力:反思。动物在死亡中不断修改基因去适应环境,而人类可以通过思考与自我纠正,提前规避风险,迭代更优解。

回到如今的大模型时代,我们似乎又一次站在人类进化的镜像前。GPT-5 并没有兑现人们对 AGI 的所有期待,人们从完美幻想中冷静下来,开始重新思考:现有的大模型究竟该如何挖掘极限?

单一的模型,更像一个才华横溢但略显笨拙的学徒,可以写文章、生成代码,却无法像人类社会一样高效协作与自我修正。于是,新的范式开始出现。

MGX 正是在这个背景下登场。它并不是一个大模型,而是一个由多个 Agent 组成的虚拟团队:有人负责理解需求,有人绘制架构,有人编写代码,还有人专门进行研究。更重要的是,他们会像人类一样,主动调用工具、分工协作、反思并修正错误。

如果 GPT 是智力的复制,那么 MGX 就是一次模拟社会的实验。

与市面上不少突然冒出来的 AI 编程产品不同,MGX 背后的团队 DeepWisdom 某种程度并不是“又一个新的AI coding公司”,在此之前它已经有多个研究型的代表作,比如团队曾以五名程序员三小时闪电式开发出 Manus 的平替版 OpenManus,在业内引发热议。MetaGPT这个备受关注的热门开源项目也出自这个团队之手。

其创始人兼 CEO 吴承霖也是技术背景出身,拥有在腾讯等公司主导 十亿级用户、千亿级数据规模的复杂 AI 项目落地经验。他自己也是开源多智能体框架 MetaGPT 的作者。

MGX,全称 MetaGPT X,是 DeepWisdom 推出的多智能体平台,定位是“24/7 的 AI 开发团队”。它的特别之处在于,你只需要输入需求,系统就会自动生成一支虚拟团队。

这一特点在 MGX 的首页就能直观体现出来。在图 A 的区域,可以看到 MGX 默认配置的一支虚拟团队:黄坨坨是领队 Mike,蓝坨坨是工程师 Alex,紫坨坨是产品经理 Emma,绿坨坨是数据分析师 David,白坨坨是架构师 Bob。还有个坨坨叫 Iris 担任深度研究员,还未出现在首页。

每个 Agent 都有自己的职责分工,就像一家小型公司。

图中 B 区域饭输入框中用户可以灵活地“召唤”不同的 Agent 来完成任务。如图,就邀请了 Mike、Emma 和 Alex 一起协作。图 C 的位置,则提供了一个开关,用户可以关闭 Agent 团队的功能。如果关闭后,MGX 的体验就会回到传统 AI 编程工具的模式,只剩下单模型助手。

prompts:做一个国庆旅游攻略网站,用户输入想去的地点,自动生成多种类型的旅游路线,如人文路线、自然路线、吃货路线等。

在第一次测试里,我让 MGX 建立一个国庆旅游攻略网站。需求是用户输入目的地,系统能自动生成不同类型的路线,比如人文、自然或美食。领队 Mike 先做了总结,工程师 Alex 很快生成了一个 demo,功能完整,但数据只有北京和上海。

MGX 在任务页面采用两栏结构,用户可以在左侧看到每个Agent在做什么事情,右边是项目预览。

接下来我调用了数据分析师 David,让他做一个关于项目的数据报告。他调动 jupyter notebook 做数据报告,过程包含指标建立、可视化和相关性分析等,可以说数据分析味很足了。

promtps:@David 对全网国内热门城市的旅游景点进行数据分析,形成一份报告,并且辅助网站开发。

随后 Emma 根据报告撰写了完整的需求文档,覆盖用户故事、竞品分析、推荐算法和商业化思路,并提出了一个清晰的个性化推荐框架。

promtps:@Emma 根据数据分析报告,对需求进行修改。

我们挑选精品分析和推荐算法设计来仔细看一下,可以发现 Emma 非常有自信,在内容质量超过小红书,在个性化上又领先穷游、携程等应用。在推荐算法设计上,获得了 GPT 的高度评价:这段“按城市类型→拼装候选→个性化重排”的思路清晰、可扩展点明确(generate*Route、calculatePersonalizedScore 可替换),适合作为 MVP 的骨架。

总之,非常有产品经理的气势。

最后我们让工程师 Alex 重新开发网站。可以看到,新版本国庆旅游攻略在内容上更加充实,而且加入了评分系统。

和其它AI编程网址一样,MGX也提供一件部署等功能,项目网址:https://mgx-w6xvo6ydqlh.mgx.world。

此外,MGX 提供可视化的元素选择模式,避免了随机性的“抽卡式”改动。以修改网址名称为例:进入元素选择,点击想改的区域,在左侧面板中完成编辑。面板支持文本内容、边距、字体样式以及颜色等细节。

任务一展现了不同 Agent 之间的合作,并且从网站成果来看,合作的确提高了能力。我们再来看一下 MGX 新出的深度研究功能。

prompts:小米17系列和iPhone17系列进行对比

和建立网站一样,MGX 的深度研究呈现左右两栏,Agent 在分析需求后会做一个 todo 计划交给用户,如果用户觉得没问题,就可以让 MGX 继续执行。

MGX的这份报告感兴趣的读者可以直接下载看看,研究报告链接: https://pan.baidu.com/s/1hzHceoQRv-DlMujKqN87eA?pwd=5byv

这份报告对小米17和iPhone 17在定位、性能、影像、屏幕、续航等方面做了全面对比,并总结了各自的优势与适合人群。

我们这边重点来看结论,论调基本上与各家的新闻稿相同,在关键参数上也没有明显错误,尤其是人群推荐上,基本上把互联网的刻板印象给写全了,算是一份中规中矩的研究报告。

定位层面:小米17系列以“全面对标iPhone”为战略,凭借高性价比和影像、续航、充电等“纸面参数”上的优势,试图在高端市场突围;而iPhone 17系列则延续“均衡稳定”的路线,主打全球市场和长期使用体验 。

性能层面:iPhone 17的 A19 Pro 芯片在单核性能上更强,而小米17搭载的骁龙8至尊版在多核和综合跑分(安兔兔突破 400 万分)上明显领先 。

影像层面:小米17系列借助徕卡合作与大底传感器,在夜景、逆光和色彩表现上更突出,自拍还有背屏创新;iPhone 17系列则在视频录制上提供 ProRes RAW、Apple Log 2 等专业功能,更适合创作者 。

屏幕层面:两者均为旗舰级水准。小米17在发光材料、亮度(3500 尼特)、护眼技术和“妙享背屏”交互上创新更多;iPhone 17系列则强调 LTPO 自适应刷新率、抗反射玻璃以及 Face ID 组件的小型化 。

续航与充电:小米17系列电池容量显著更大(最高 7500mAh),支持 100W 有线秒充与 50W 无线快充;iPhone 17 Pro Max 电池仅 4823mAh,充电功率最高 40W,但依靠芯片与系统优化维持较长续航,并支持 MagSafe/Qi2 无线充电及有线反向充电 。

人群推荐:

小米17系列:适合追求硬件参数极致表现(影像、续航、快充)的用户,以及希望以更低价格体验旗舰性能、考虑从iPhone转向安卓的群体。

iPhone 17系列:适合注重长期稳定体验、在意系统无广告与流畅度、以及深度绑定苹果生态的用户,尤其是有专业视频创作需求的人群。

其次在信源方面,MGX 引用了36个,而同样的提示词下,GPT5 的研究模式引用了18个信源,在信源来源方面,MGX 偏向国内,GPT5 偏向国外。

随后我们将研究报告做成 slide 展示。

MGX 做的 slide 整体上不如专门制作 PPT 的 AI 软件,页面中会有一些文字重叠等错误,可以理解毕竟 MGX 还没有上线设计师 Agent。

但值得注意的是,相较于做网站和深度报告,做 slide 的时候,MGX 有明确的自我反思动作,比如 工程师 Alex 表示在UI渲染部分做的比较差,没有展示详细的对比内容和交互式图表。

在用户选择处理这个问题后,可以明确看到新版的 slide 拥有了交互功能。

slide展示:https://mgx-yi53lrvz5ac.mgx.world

其实测试一、测试二已经把 MGX 的功能展现的差不多了,想要做更加复杂的项目就需要更加优质的 promtps 以及多伦对话。

在测试三种,就回答大家比较关注的问题:多 Agent真的有那么美好吗?

第三个测试是开发“坦克大战”小游戏。我做了两个实验:一次点名所有 Agent 参与,另一次只让 MGX 自己选择参与的 Agent。

prompts:做一款坦克大战游戏@ Mike @ Emma @ Bob @ Alex @ David

prompts:做一款坦克大战游戏

按理想状况来说,领队 Mike 负责统领全局分配任务,产品经理 Emma 设计游戏的各类功能,Bob 负责游戏的架构,David 在数据上给出支持,工程师 Alex 负责游戏最后的落地。

然而,结果很出乎意料。多人协作版因为分工混乱,甚至让数据分析师去写代码,最终游戏没有跑通。而 Alex 独立完成的版本反倒能够运行。

一群Agent做的游戏:https://mgx-2z8q7fvfvbr.mgx.world

Alex单独做的游戏:https://mgx-sk39olbo6s.mgx.world

这次失败很具有代表性,首先多 Agent 执行的时候没有明确的分工边界,MGX 的各个 Agent 有自己的职责,但在用户强行调用的干扰下,发生了“串岗”。其次,领队 Mike 在项目发生混乱时候站出来,放在现实场景中就是一个项目没有可以拍板的项目经理。

正如 MGX 的官网动画所示,不同的任务需要调用不同的 Agent。

整体来看,MGX 已经展示出多 Agent 协作的潜力:在旅游网站和研究报告的测试中,它把单一模型的点状能力组织成了更完整的成果;在小游戏等高协同任务里,也暴露出分工混乱、机制不够稳定的短板,也许成熟的领队 Mike 无论用户@了多少 Agent 也只会挑选合适的人去做合适的事。

DeepWisdom 团队曾谈论过“下一代 Agent”的发展方向,多 Agent 的真正价值不在“堆人”,而在于能否实现动态分工与合理路由,形成合适的 SOP,并逐步补齐自我评估、记忆管理和跨环境操作等关键能力。

从MGX的实践中,我们可以清晰地看到一条区别于今天讲的很多的“模型即产品”的演进路径。模型即产品像是把通用的“超级大脑”直接交付给用户。这种模式下,模型的能力边界就是产品的天花板,而用户则被迫成为“提示词工程师”,需要自己完成任务拆解、流程编排和结果整合的复杂工作。这极大地限制了AI在真实、复杂场景中的落地能力,因为现实世界的问题往往不是单一技能可以解决的。

多 Agent 思路是对上述模式的补充与解构。它转向构建一个高效协作的“专才团队”,这也会带来人机交互的转变,降低复杂任务的创造门槛,用户和AI的关系,变为用户向一个AI“团队”委托一个项目。这就离AI独立交付更进一步。AI也从模仿“个体智慧”,进入到模拟“组织智慧”的阶段。这无疑会对今天诸多的AI产品和模型接下来的演进,带来新的启发。

来源:硅星人一点号

相关推荐