实测 MGX｜让一群Agent联手coding，比“模型即agent” 更接近AGI？

摘要：首先，是学会使用工具。当人类祖先第一次握住木棍、点燃火焰时，他们就开启了与其他物种截然不同的道路。其次，是分工协作。没有人是万能的，于是让猎人去狩猎，让工匠去制造工具，这条社会分工的链路，最终让人类建立起文明。而与此并行的，还有第三个能力：反思。动物在死亡中不

人类和动物的差别在什么地方？这是一个很难回答的问题，但有三个特征是人类能成为“万物之灵”必不可少的。

首先，是学会使用工具。当人类祖先第一次握住木棍、点燃火焰时，他们就开启了与其他物种截然不同的道路。其次，是分工协作。没有人是万能的，于是让猎人去狩猎，让工匠去制造工具，这条社会分工的链路，最终让人类建立起文明。而与此并行的，还有第三个能力：反思。动物在死亡中不断修改基因去适应环境，而人类可以通过思考与自我纠正，提前规避风险，迭代更优解。

回到如今的大模型时代，我们似乎又一次站在人类进化的镜像前。GPT-5 并没有兑现人们对 AGI 的所有期待，人们从完美幻想中冷静下来，开始重新思考：现有的大模型究竟该如何挖掘极限？

单一的模型，更像一个才华横溢但略显笨拙的学徒，可以写文章、生成代码，却无法像人类社会一样高效协作与自我修正。于是，新的范式开始出现。

MGX 正是在这个背景下登场。它并不是一个大模型，而是一个由多个 Agent 组成的虚拟团队：有人负责理解需求，有人绘制架构，有人编写代码，还有人专门进行研究。更重要的是，他们会像人类一样，主动调用工具、分工协作、反思并修正错误。

如果 GPT 是智力的复制，那么 MGX 就是一次模拟社会的实验。

与市面上不少突然冒出来的 AI 编程产品不同，MGX 背后的团队 DeepWisdom 某种程度并不是“又一个新的AI coding公司”，在此之前它已经有多个研究型的代表作，比如团队曾以五名程序员三小时闪电式开发出 Manus 的平替版 OpenManus，在业内引发热议。MetaGPT这个备受关注的热门开源项目也出自这个团队之手。

其创始人兼 CEO 吴承霖也是技术背景出身，拥有在腾讯等公司主导十亿级用户、千亿级数据规模的复杂 AI 项目落地经验。他自己也是开源多智能体框架 MetaGPT 的作者。

MGX，全称 MetaGPT X，是 DeepWisdom 推出的多智能体平台，定位是“24/7 的 AI 开发团队”。它的特别之处在于，你只需要输入需求，系统就会自动生成一支虚拟团队。

这一特点在 MGX 的首页就能直观体现出来。在图 A 的区域，可以看到 MGX 默认配置的一支虚拟团队：黄坨坨是领队 Mike，蓝坨坨是工程师 Alex，紫坨坨是产品经理 Emma，绿坨坨是数据分析师 David，白坨坨是架构师 Bob。还有个坨坨叫 Iris 担任深度研究员，还未出现在首页。

每个 Agent 都有自己的职责分工，就像一家小型公司。

图中 B 区域饭输入框中用户可以灵活地“召唤”不同的 Agent 来完成任务。如图，就邀请了 Mike、Emma 和 Alex 一起协作。图 C 的位置，则提供了一个开关，用户可以关闭 Agent 团队的功能。如果关闭后，MGX 的体验就会回到传统 AI 编程工具的模式，只剩下单模型助手。

prompts：做一个国庆旅游攻略网站，用户输入想去的地点，自动生成多种类型的旅游路线，如人文路线、自然路线、吃货路线等。

在第一次测试里，我让 MGX 建立一个国庆旅游攻略网站。需求是用户输入目的地，系统能自动生成不同类型的路线，比如人文、自然或美食。领队 Mike 先做了总结，工程师 Alex 很快生成了一个 demo，功能完整，但数据只有北京和上海。

MGX 在任务页面采用两栏结构，用户可以在左侧看到每个Agent在做什么事情，右边是项目预览。

接下来我调用了数据分析师 David，让他做一个关于项目的数据报告。他调动 jupyter notebook 做数据报告，过程包含指标建立、可视化和相关性分析等，可以说数据分析味很足了。

promtps：@David 对全网国内热门城市的旅游景点进行数据分析，形成一份报告，并且辅助网站开发。

随后 Emma 根据报告撰写了完整的需求文档，覆盖用户故事、竞品分析、推荐算法和商业化思路，并提出了一个清晰的个性化推荐框架。

promtps：@Emma 根据数据分析报告，对需求进行修改。

我们挑选精品分析和推荐算法设计来仔细看一下，可以发现 Emma 非常有自信，在内容质量超过小红书，在个性化上又领先穷游、携程等应用。在推荐算法设计上，获得了 GPT 的高度评价：这段“按城市类型→拼装候选→个性化重排”的思路清晰、可扩展点明确（generate*Route、calculatePersonalizedScore 可替换），适合作为 MVP 的骨架。

总之，非常有产品经理的气势。

最后我们让工程师 Alex 重新开发网站。可以看到，新版本国庆旅游攻略在内容上更加充实，而且加入了评分系统。

和其它AI编程网址一样，MGX也提供一件部署等功能，项目网址：https://mgx-w6xvo6ydqlh.mgx.world。

此外，MGX 提供可视化的元素选择模式，避免了随机性的“抽卡式”改动。以修改网址名称为例：进入元素选择，点击想改的区域，在左侧面板中完成编辑。面板支持文本内容、边距、字体样式以及颜色等细节。

任务一展现了不同 Agent 之间的合作，并且从网站成果来看，合作的确提高了能力。我们再来看一下 MGX 新出的深度研究功能。

prompts：小米17系列和iPhone17系列进行对比

和建立网站一样，MGX 的深度研究呈现左右两栏，Agent 在分析需求后会做一个 todo 计划交给用户，如果用户觉得没问题，就可以让 MGX 继续执行。

MGX的这份报告感兴趣的读者可以直接下载看看，研究报告链接： https://pan.baidu.com/s/1hzHceoQRv-DlMujKqN87eA?pwd=5byv

这份报告对小米17和iPhone 17在定位、性能、影像、屏幕、续航等方面做了全面对比，并总结了各自的优势与适合人群。

我们这边重点来看结论，论调基本上与各家的新闻稿相同，在关键参数上也没有明显错误，尤其是人群推荐上，基本上把互联网的刻板印象给写全了，算是一份中规中矩的研究报告。

定位层面：小米17系列以“全面对标iPhone”为战略，凭借高性价比和影像、续航、充电等“纸面参数”上的优势，试图在高端市场突围；而iPhone 17系列则延续“均衡稳定”的路线，主打全球市场和长期使用体验。

性能层面：iPhone 17的 A19 Pro 芯片在单核性能上更强，而小米17搭载的骁龙8至尊版在多核和综合跑分（安兔兔突破 400 万分）上明显领先。

影像层面：小米17系列借助徕卡合作与大底传感器，在夜景、逆光和色彩表现上更突出，自拍还有背屏创新；iPhone 17系列则在视频录制上提供 ProRes RAW、Apple Log 2 等专业功能，更适合创作者。

屏幕层面：两者均为旗舰级水准。小米17在发光材料、亮度（3500 尼特）、护眼技术和“妙享背屏”交互上创新更多；iPhone 17系列则强调 LTPO 自适应刷新率、抗反射玻璃以及 Face ID 组件的小型化。

续航与充电：小米17系列电池容量显著更大（最高 7500mAh），支持 100W 有线秒充与 50W 无线快充；iPhone 17 Pro Max 电池仅 4823mAh，充电功率最高 40W，但依靠芯片与系统优化维持较长续航，并支持 MagSafe/Qi2 无线充电及有线反向充电。

人群推荐：

小米17系列：适合追求硬件参数极致表现（影像、续航、快充）的用户，以及希望以更低价格体验旗舰性能、考虑从iPhone转向安卓的群体。

iPhone 17系列：适合注重长期稳定体验、在意系统无广告与流畅度、以及深度绑定苹果生态的用户，尤其是有专业视频创作需求的人群。

其次在信源方面，MGX 引用了36个，而同样的提示词下，GPT5 的研究模式引用了18个信源，在信源来源方面，MGX 偏向国内，GPT5 偏向国外。

随后我们将研究报告做成 slide 展示。

MGX 做的 slide 整体上不如专门制作 PPT 的 AI 软件，页面中会有一些文字重叠等错误，可以理解毕竟 MGX 还没有上线设计师 Agent。

但值得注意的是，相较于做网站和深度报告，做 slide 的时候，MGX 有明确的自我反思动作，比如工程师 Alex 表示在UI渲染部分做的比较差，没有展示详细的对比内容和交互式图表。

在用户选择处理这个问题后，可以明确看到新版的 slide 拥有了交互功能。

slide展示：https://mgx-yi53lrvz5ac.mgx.world

其实测试一、测试二已经把 MGX 的功能展现的差不多了，想要做更加复杂的项目就需要更加优质的 promtps 以及多伦对话。

在测试三种，就回答大家比较关注的问题：多 Agent真的有那么美好吗？

第三个测试是开发“坦克大战”小游戏。我做了两个实验：一次点名所有 Agent 参与，另一次只让 MGX 自己选择参与的 Agent。

prompts：做一款坦克大战游戏@ Mike @ Emma @ Bob @ Alex @ David

prompts：做一款坦克大战游戏

按理想状况来说，领队 Mike 负责统领全局分配任务，产品经理 Emma 设计游戏的各类功能，Bob 负责游戏的架构，David 在数据上给出支持，工程师 Alex 负责游戏最后的落地。

然而，结果很出乎意料。多人协作版因为分工混乱，甚至让数据分析师去写代码，最终游戏没有跑通。而 Alex 独立完成的版本反倒能够运行。

一群Agent做的游戏：https://mgx-2z8q7fvfvbr.mgx.world

Alex单独做的游戏：https://mgx-sk39olbo6s.mgx.world

这次失败很具有代表性，首先多 Agent 执行的时候没有明确的分工边界，MGX 的各个 Agent 有自己的职责，但在用户强行调用的干扰下，发生了“串岗”。其次，领队 Mike 在项目发生混乱时候站出来，放在现实场景中就是一个项目没有可以拍板的项目经理。

正如 MGX 的官网动画所示，不同的任务需要调用不同的 Agent。

整体来看，MGX 已经展示出多 Agent 协作的潜力：在旅游网站和研究报告的测试中，它把单一模型的点状能力组织成了更完整的成果；在小游戏等高协同任务里，也暴露出分工混乱、机制不够稳定的短板，也许成熟的领队 Mike 无论用户@了多少 Agent 也只会挑选合适的人去做合适的事。

DeepWisdom 团队曾谈论过“下一代 Agent”的发展方向，多 Agent 的真正价值不在“堆人”，而在于能否实现动态分工与合理路由，形成合适的 SOP，并逐步补齐自我评估、记忆管理和跨环境操作等关键能力。

从MGX的实践中，我们可以清晰地看到一条区别于今天讲的很多的“模型即产品”的演进路径。模型即产品像是把通用的“超级大脑”直接交付给用户。这种模式下，模型的能力边界就是产品的天花板，而用户则被迫成为“提示词工程师”，需要自己完成任务拆解、流程编排和结果整合的复杂工作。这极大地限制了AI在真实、复杂场景中的落地能力，因为现实世界的问题往往不是单一技能可以解决的。

多 Agent 思路是对上述模式的补充与解构。它转向构建一个高效协作的“专才团队”，这也会带来人机交互的转变，降低复杂任务的创造门槛，用户和AI的关系，变为用户向一个AI“团队”委托一个项目。这就离AI独立交付更进一步。AI也从模仿“个体智慧”，进入到模拟“组织智慧”的阶段。这无疑会对今天诸多的AI产品和模型接下来的演进，带来新的启发。

来源：硅星人一点号

标签：模型 agent coding mgx 实测mgx

本文地址：http://news.43b.com.cn/a/1501721.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!