蚂蚁AWorld庄晨熠：Workflow不是“伪智能体”，而是Agent里程碑

摘要：“因为现在 AI 跟人类水平是持平的，”他解释道，“今年 25 年的 IMO 是六道题，人类跟 AI 基本上都能答对前五道，第六道谁都答不对。但是很有可能明年 26 年就是 AI 超过人类的时候，因为第六道题可能 AI 很快就能答对。”

AI 正陷入“应试狂热”，真正的智能体必须走出考场。

作者 | 王启隆

出品 | AI 科技大本营（ID：rgznai100）

“我觉得也差不多。”

当被问及“IMO 2026 年可能是人类最后一次有机会战胜 AI”这个预言时，蚂蚁集团 AWorld 算法负责人庄晨熠博士的回答平静而迅速，不带一丝犹豫。

“因为现在 AI 跟人类水平是持平的，”他解释道，“今年 25 年的 IMO 是六道题，人类跟 AI 基本上都能答对前五道，第六道谁都答不对。但是很有可能明年 26 年就是 AI 超过人类的时候，因为第六道题可能 AI 很快就能答对。”

全球机器学习技术大会的采访间里，北京正值寒露，但空气中却弥漫着 AI 行业特有的燥热与亢奋。在 2025 年无数涌现的热词里，AI Agent（智能体）无疑是聚光灯下最耀眼的明星，它向世界承诺了一个近乎科幻的未来——AI 将不再是简单的工具，而是能够为我们自主工作的伙伴。但在这条通往未来的路上，巨大的光环之下，是同样巨大的阴影。

行业里一种声音愈发响亮，带着审视与怀疑：Agent 赛道存在巨大的泡沫。 太多打着 Agent 旗号的产品，其内核不过是将传统的工作流（Workflow）自动化脚本，包装上一个时髦的外壳，进行着一场心照不宣的“智能体洗白”（Agent Washing）。

用户满怀着对智能未来的期待而来，体验一次后，发现其内核与十几年前的 RPA（机器人流程自动化）并无本质区别，于是迅速流失，留下一地鸡毛。

我和庄晨熠的对话也从这个尖锐的话题开始。

“这是一个很好的问题。” 他顿了顿，似乎在组织一场更深层次的辩护，不仅是为 AWorld，也是为整个 Agent 赛道。

“我想引用微软 CEO 的一句话，他觉得大模型当前刷的榜单，不论是数学、代码，还是一些工具的使用等，都更像是一种考试的逻辑。”

这番话切中了当前 AI 发展的要害。整个行业似乎都陷入了一种“应试教育”的狂热，大家都在追求一个个漂亮的“分数”，却可能忽略了技术真正的价值所在。

“智能体为什么这么火？我觉得有其本质原因。因为大家希望 AI 不是一个泡沫，而是真的能改变我们生活周边或日常中的一些事情，无论是提高办公效率，还是让认知提升更快，比如在教育、科普等方面。在 AI 到应用的这个过程中，大家似乎都一致地选择了智能体这个技术赛道，所以智能体才会这么火。”

在庄晨熠看来，Agent 的火爆，源于一种集体的、深沉的渴望——渴望 AI 能够走出实验室，走出排行榜，真正作用于现实世界，去提升类似 GDP 这样的宏观指标，而不是仅仅为了赢得一场又一场的“代码竞赛”或“数学考试”。这是一种对“实干”的呼唤。

那么，又该如何回应那个最核心的质疑：Agent 是不是 Workflow 的“套壳”？这是所有从业者都无法绕开的灵魂拷问。

“我们觉得智能体本身是不是一个有很厚技术壁垒的赛道？这包括它跟 workflow 之间的关系。这个我可以稍微展开一下。”

他没有直接给出“是”或“否”的简单答案，而是选择从历史的演进中寻找答案。“以前我们在公司里做智能助理，在大模型出现之前，它也是一个聊天系统。智能助理背后其实也是无数的 workflow，你可以认为它是一个 graph。什么样的问题应该如何回答，这是偏规则性的、静态的。但是，这种我们称之为编排的 graph，到一定程度后就无法维护了。 因为它有太多的规则，再增加一条，就很有可能影响其他规则，导致那些 if-else 或代码无法维护。”

大模型的出现，成了一个真正的分水岭。它用强大的、基于概率的语义理解能力，替代了过去需要工程师一行行手写的、脆弱不堪的僵化规则。这是一种根本性的解放。

“Agent 这边也是一样。像现在比较火的 LangChain、N8N 等框架，它们还是主打 workflow。但我认为 workflow 是智能体前期一个成熟的技术阶段，它是一个里程碑（milestone）。 不是说 workflow 就不是智能体，但智能体一定会在 workflow 的基础上继续往下发展。”

这是一个极其重要的论断。庄晨熠并不认为 Workflow 是 Agent 的对立面，或者是一种“伪装”。恰恰相反，他将其视为通往真正智能体的必经之路，是一个坚实、可靠、且在当前阶段不可或缺的里程碑。将两者对立起来，是一种非黑即白的误读。

真正的分野在于，发展的终极方向是什么。

“过去是用户提前定义好 SOP（标准作业程序）：写代码前要先做需求分析，然后做设计，再写一个类，最后实现类里的方法。这是人类做事的方式，也是 workflow 比较鲁棒、易于落地的方式。但未来是结果导向的：你能做得好，那就是好；如果做得不好，过程再 SOP、再标准化也没有意义。 所以它应该是一个循序渐进的过程。”

从遵循固定的“标准作业程序”，到追求最终的“结果导向”，这正是庄晨熠眼中，Agent 所带来的真正革命性的转变。它要求智能体不再是一个只会按图索骥的木偶，而是一个能够自主判断、动态调整、甚至在必要时打破规则的生命体。

从这一刻开始，我们的对话从概念的边界转向实践的深水区。

当行业的巨头们在“练大模型”的军备竞赛中不断加码，将海量的电力与资本投入到无尽的参数竞赛中，追求着更高的 Scaling Law 时，一条不同的、更安静的声音开始出现。

“我前有一次去上海人工智能学院，跟政府里面的人聊到这个话题。其实从政府或者国家层面，他们是想在大模型这个领域弯道超车的。以及有一些教授专家，他们会觉得大模型的军备竞赛有点太浪费资源。”庄晨熠坦言，这种反思的声音，并非少数。

问题是，不参与这场近乎残酷的“军备竞赛”，还有别的路可走吗？

AWorld 团队所走的“群体智能”路线，正被一部分人视为这样一次“弯道超车”的尝试。其核心思想并非去构建一个无所不能的、巨大的“通天塔”模型，而是通过构建一个高效的协同框架，让多个相对“小”的智能体（背后可能是中等规模的大模型）协同工作，像一个配合默契的专家团队，去完成一个“巨无霸”模型也难以独立完成的复杂任务。

这听起来像是一个完美的非对称战略。如果这个理论成立，那是否意味着我们应该把资源更多地投入到如何“组织模型”，而非“训练更大的模型”上？

庄晨熠并不认为这是一个非此即彼的、需要站队的选择。他的思考更为辩证。

“在我看来，它们应该是一个相辅相成的关系。 这里的本质是，群体智能背后也是一个一个的大模型。那么就变成了说，哪些应该由群体智能来做，哪些最终应该还是放到模型里面？”

为了阐述这两者之间微妙而深刻的共生关系，他描绘了一个极富想象力的场景。

“群体智能很有可能能完成一个操作系统的开发，比如说它能开发出一个 Linux。一个非常复杂的系统，可能要跑一个月甚至半年时间，它把这个操作系统开发出来了。开发出来之后，它里面会沉淀很多的数据。那么这些数据到底对大模型有没有用？哪些应该放到大模型里面，哪些应该还是通过群体智能或者复杂系统去做？这是一个很有意思的课题。”

在这个宏大的设想中，群体智能系统扮演了一个前所未有的角色：它不再是单纯的数据消费者，而是一个高度复杂的“数据工厂”。它通过解决真实世界中极其复杂的问题（如开发操作系统），生产出传统方法（如爬取网页）难以获得的高质量、带过程逻辑、充满因果链条的数据。

这些数据，反过来又可以“喂养”基础大模型，让其基础能力变得更强，拥有更深刻的逻辑推理能力。

而一个更强的大模型，又会让群体智能系统中的每一个智能体变得更聪明，从而能挑战更艰巨的任务，生产出更高质量的数据。

“所以虽然大家技术赛道可能会分叉，但是我觉得它是个螺旋上升的过程。我复杂系统做好的东西是不是可以给大模型借鉴，大模型做好了是不是又可以帮我的复杂系统做提升，大概是这么一个螺旋的关系。”

这种“螺旋上升”的哲学观，也体现在他对通用智能体与基础模型关系的判断上。当被问及 OpenAI、Google 这样的基础模型厂商是否在不断压缩 Agent 团队的生存空间时，他的回答再次出人意料。

“我自己的答案也比较明确，我觉得通用 Agent，也就是 AWorld 在做的事情，跟基础模型其实边界是相对模糊的。”

许多人将 Agent 创业看作是纯粹的应用层开发，是“模型有了，我们做个壳”的生意。但庄晨熠的日常工作，却彻底颠覆了这种浅层的认知。“我自己平时日常里做得最多的事情其实还是训练。 可能大家会觉得做智能体有很多工程上的事情，会有一些上下文管理，或者现在比较火的词叫‘上下文工程’。但是我觉得更本质的还是要训练一个模型。你可能可以不做 pre-train，但是 post-train 还是需要做的。”

他认为，基础模型能力的提升，对于智能体是天大的好事，绝非威胁。而 Agent 团队的核心价值，在于走完从技术到价值的、最艰难的“最后一公里”。

“真的让模型在一个场景里有用户愿意来用，或者有客户愿意为你掏钱，这应该是智能体技术需要去做的事情，包括工程和训练。”

模型的能力是必要条件，它决定了天花板的绝对高度。而 Agent 框架和群体智能系统，则是在想方设法地去逼近，甚至在特定任务上，通过巧妙的协同，暂时性地“突破”这个天花板。

“就像我们做强化学习时，冷启动的 policy model 能力一定要足够强，”他再次强调模型的基础性，“有了强的模型能力之后，你怎么样去设计这个复杂系统？如果不设计这个系统，你有可能只能答对三道题；设计了这个系统，你就能答对五道题。 那这个系统本身，或者说我们叫上下文工程，还是有贡献的。所以今天应该是个相辅相成的关系。”

理论的阐述总是显得有些苍白，一个生动的故事，往往更能揭示革命的本质。

在 AWorld 团队使用其框架挑战 GAIA（一个以复杂、多步骤、跨应用操作著称的通用 AI 评测基准）时，发生了一件让所有参与者都印象深刻的事。这个故事，或许是区分一个“真 Agent”和一个“伪 Agent”的最佳试金石。

“不管是 workflow 也好，还是动态的智能体自己编排也好，都离不开使用工具，”庄晨熠开始娓娓道来，将我们带回那个具体的测试场景，“工具的服务本身有可能有一定概率是失败的，这个是一定要承认的。比如这个工具本身需要花钱，你突然间预算用完了，不管怎么调用它都是失败的。如果是 workflow，你会发现就失败了，这个节点永远跑不过去。”

这是传统自动化流程与生俱来的脆弱性。它像一列在固定轨道上行驶的火车，任何一处铁轨的损坏，都会导致整趟旅程的彻底失败。它没有备用路线，没有绕行的能力。

“但我们自己拿 AWorld 构建的智能体去动态跑的时候，会发现这个工具返回失败之后，它会绕过去。”

当时，智能体需要调用一个外部的 PDF 解析工具来读取一个关键文件的内容，但那个工具因为网络、权限或其他未知原因，调用失败了。按照传统剧本，任务应该就此中断，并向用户抛出一个冰冷的错误报告。但接下来发生的事情，让在场的工程师们真实地看到了“智能”的火花。

“它会自己去写 Python 代码。”庄晨熠回忆道，语气中带着一丝兴奋，“它会想，那个工具用不了了，那要不自己写一个，自己去装一个叫 PYPDF 的包来处理。你会发现它有一定的智能可以绕过那个失败的节点。”

这个“绕路”行为，看似只是一个小小的技术细节，背后却是一次认知上的巨大飞跃。它意味着系统不再是僵化的、需要人类预设所有异常情况的指令执行者，而是具备了初步的自主诊断、问题分析和寻找替代方案的能力。这正是动态智能体与静态工作流最核心、最本质的区别。

这个生动的故事也引出了一个更深层的问题：智能体与我们这个纷繁复杂的真实世界，究竟应该如何交互？为什么它不直接使用像 Microsoft Word 或 Adobe Acrobat 这样成熟的人类工具，而非要自己“造轮子”去写代码？

“这是个好问题，也是我被问了两年的问题。”

庄晨熠显然对这个问题有过长期的思考，他系统地总结了智能体影响真实世界的三种经典介质。

第一种介质是“人”。“我是一个智能体，我打电话给你，你是披萨店的店员。我是通过自然语言跟你聊，然后你操作那个系统帮我把披萨下单并送过来，那么介质就是人。”这是一种间接的交互，智能体通过说服和沟通，让人类成为其在物理世界的“执行器”。

第二种介质是“API”。这是目前最主流、最成熟的方式，几乎所有的 Agent 框架都在大量使用。“但它的局限性也很明显，”庄晨熠指出，“API 在一定程度上很垂直，你很依赖写那个 API 的公司或个人。它的参数一旦改了，你也得跟着适配。”这使得基于 API 的 Agent 系统非常脆弱，并且难以泛化到新的、没有提供 API 的应用上。

第三种介质，也是庄晨熠认为未来潜力最大、最具想象空间的，是“GUI”，即图形用户界面。“像桌面环境，或者你刚刚讲的 Word、Office 其他的一些软件，它提供给用户的是一套图形界面……GUI 其实更像是一套人类自然语言 plus 符号语言，我怎么知道‘确定’那个按钮就代表这个意思，它背后是有语义在里面的，更像是一套符号。既然自然语言可以建模得这么丝滑，那符号语言是不是也可以建模得这么丝滑？”

他个人判断，GUI 的泛化性和可扩展性是最高的，因为它模拟的是人类使用计算机的自然方式。这也是“Computer Use”（计算机使用）这个概念在学术界和产业界都如此火热的根本原因。

但他也坦诚，这条路的实现难度同样是最高的。

“难度也比较高，”他简单地补充了一句。

在通往 GUI 这个终极形态的漫漫长路上，行业需要建立标准和协议来让不同的智能体之间能够沟通和协作。但无论是目前流行的 MCP（Model-Controller-Plugin）还是 A2A（Agent-to-Agent），庄晨熠都认为它们还不是最终形态。

“协议还会再变化，不会就一直是 MCP 或者 A2A，”他说，“这是一个技术上的思考。另外从生态上来说，如果大家都认可了这个协议，它有可能就会成为一个标准。这个是很难预测的，有可能是些大公司振臂一呼，很多人就 follow……另外一种是它确实好用，那它有可能形成一个生态，就会比较稳定。”

庄晨熠与“智能体”的结缘，并非始于大模型的浪潮，而是始于一场关于生与死的计算机模拟。

他博士期间的研究方向是图卷积（Graph Convolutional Networks），一个纯粹的、偏理论的算法领域。毕业后，他在日本国立研究所工作的一年，这段看似与主流 AI 叙事有些偏离的经历，却无意中为他日后的职业生涯埋下了最关键的伏笔。

“日本是一个灾难特别多的国家，比如海啸、地震。”他回忆道，“当时我在他们的国立研究所里面做的一个课题是，当灾难发生后，一个车站要怎么去快速疏散乘客，避免踩踏，或者疏散不完导致生命危险等。它其实是个防灾的课题。”

在这个听起来更像是“城市应急管理”或“数字孪生”的项目里，他第一次真正意义上接触到了 Agent 的概念，尽管那是传统意义上的、基于规则的 Agent。

“这里面我们会把所有的乘客和内部的人员模拟成智能体（Agent），但跟现在的智能体概念不太一样。然后我们去给他们设计全局最优的疏散路线。我们会假设有些通道可以同时通过两个人，有些可能只能通过一个人等等。这个又涉及到 graph 的一些事情，所以本身跟我博士课题也比较相关。”

从模拟灾难中仓皇求生的人群，到编排数字世界里协同工作的 AI，这两者之间，看似风马牛不相及，但内里的哲学却有一种奇妙的共通之处。它们的核心，都是关于如何理解和组织“群体行为”，如何通过对微观个体的建模和引导，来达成一个宏观的、复杂系统的最优目标。

这段独特的经历，或许在他内心深处种下了一颗“群体智能”的种子。当他后来加入蚂蚁集团，正式投身于大模型落地应用时，智能体这条赛道，对他而言，几乎是一种宿命般的、自然而然的选择。

在技术浪潮以天为单位进行迭代的今天，如何保持领先？

庄晨熠的方法论听起来简单而纯粹：做开源。

“蚂蚁的开源，我觉得是写在血液里面的。”他首先将其归因于一种根深蒂固的企业文化，“这是第一点，我们自己员工不太会去思考要不要开源。包括我们写论文，一般也会把代码或者数据开源出来，这是一个企业文化的事情。”

但更重要的，是他作为一个一线技术人，对开源价值的切身体会和坚定信仰。他亲眼见证了开源社区是如何在短短两年之内，将与闭源顶尖模型的差距从“望尘莫及”的恐慌，追赶到今天以“月”为单位计算的并驾齐驱。

“这个其实就是开源的力量。你有些技术拿在自己手里的时候，可能会觉得别人一定是追不上的。但是集体的智慧，又回到了那个群体智能的逻辑，我觉得集体的智慧还是能加速 AI 的发展。 因为 AI 还不是一个很收敛的场景，需要大家群策群力。”

对于一个 Agent 开源框架，社区最宝贵的贡献是什么？是更多的工具、更多的测试集，还是天马行空的脑洞？他的答案都不是。

“我觉得它更需要贡献的是一些认知上的东西。”

这是一个深刻的洞察。他认为，代码本身，一个优秀的工程团队总能实现，尽管过程会很艰难。“但是开源里面更核心的一点是说，你要把认知给传达出来。一是让别人去检验你的认知到底对不对，或者是不是最先进的那一波。其次是你的认知也可以给别人一些提示或者信号。那么他们愿不愿意 follow，或者在你的认知之上能不能做出更优秀、更超前的一些认知或技术产品，这时你就会发现开源非常有意义。所以我认为它不是单纯的代码，代码背后的思考是非常重要的。”

代码是思想的载体，而开源，就是将代码背后的设计哲学、技术判断和对未来的洞见，毫无保留地公之于众，接受整个世界的检验、批评与共创。

这种开放的心态，也彻底改变了他与全球顶尖开发者的交流方式。

“做开源就是一个非常好的点。你会发现很多公司，无论是创业公司还是大公司，很多项目是基于开源项目二次开发的。” 庄晨熠提到了 OpenManus 的 00 后创始人，正是我们此前在《万有引力》对话的梁新兵、向劲宇。

开源项目，成了一种超越公司、地域、年龄和背景的“技术社交名片”，一种全球极客通用的语言。

“如果你不开源，你跟他说 ‘我是庄晨熠，来自蚂蚁的’，他跟你聊不起来。但是他一旦知道 ‘哦，原来你是那个项目的！’——他可能看过你那个项目，你们很快就能对齐（align）到一起了。”

“开源项目是名片。” 我听完之后，这么形容道。

“对，是名片，然后才能聊实质的东西。不然见面只能聊 ‘你哪个公司的’，那些没有太多的营养。”

这种“Talking is cheap, show me the code”的极客精神，也贯穿于他对自己团队的要求之中。他有一个看似简单却极难达成的硬性标准：“我们自己做出来的智能体我们自己能用。 你说你做得很好，那你给我用一用。我的 query 有可能是 ‘你帮我读这一百篇论文’。”

AWorld 项目链接：https://github.com/inclusionAI/AWorld

创造一个可以 7x24 小时工作的“独立个体”

对话的最后，我们聊到了更遥远的未来。在解决了 IMO 这样的顶级智力难题之后，下一个最令庄晨熠兴奋、也最能体现群体智能价值的挑战是什么？

他的目光，投向了“长程任务”（Long-horizon Task）。

“我个人是喜欢去去跑那种长程任务。现在一般的应用，我们看到的都是偏短期的，要不就 10 秒内或一分钟内就希望得到结果。但是我对未来智能体的设想是一个独立的个体，那它应该就是 7x24 小时独立的。 它可以干活也可以休息，这是它的自由。但它一定要把长程任务给跑起来。”

他透露，像 Anthropic 这样的顶级公司，内部也正在测试需要连续跑七个小时的标准任务。长程任务不仅仅是一个时间维度的拉长，它像一个“考纲”，背后牵扯出了一系列目前 Agent 技术最棘手、最核心的难题：超长上下文的管理和记忆、多轮交互中的信息衰减、模型 Attention 机制在长序列下的局限性等等。

“它会引出很多技术挑战，但表现出来就是我能正儿八-经地、很好地完成一个非常复杂的长程任务。这个是我们自己在数学、GAIA 这样的榜单之后，会关注的一些技术课题。”

对于 AWorld 的未来，他将其清晰地归纳为两件核心的事。

第一，是“环境”。“我们有一个使命是想让智能体在不同的环境里面跑起来。跑起来不是说它只是做一个产品，而是希望智能体可以在不同环境里面去学习经验。你在 GAIA 的环境里面学到一些 computer use 的经验，你在 IMO 的环境里面学到一些数学的经验。”这些在不同“世界”里学到的宝贵经验，最终将通过不断的训练，沉淀到模型本身，创造出在垂直领域更强大、甚至超越通用顶尖模型的新模型。

第二，是“技术产品”。AWorld 构建的智能体，将作为一个开放的、让社区能第一时间用到技术红利的产品，而非一个精雕細琢、追求极致交互体验的消费级产品。“我们会把它定义成一个技术产品，因为它不是那么一个我们俗称‘雕过花’的产品……我们可能不关注这些，但是一些技术的红利，最好是能让社区或者大家能提前用起来。”

一个持续学习的模型，一个开放共享的技术产品。这便是庄晨熠为 AWorld 规划的清晰路径。

在这场围绕 AI Agent 的巨大喧嚣与泡沫中，庄晨熠和他的团队，似乎选择了一条更需要耐心和定力的路。他们不急于定义终局，也不热衷于包装概念，而是在一次次解决世界级难题的极限挑战中，在一次次面向全球开发者的开源分享中，让智能体在真实的世界里，学习、犯错、进化。

就像那个在工具调用失败后，没有报错、没有放弃，而是默默开始自己写 Python 代码的 Agent 一样，这条少有人走的路或许也会遇到各种障碍和失败的节点，但真正的智能，总会找到“绕路”前行的方法。

来源：CSDN一点号

标签：智能体蚂蚁 agent workflow aworld

本文地址：http://news.43b.com.cn/a/1679702.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!