蚂蚁AWorld庄晨熠:Workflow不是“伪智能体”,而是Agent里程碑

B站影视 欧美电影 2025-10-28 15:35 1

摘要:“因为现在 AI 跟人类水平是持平的,”他解释道,“今年 25 年的 IMO 是六道题,人类跟 AI 基本上都能答对前五道,第六道谁都答不对。但是很有可能明年 26 年就是 AI 超过人类的时候,因为第六道题可能 AI 很快就能答对。”

AI 正陷入“应试狂热”,真正的智能体必须走出考场。

作者 | 王启隆

出品 | AI 科技大本营(ID:rgznai100)

“我觉得也差不多。”

当被问及“IMO 2026 年可能是人类最后一次有机会战胜 AI”这个预言时,蚂蚁集团 AWorld 算法负责人庄晨熠博士的回答平静而迅速,不带一丝犹豫。

“因为现在 AI 跟人类水平是持平的,”他解释道,“今年 25 年的 IMO 是六道题,人类跟 AI 基本上都能答对前五道,第六道谁都答不对。但是很有可能明年 26 年就是 AI 超过人类的时候,因为第六道题可能 AI 很快就能答对。

全球机器学习技术大会的采访间里,北京正值寒露,但空气中却弥漫着 AI 行业特有的燥热与亢奋。在 2025 年无数涌现的热词里,AI Agent(智能体)无疑是聚光灯下最耀眼的明星,它向世界承诺了一个近乎科幻的未来——AI 将不再是简单的工具,而是能够为我们自主工作的伙伴。但在这条通往未来的路上,巨大的光环之下,是同样巨大的阴影。

行业里一种声音愈发响亮,带着审视与怀疑:Agent 赛道存在巨大的泡沫。 太多打着 Agent 旗号的产品,其内核不过是将传统的工作流(Workflow)自动化脚本,包装上一个时髦的外壳,进行着一场心照不宣的“智能体洗白”(Agent Washing)。

用户满怀着对智能未来的期待而来,体验一次后,发现其内核与十几年前的 RPA(机器人流程自动化)并无本质区别,于是迅速流失,留下一地鸡毛。

我和庄晨熠的对话也从这个尖锐的话题开始。

“这是一个很好的问题。” 他顿了顿,似乎在组织一场更深层次的辩护,不仅是为 AWorld,也是为整个 Agent 赛道。

“我想引用微软 CEO 的一句话,他觉得大模型当前刷的榜单,不论是数学、代码,还是一些工具的使用等,都更像是一种考试的逻辑。

这番话切中了当前 AI 发展的要害。整个行业似乎都陷入了一种“应试教育”的狂热,大家都在追求一个个漂亮的“分数”,却可能忽略了技术真正的价值所在。

“智能体为什么这么火?我觉得有其本质原因。因为大家希望 AI 不是一个泡沫,而是真的能改变我们生活周边或日常中的一些事情,无论是提高办公效率,还是让认知提升更快,比如在教育、科普等方面。在 AI 到应用的这个过程中,大家似乎都一致地选择了智能体这个技术赛道,所以智能体才会这么火。

在庄晨熠看来,Agent 的火爆,源于一种集体的、深沉的渴望——渴望 AI 能够走出实验室,走出排行榜,真正作用于现实世界,去提升类似 GDP 这样的宏观指标,而不是仅仅为了赢得一场又一场的“代码竞赛”或“数学考试”。这是一种对“实干”的呼唤。

那么,又该如何回应那个最核心的质疑:Agent 是不是 Workflow 的“套壳”?这是所有从业者都无法绕开的灵魂拷问。

“我们觉得智能体本身是不是一个有很厚技术壁垒的赛道?这包括它跟 workflow 之间的关系。这个我可以稍微展开一下。”

他没有直接给出“是”或“否”的简单答案,而是选择从历史的演进中寻找答案。“以前我们在公司里做智能助理,在大模型出现之前,它也是一个聊天系统。智能助理背后其实也是无数的 workflow,你可以认为它是一个 graph。什么样的问题应该如何回答,这是偏规则性的、静态的。但是,这种我们称之为编排的 graph,到一定程度后就无法维护了。 因为它有太多的规则,再增加一条,就很有可能影响其他规则,导致那些 if-else 或代码无法维护。”

大模型的出现,成了一个真正的分水岭。它用强大的、基于概率的语义理解能力,替代了过去需要工程师一行行手写的、脆弱不堪的僵化规则。这是一种根本性的解放。

“Agent 这边也是一样。像现在比较火的 LangChain、N8N 等框架,它们还是主打 workflow。但我认为 workflow 是智能体前期一个成熟的技术阶段,它是一个里程碑(milestone)。 不是说 workflow 就不是智能体,但智能体一定会在 workflow 的基础上继续往下发展。”

这是一个极其重要的论断。庄晨熠并不认为 Workflow 是 Agent 的对立面,或者是一种“伪装”。恰恰相反,他将其视为通往真正智能体的必经之路,是一个坚实、可靠、且在当前阶段不可或缺的里程碑。将两者对立起来,是一种非黑即白的误读。

真正的分野在于,发展的终极方向是什么。

“过去是用户提前定义好 SOP(标准作业程序):写代码前要先做需求分析,然后做设计,再写一个类,最后实现类里的方法。这是人类做事的方式,也是 workflow 比较鲁棒、易于落地的方式。但未来是结果导向的:你能做得好,那就是好;如果做得不好,过程再 SOP、再标准化也没有意义。 所以它应该是一个循序渐进的过程。”

从遵循固定的“标准作业程序”,到追求最终的“结果导向”,这正是庄晨熠眼中,Agent 所带来的真正革命性的转变。它要求智能体不再是一个只会按图索骥的木偶,而是一个能够自主判断、动态调整、甚至在必要时打破规则的生命体。

从这一刻开始,我们的对话从概念的边界转向实践的深水区。

当行业的巨头们在“练大模型”的军备竞赛中不断加码,将海量的电力与资本投入到无尽的参数竞赛中,追求着更高的 Scaling Law 时,一条不同的、更安静的声音开始出现。

“我前有一次去上海人工智能学院,跟政府里面的人聊到这个话题。其实从政府或者国家层面,他们是想在大模型这个领域弯道超车的。以及有一些教授专家,他们会觉得大模型的军备竞赛有点太浪费资源。”庄晨熠坦言,这种反思的声音,并非少数。

问题是,不参与这场近乎残酷的“军备竞赛”,还有别的路可走吗?

AWorld 团队所走的“群体智能”路线,正被一部分人视为这样一次“弯道超车”的尝试。其核心思想并非去构建一个无所不能的、巨大的“通天塔”模型,而是通过构建一个高效的协同框架,让多个相对“小”的智能体(背后可能是中等规模的大模型)协同工作,像一个配合默契的专家团队,去完成一个“巨无霸”模型也难以独立完成的复杂任务。

这听起来像是一个完美的非对称战略。如果这个理论成立,那是否意味着我们应该把资源更多地投入到如何“组织模型”,而非“训练更大的模型”上?

庄晨熠并不认为这是一个非此即彼的、需要站队的选择。他的思考更为辩证。

在我看来,它们应该是一个相辅相成的关系。 这里的本质是,群体智能背后也是一个一个的大模型。那么就变成了说,哪些应该由群体智能来做,哪些最终应该还是放到模型里面?”

为了阐述这两者之间微妙而深刻的共生关系,他描绘了一个极富想象力的场景。

“群体智能很有可能能完成一个操作系统的开发,比如说它能开发出一个 Linux。一个非常复杂的系统,可能要跑一个月甚至半年时间,它把这个操作系统开发出来了。开发出来之后,它里面会沉淀很多的数据。那么这些数据到底对大模型有没有用?哪些应该放到大模型里面,哪些应该还是通过群体智能或者复杂系统去做?这是一个很有意思的课题。”

在这个宏大的设想中,群体智能系统扮演了一个前所未有的角色:它不再是单纯的数据消费者,而是一个高度复杂的“数据工厂”。它通过解决真实世界中极其复杂的问题(如开发操作系统),生产出传统方法(如爬取网页)难以获得的高质量、带过程逻辑、充满因果链条的数据。

这些数据,反过来又可以“喂养”基础大模型,让其基础能力变得更强,拥有更深刻的逻辑推理能力。

而一个更强的大模型,又会让群体智能系统中的每一个智能体变得更聪明,从而能挑战更艰巨的任务,生产出更高质量的数据。

“所以虽然大家技术赛道可能会分叉,但是我觉得它是个螺旋上升的过程。我复杂系统做好的东西是不是可以给大模型借鉴,大模型做好了是不是又可以帮我的复杂系统做提升,大概是这么一个螺旋的关系。

这种“螺旋上升”的哲学观,也体现在他对通用智能体与基础模型关系的判断上。当被问及 OpenAI、Google 这样的基础模型厂商是否在不断压缩 Agent 团队的生存空间时,他的回答再次出人意料。

“我自己的答案也比较明确,我觉得通用 Agent,也就是 AWorld 在做的事情,跟基础模型其实边界是相对模糊的。

许多人将 Agent 创业看作是纯粹的应用层开发,是“模型有了,我们做个壳”的生意。但庄晨熠的日常工作,却彻底颠覆了这种浅层的认知。“我自己平时日常里做得最多的事情其实还是训练。 可能大家会觉得做智能体有很多工程上的事情,会有一些上下文管理,或者现在比较火的词叫‘上下文工程’。但是我觉得更本质的还是要训练一个模型。你可能可以不做 pre-train,但是 post-train 还是需要做的。”

他认为,基础模型能力的提升,对于智能体是天大的好事,绝非威胁。而 Agent 团队的核心价值,在于走完从技术到价值的、最艰难的“最后一公里”。

真的让模型在一个场景里有用户愿意来用,或者有客户愿意为你掏钱,这应该是智能体技术需要去做的事情,包括工程和训练。”

模型的能力是必要条件,它决定了天花板的绝对高度。而 Agent 框架和群体智能系统,则是在想方设法地去逼近,甚至在特定任务上,通过巧妙的协同,暂时性地“突破”这个天花板。

“就像我们做强化学习时,冷启动的 policy model 能力一定要足够强,”他再次强调模型的基础性,“有了强的模型能力之后,你怎么样去设计这个复杂系统?如果不设计这个系统,你有可能只能答对三道题;设计了这个系统,你就能答对五道题。 那这个系统本身,或者说我们叫上下文工程,还是有贡献的。所以今天应该是个相辅相成的关系。”

理论的阐述总是显得有些苍白,一个生动的故事,往往更能揭示革命的本质。

在 AWorld 团队使用其框架挑战 GAIA(一个以复杂、多步骤、跨应用操作著称的通用 AI 评测基准)时,发生了一件让所有参与者都印象深刻的事。这个故事,或许是区分一个“真 Agent”和一个“伪 Agent”的最佳试金石。

“不管是 workflow 也好,还是动态的智能体自己编排也好,都离不开使用工具,”庄晨熠开始娓娓道来,将我们带回那个具体的测试场景,“工具的服务本身有可能有一定概率是失败的,这个是一定要承认的。比如这个工具本身需要花钱,你突然间预算用完了,不管怎么调用它都是失败的。如果是 workflow,你会发现就失败了,这个节点永远跑不过去。

这是传统自动化流程与生俱来的脆弱性。它像一列在固定轨道上行驶的火车,任何一处铁轨的损坏,都会导致整趟旅程的彻底失败。它没有备用路线,没有绕行的能力。

“但我们自己拿 AWorld 构建的智能体去动态跑的时候,会发现这个工具返回失败之后,它会绕过去。

当时,智能体需要调用一个外部的 PDF 解析工具来读取一个关键文件的内容,但那个工具因为网络、权限或其他未知原因,调用失败了。按照传统剧本,任务应该就此中断,并向用户抛出一个冰冷的错误报告。但接下来发生的事情,让在场的工程师们真实地看到了“智能”的火花。

它会自己去写 Python 代码。”庄晨熠回忆道,语气中带着一丝兴奋,“它会想,那个工具用不了了,那要不自己写一个,自己去装一个叫 PYPDF 的包来处理。你会发现它有一定的智能可以绕过那个失败的节点。”

这个“绕路”行为,看似只是一个小小的技术细节,背后却是一次认知上的巨大飞跃。它意味着系统不再是僵化的、需要人类预设所有异常情况的指令执行者,而是具备了初步的自主诊断、问题分析和寻找替代方案的能力。这正是动态智能体与静态工作流最核心、最本质的区别。

这个生动的故事也引出了一个更深层的问题:智能体与我们这个纷繁复杂的真实世界,究竟应该如何交互?为什么它不直接使用像 Microsoft Word 或 Adobe Acrobat 这样成熟的人类工具,而非要自己“造轮子”去写代码?

“这是个好问题,也是我被问了两年的问题。”

庄晨熠显然对这个问题有过长期的思考,他系统地总结了智能体影响真实世界的三种经典介质。

第一种介质是“”。“我是一个智能体,我打电话给你,你是披萨店的店员。我是通过自然语言跟你聊,然后你操作那个系统帮我把披萨下单并送过来,那么介质就是人。”这是一种间接的交互,智能体通过说服和沟通,让人类成为其在物理世界的“执行器”。

第二种介质是“API”。这是目前最主流、最成熟的方式,几乎所有的 Agent 框架都在大量使用。“但它的局限性也很明显,”庄晨熠指出,“API 在一定程度上很垂直,你很依赖写那个 API 的公司或个人。它的参数一旦改了,你也得跟着适配。”这使得基于 API 的 Agent 系统非常脆弱,并且难以泛化到新的、没有提供 API 的应用上。

第三种介质,也是庄晨熠认为未来潜力最大、最具想象空间的,是“GUI”,即图形用户界面。“像桌面环境,或者你刚刚讲的 Word、Office 其他的一些软件,它提供给用户的是一套图形界面……GUI 其实更像是一套人类自然语言 plus 符号语言,我怎么知道‘确定’那个按钮就代表这个意思,它背后是有语义在里面的,更像是一套符号。既然自然语言可以建模得这么丝滑,那符号语言是不是也可以建模得这么丝滑?

他个人判断,GUI 的泛化性和可扩展性是最高的,因为它模拟的是人类使用计算机的自然方式。这也是“Computer Use”(计算机使用)这个概念在学术界和产业界都如此火热的根本原因。

但他也坦诚,这条路的实现难度同样是最高的。

“难度也比较高,”他简单地补充了一句。

在通往 GUI 这个终极形态的漫漫长路上,行业需要建立标准和协议来让不同的智能体之间能够沟通和协作。但无论是目前流行的 MCP(Model-Controller-Plugin)还是 A2A(Agent-to-Agent),庄晨熠都认为它们还不是最终形态。

“协议还会再变化,不会就一直是 MCP 或者 A2A,”他说,“这是一个技术上的思考。另外从生态上来说,如果大家都认可了这个协议,它有可能就会成为一个标准。这个是很难预测的,有可能是些大公司振臂一呼,很多人就 follow……另外一种是它确实好用,那它有可能形成一个生态,就会比较稳定。”

庄晨熠与“智能体”的结缘,并非始于大模型的浪潮,而是始于一场关于生与死的计算机模拟。

他博士期间的研究方向是图卷积(Graph Convolutional Networks),一个纯粹的、偏理论的算法领域。毕业后,他在日本国立研究所工作的一年,这段看似与主流 AI 叙事有些偏离的经历,却无意中为他日后的职业生涯埋下了最关键的伏笔。

“日本是一个灾难特别多的国家,比如海啸、地震。”他回忆道,“当时我在他们的国立研究所里面做的一个课题是,当灾难发生后,一个车站要怎么去快速疏散乘客,避免踩踏,或者疏散不完导致生命危险等。它其实是个防灾的课题。”

在这个听起来更像是“城市应急管理”或“数字孪生”的项目里,他第一次真正意义上接触到了 Agent 的概念,尽管那是传统意义上的、基于规则的 Agent。

“这里面我们会把所有的乘客和内部的人员模拟成智能体(Agent),但跟现在的智能体概念不太一样。然后我们去给他们设计全局最优的疏散路线。我们会假设有些通道可以同时通过两个人,有些可能只能通过一个人等等。这个又涉及到 graph 的一些事情,所以本身跟我博士课题也比较相关。”

从模拟灾难中仓皇求生的人群,到编排数字世界里协同工作的 AI,这两者之间,看似风马牛不相及,但内里的哲学却有一种奇妙的共通之处。它们的核心,都是关于如何理解和组织“群体行为”,如何通过对微观个体的建模和引导,来达成一个宏观的、复杂系统的最优目标。

这段独特的经历,或许在他内心深处种下了一颗“群体智能”的种子。当他后来加入蚂蚁集团,正式投身于大模型落地应用时,智能体这条赛道,对他而言,几乎是一种宿命般的、自然而然的选择。

在技术浪潮以天为单位进行迭代的今天,如何保持领先?

庄晨熠的方法论听起来简单而纯粹:做开源

“蚂蚁的开源,我觉得是写在血液里面的。”他首先将其归因于一种根深蒂固的企业文化,“这是第一点,我们自己员工不太会去思考要不要开源。包括我们写论文,一般也会把代码或者数据开源出来,这是一个企业文化的事情。”

但更重要的,是他作为一个一线技术人,对开源价值的切身体会和坚定信仰。他亲眼见证了开源社区是如何在短短两年之内,将与闭源顶尖模型的差距从“望尘莫及”的恐慌,追赶到今天以“月”为单位计算的并驾齐驱。

“这个其实就是开源的力量。你有些技术拿在自己手里的时候,可能会觉得别人一定是追不上的。但是集体的智慧,又回到了那个群体智能的逻辑,我觉得集体的智慧还是能加速 AI 的发展。 因为 AI 还不是一个很收敛的场景,需要大家群策群力。”

对于一个 Agent 开源框架,社区最宝贵的贡献是什么?是更多的工具、更多的测试集,还是天马行空的脑洞?他的答案都不是。

“我觉得它更需要贡献的是一些认知上的东西。”

这是一个深刻的洞察。他认为,代码本身,一个优秀的工程团队总能实现,尽管过程会很艰难。“但是开源里面更核心的一点是说,你要把认知给传达出来。一是让别人去检验你的认知到底对不对,或者是不是最先进的那一波。其次是你的认知也可以给别人一些提示或者信号。那么他们愿不愿意 follow,或者在你的认知之上能不能做出更优秀、更超前的一些认知或技术产品,这时你就会发现开源非常有意义。所以我认为它不是单纯的代码,代码背后的思考是非常重要的。

代码是思想的载体,而开源,就是将代码背后的设计哲学、技术判断和对未来的洞见,毫无保留地公之于众,接受整个世界的检验、批评与共创。

这种开放的心态,也彻底改变了他与全球顶尖开发者的交流方式。

“做开源就是一个非常好的点。你会发现很多公司,无论是创业公司还是大公司,很多项目是基于开源项目二次开发的。” 庄晨熠提到了 OpenManus 的 00 后创始人,正是我们此前在《万有引力》对话的梁新兵、向劲宇。

开源项目,成了一种超越公司、地域、年龄和背景的“技术社交名片”,一种全球极客通用的语言。

“如果你不开源,你跟他说 ‘我是庄晨熠,来自蚂蚁的’,他跟你聊不起来。但是他一旦知道 ‘哦,原来你是那个项目的!’——他可能看过你那个项目,你们很快就能对齐(align)到一起了。”

开源项目是名片。” 我听完之后,这么形容道。

“对,是名片,然后才能聊实质的东西。不然见面只能聊 ‘你哪个公司的’,那些没有太多的营养。”

这种“Talking is cheap, show me the code”的极客精神,也贯穿于他对自己团队的要求之中。他有一个看似简单却极难达成的硬性标准:“我们自己做出来的智能体我们自己能用。 你说你做得很好,那你给我用一用。我的 query 有可能是 ‘你帮我读这一百篇论文’。”

AWorld 项目链接:https://github.com/inclusionAI/AWorld

创造一个可以 7x24 小时工作的“独立个体”

对话的最后,我们聊到了更遥远的未来。在解决了 IMO 这样的顶级智力难题之后,下一个最令庄晨熠兴奋、也最能体现群体智能价值的挑战是什么?

他的目光,投向了“长程任务”(Long-horizon Task)。

“我个人是喜欢去去跑那种长程任务。现在一般的应用,我们看到的都是偏短期的,要不就 10 秒内或一分钟内就希望得到结果。但是我对未来智能体的设想是一个独立的个体,那它应该就是 7x24 小时独立的。 它可以干活也可以休息,这是它的自由。但它一定要把长程任务给跑起来。”

他透露,像 Anthropic 这样的顶级公司,内部也正在测试需要连续跑七个小时的标准任务。长程任务不仅仅是一个时间维度的拉长,它像一个“考纲”,背后牵扯出了一系列目前 Agent 技术最棘手、最核心的难题:超长上下文的管理和记忆、多轮交互中的信息衰减、模型 Attention 机制在长序列下的局限性等等。

“它会引出很多技术挑战,但表现出来就是我能正儿八-经地、很好地完成一个非常复杂的长程任务。这个是我们自己在数学、GAIA 这样的榜单之后,会关注的一些技术课题。”

对于 AWorld 的未来,他将其清晰地归纳为两件核心的事。

第一,是“环境”。“我们有一个使命是想让智能体在不同的环境里面跑起来。跑起来不是说它只是做一个产品,而是希望智能体可以在不同环境里面去学习经验。你在 GAIA 的环境里面学到一些 computer use 的经验,你在 IMO 的环境里面学到一些数学的经验。”这些在不同“世界”里学到的宝贵经验,最终将通过不断的训练,沉淀到模型本身,创造出在垂直领域更强大、甚至超越通用顶尖模型的新模型。

第二,是“技术产品”。AWorld 构建的智能体,将作为一个开放的、让社区能第一时间用到技术红利的产品,而非一个精雕細琢、追求极致交互体验的消费级产品。“我们会把它定义成一个技术产品,因为它不是那么一个我们俗称‘雕过花’的产品……我们可能不关注这些,但是一些技术的红利,最好是能让社区或者大家能提前用起来。

一个持续学习的模型,一个开放共享的技术产品。这便是庄晨熠为 AWorld 规划的清晰路径。

在这场围绕 AI Agent 的巨大喧嚣与泡沫中,庄晨熠和他的团队,似乎选择了一条更需要耐心和定力的路。他们不急于定义终局,也不热衷于包装概念,而是在一次次解决世界级难题的极限挑战中,在一次次面向全球开发者的开源分享中,让智能体在真实的世界里,学习、犯错、进化。

就像那个在工具调用失败后,没有报错、没有放弃,而是默默开始自己写 Python 代码的 Agent 一样,这条少有人走的路或许也会遇到各种障碍和失败的节点,但真正的智能,总会找到“绕路”前行的方法。

来源:CSDN一点号

相关推荐