摘要:Agent、Agnet?Agent!说起今年的 AI 浪潮,除了年初 DeepSeek 引领的一波强化学习热,行业内最受关注的,莫过于各种各样的 AI Agent 以及 “ 类 Agent ”。
Agent、Agnet?Agent!说起今年的 AI 浪潮,除了年初 DeepSeek 引领的一波强化学习热,行业内最受关注的,莫过于各种各样的 AI Agent 以及 “ 类 Agent ”。
不知从什么时候开始,Agnet 变成了一种万能公式,什么都可以套进去一下。但,Agent 真的有那么好吗?真的有竞争力吗?
“ Manus 前阵子刚推出的新功能 Wide Research,我觉得非常不具备竞争力,对提高产品竞争力没有什么用。” 某大型金融企业 AI 技术专家王显( 化名 )向知危表示。
从 “ 次日即旧 ” 的榜单到被基础模型一轮升级清场的产品,2025 年的 Agent 创业,热闹背后是可怜的留存率与渐趋同质的体验。
几乎所有 Agent 产品都在讲 “ 更聪明、更全能、更自动化 ”,但用户只试用一次就离开的比例居高不下,Demo 能飞,落地常摔,这是否意味着通用型 Agent 的叙事正在透支?
本文,知危把镜头拉远,看看泡沫究竟来自资本驱动、技术错配,还是场景误判?
我们将邀请来自大型企业、创业公司的多位一线实践者,以 Manus 近期的新产品 Wide Research 和公司跑路、撤资事件为引,追问国内外 Agent 泡沫乱象现实、背后的原因,以及未来 Agent 赛道的生存规则。
在交流过程中,知危发现,通用与垂直的取舍和统合是决定去留的关键。
实际上,今年 Agent 大火, 主要是在 tool-use 上取得突破,《 知识图谱:认知智能理论与实战 》、《 知识增强大模型 》与《 比 RAG 更強- 知識增強 LLM 型應用程式實戰 》作者、大模型技术专家王文广向知危表示,“ 具体来看,从编程到browser-use,再到 computer-use,以及随着 MCP 通用接口普及率的提升,Agent 的 tool use 能力得到增强,能够更高效地从外部获取信息,以及与外部系统进行交互。”
平安保险技术平台组负责人张森森进一步向知危解释道,“ 技术层面上,协议逐渐成熟,能力外延扩大,可以通过 MCP 协议等方式应用到更多场景。应用层面上,有些长尾场景得到了覆盖,比如从浏览器信息助手到执行动作的转变:过去只是提供答案,现在能帮助完成动作。生态层面也降低了一些成本。”
“ 过去厂商比拼模型参数,现在还要比拼模型加生态工具的组合能力,市场竞争焦点已经发生转移。”
但这其中,以 Manus 为代表的通用 Agent 类产品一直饱受争议。
一方面,资本甚是青睐,另一方面,用户诟病不止。直到最近,Manus 先是跑路,把公司总部从国内搬迁到新加坡,随后推出了 Wide Research 产品,再之后又被曝出将可能因为安全审查问题被强制撤销融资。
在整个赛道中,炒作了大半年的 Agent 概念,也开始面临越来越显性的质疑。
王显向知危详细解释了为何 Wide Research 缺乏竞争力,“ 第一,Wide Research确实提高了并行处理的效率,但也非常消耗计算资源和调用额度,所以它的定价非常贵。”
“ 第二,没有看到它与单体高性能的 Deep Research 在性能准确度、成本效率上的公开对比或测试,所以不能确定它在使用大量并行任务后,效果是否真的得到提升。”
“ 最重要的一点是,它仍然没有解决场景壁垒的问题。”
“ 它没有专业数据、没有专属工具链、没有行业认证、没有与业务深度绑定的集成,也没有与高价值业务场景的绑定,也就是任何人都能做。所以,它更偏向工程能力的延伸,而不是在构建场景护城河。”
“ 当然,早期采用浅而宽的策略来获客没有问题,但长期来看,Manus无法抵御模型厂商的下沉和垂直厂商的渗透。”
“ 所以在我看来,Manus 自始至今,从产品角度而言,思路是完全失败的。”
AI 技术专家和创业者陈为也基本持一致的观点:“ Wide Research 的本质是 ‘ 规模化通用任务执行器 ’,效率高,但没有解决 ‘ 决策 ’ 问题。”
“ 用户会发现,当他们遇到真正复杂的问题时,这个通用 Agent 还是帮不上忙,最终不得不转向专业的垂直产品或人工服务,导致用户留存率不高。”
如果扩大到任意的通用 Agent,则它们都具备一个看似有吸引力但实则致命的特点:任务范围模糊。
知言吉智 CEO 付瑞吉向知危表示,“ 任务范围模糊一定会对产品带来不利的影响。一方面,当一个 Agent 宣称能做所有事情时,它往往在任何一个领域都做不到最好;另一方面,任务范围模糊,意味着用户对于这个 Agent 到底能帮自己解决什么问题也会有困惑,那么这个产品的认知成本就非常高。”
付瑞吉进一步向知危解释了近期 Agent 泡沫兴起的创业者心态:“ 大模型的出现让大家觉得开发门槛降低了,感觉 ‘ 人人都能做 Agent ’。许多开发者和创业公司认为将其包装成一个能解决各种问题的 ‘ 超级助手 ’,能迅速吸引大量 C 端用户。通用型 Agent 的核心卖点就是 ‘ 解决所有问题 ’。但现实是,目前为止没有任何一个 Agent 能真正做到这一点。”
王显更是认为这场泡沫的兴起是创业公司和资本共谋的产物,“ Manus 根本不是在做产品,而是在走资本路线,通过不断推高市场知名度以获得更高融资。至于创始人是拿到融资后真正深入场景做产品还是卷钱跑路,只有创始人自己才知道。产品非常失败,但营销可以说非常成功。”
付瑞吉补充道,“ 营销只能负责将大众的注意力吸引过来,但 Agent 不同于内容类的产品( 如短视频 )只要用户的注意力就够了,它还是要解决用户的实际问题的,如果用户发现产品 ‘ 华而不实 ’,则很难留存。”
沐瞳科技大数据负责人薛赵明则认为这种产品模式有一定合理性,但还是要区分 ToC 和 ToB 的逻辑,“ ToC 和 ToB 是两种逻辑,ToC 需要具备多样性,这个多样性也代表了用户选择的多样性,产品力不足的会很快在市场的浪潮中褪去,因为这是一个非常烧钱的赛道,没有用户的沉淀和付费是很难长期坚持的。ToB 又是另一个商业逻辑,必须强调可落地和可交付,否则便是无用的。”
王显以 Wide Research 为例解释了为何通用 Agent 产品现阶段对于企业用户无用,“ 对于企业而言,Wide Research 并没有说明 Agent 是如何分工、如何合作、如何整合各自结果的,它们之间的协调协议和调度机制也不明确。那我最后怎么去做审计呢?作为企业,我必须审计这个过程是否合规,以及在执行过程中到底发生了什么。所以我没办法信任它给出的最终结果。”
“ 尤其是在金融行业,我们可能花了很长时间跑出一个结果,如果它直接告诉我买哪只股票、投哪家公司,我不可能只凭这个结果就去执行。”
Manus 虽然接受了中外多个基金的投资,但运营主要面向海外市场,而且总部已经搬迁到新加坡,其代表的只是 Agent 泡沫的一小部分组成。
但聚焦到国内,情况也并不乐观,甚至可以说有太多相似之处。
薛赵明表示,“ 实际上,当前无论是创业公司,还是一线的云厂商的产品,大部分的产品都还是在一个特定场景下去演示,真正的规模化落地还是偏少。”
张森森表示,“ 国内很多 Agent 产品功能繁多,但基本都是快速堆叠,痛点不聚焦。”
“ 比如有大量集成了写文案、做 PPT、查资料、生成图片等功能的产品,不乏大厂参与其中。它们都有通用 Agent 的特点,功能多但不精。写代码准确率不高,数据分析缺少可解释性,设计产出质量参差不齐。初次使用可能觉得新鲜,但要长期依赖则难以实现。很少有明确与工作流、KPI 绑定的可交付结果。”
“ 具体到一些金融类工具型 APP( 公司主体一般没有正式的金融业务牌照 ),比如炒股平台,会提供所谓的智能投顾功能。当我打开某只股票时,它可能提示该股票出现‘红三兵’,未来可能上涨,但这样的判断缺乏准确性。”
“ 因为它只是摘录过去的一些市场信息,而二级市场的信息来源非常多,决策点也很多,这类产品完全无法体现这些复杂因素。看起来像是做了一个智能投顾,但实际上既没有真正实现投资组合优化、风险控制,也无法对接交易系统,无法支撑其宣传的定位。”
“目前市面上没有一家能真正把智能投顾功能做好。实际上,大部分经纪公司都有相关部门去做这件事。问题在于,一方面他们觉得必须做,另一方面看到大模型似乎能解决问题,就开始投入开发,完成后立刻做宣传,声称接入了大模型并具备某种能力。”
“但这里的问题在于,他们的宣传能力与实际能力并不匹配,并非能力完全无用,而是存在明显落差。”
王文广表示,“ 成功演示的往往是任务中那 20% 的标准化部分,而真正构成工作核心的,是那 80% 的、充满‘长尾异常’的复杂现实。”
就连大家目前普遍主动或被动接触过的AI搜索,其实也还很初级,Jina AI 前 CTO 王楠向知危表示,“ Agent 目前能够多轮使用简单工具或者单轮使用复杂工具,但是多轮使用复杂工具( 例如搜索工具 )的能力还没有达到生产可用。从BrowseComp Benchmark 上看,搜索大模型在使用搜索工具方面还有很大的提升空间。这种差距的原因在于大模型在使用通用工具上的能力还没有迎来ChatGPT时刻。”
白鲸开源 CEO 郭炜向知危总结道,“ 目前整体来看,各种 Agent 产品给人的惊喜度确实不够。因为现在 Agent 技术本身还没有进入成熟或真正可用阶段,技术生态不完善。甚至关于Agent 的理念,大家都还没有想清楚。”
“ 国内大多数所谓的 Agent 其实并不是真正的 Agent,只是为了吸引眼球而这么命名。在我理解中,能够替代 ToB SaaS 和 ToC APP 的那种 Agent 产品还没有出现。国内品牌都是如此。”
“ 换句话说,现在的 Agent 大多是套了自然语言交互外壳的 RPA( 软件机器人流程自动化 ),普遍缺乏深度。那为什么不直接用 RPA 呢?RPA 还没有幻觉。”
这种 “ 名不副实 ”的现象,王文广指出,是所谓的“智能体洗白”( Agent Washing ),在行业中已非常普遍。
“ 这是 ‘ 能力泡沫 ’ 的直接产物。公司利用市场对 ‘ Agent ’ 一词的追捧来吸引投资和用户。最直接的例子是,有权威报道指出,全球几乎所有在 2022 年底 ChatGPT 之前就在所谓的 RPA 等赛道上有所成就的企业,都在挂智能体的羊头卖 RPA 的狗肉。”
Gartner 今年 6 月的市场分析报道表明,其在测试的 ‘ 数千款 ’ 所谓的 Agent 产品中,只有约 130 款真正符合标准。
“ 所以,可以做个简单的排除法,寻找智能体或大模型落地的供应商,首先排除掉以往做过 RPA 的企业,这可以避免一半的坑。投资也是一样。”
王文广还总结了 C 端和 B 端 Agent 泡沫的一般特征,“ ToC 泡沫主要由对 ‘ 通用个人助理 ’ 的梦想驱动,ToB 泡沫更多是由企业的提高生产力、降低成本的焦虑所驱动。”
“ ToC 的这种愿景极具吸引力,容易引发病毒式传播和媒体的广泛关注,从而在短期内催生出极高的估值和用户增长预期,但当产品体验达不到预期,用户会毫不犹豫地离开。”
“ ToB 领域则由于企业软件的销售周期长、决策链条复杂,并且一旦部署,即使效果不佳,替换成本也相对较高,从而显得其泡沫更具欺骗性,也更慢地显现。”
如果将国内外的 Agent 泡沫现象综合起来,则又是另一番景象。
张森森解释道,“ 国内外的 Agent 泡沫表现并不相同。比如美国,其优势是在 B 端,但泡沫不在 B 端,而是在 C 端,一些通用型消费级助手类 Agent 的投资方可能来自硅谷大基金。这些机构在早期投资时,美国对数据安全还没有严格限制。但随着数据隐私法比如 GDPR、CCPA 等监管措施落地,尤其是在跨境场景下,AI的安全审核要求变高,很多竞争者被迫增加合规与差异化投入,结果加快了行业洗牌速度,把不少做通用型 APP 的企业淘汰出局。”
“ 国内的泡沫很特殊,虽然用户集中在 C 端,但泡沫几乎只存在于 B 端。原因是 B 端企业受补贴、国产化等政策影响,同时市场内卷严重,用户更注重实用性而非炒作。B 端用户相对冷静,因此很多 ToB 初创公司迅速倒闭,一些去年还在讨论的公司今年已经消失,泡沫破灭速度会很快。”
当前的 Agent 产品普遍缺陷明显,可以从产品、工程、场景等多方面理解。
产品层面主要是可靠性不足。对于为何大部分 ToC Agent 产品中,90% 的用户用一次就离开,郭炜表示,“ 这很正常,因为它还不如直接用 APP。真正的 Agent 应该比 APP 更方便、更简单。”
“ 而如果是 To B 产品,必须比现有软件更简单、准确、方便。本来用户点三下鼠标就能完成的事,现在用 Agent 却要用自然语言先说一句话,然后再跟它说十句话,才能替代原本三次点击的工作。这样的体验让人宁愿直接点鼠标。”
王文广表示,“ 换句话说,最根本的原因是,对于大多数真实世界任务,用户为验证和修正 AI Agent 输出所付出的心智成本和时间成本,超过了 Agent 本身所节省的成本。”
“ ‘ 通用个人助理 ’ 承诺的是一个科幻级别的未来。其所要处理的任务,如预订家庭旅行、管理个人财务、安排重要会议,都具有一个共同点:高信任要求。例如,用户需要确信 Agent 不会订错机票、不会泄露财务信息、不会搞砸会议时间。”
“ 然而,当前大模型的 ‘ 幻觉 ’、知识陈旧等问题和 Agent 执行的脆弱性,使得其可靠性极低。”
“ 这种 ‘ 高信任要求 ’ 与 ‘ 低可靠性 ’ 之间的巨大鸿沟,或未能稳定地跨越从 ‘ 新奇玩具 ’ 跨越到 ‘ 可靠工具 ’,是 C 端通用 Agent 无法获得用户长期留存的根本原因。用户可以容忍一个聊天机器人讲错一个历史知识,但绝不能容忍一个 Agent 订错一张机票。”
而且目前 Agent 产品有从订阅制走向按结果付费的趋势,这其实也给通用 Agent 创业公司带来了压力。 “ 这种商业模式的演进,本质上是一次风险转移,将产品无效的风险从客户身上转移到了服务提供商身上,而 ToC 的通用 Agent 的不可靠性使其极难承受这种风险。反倒是 ToB 领域,可以选择合适的场景,通过效果所创造的价值进行分成,是有利的。”
张森森从工程角度总结了许多 Agent 产品无法落地的原因:“ 第一,真实环境非常复杂,不可能像实验环境那样数据干净。现实中数据质量往往较差,接口口径不一致。”
“ 第二,很多接口需要跨系统权限访问,要做 SSO( 单点登录 ),还涉及数据脱敏,这些环节很容易卡住,导致平台间的对接受阻。工具本身存在脆弱性,比如浏览器系统自动化可能对 DOM 版本极其敏感,API 的速率限制等问题也可能导致频繁重试。”
“ 第三,存在状态和记忆缺失的问题。就像长链路任务中缺乏持久状态,上下文无法保存,状态机失效,无法接着上次任务继续,只能从头开始。”
“ 第四,缺少验证和回滚机制,没有二次校验或回滚策略。”
“ 第五,SLA( 服务商与客户之间对质量标准、性能指标等的约定 )和成本存在约束。企业使用时必须考虑成本,服务需要有保障,确保 TCO( 总拥有成本 )大于业务收益。”
“ 第六,缺乏合规与审计能力。生产过程要可追溯、可解释,并具备权限与操作流程控制。但在各个平台的演示中几乎看不到这一点,而这恰恰是企业最重要的需求。”
在场景层面,郭炜认为,这个原因可以非常简单,“ 没有真正深入到用户场景中去做。”
“ 大部分 Agent 仍是由处在特别早期阶段的创业者在推动。但真正有价值的 Agent,需要在某个业务领域有深厚积累的人或公司来做。”
张森森持相似观点,“ 实际上,国内外当前都太把技术当回事了,太关注技术使得大家在做大模型和Agent都是围绕技术来构建的。通俗来说就是,技术有什么东西,我做什么东西。”
王文广补充道,“ 当前,AI 公司往往不了解业务,业务公司则没有准确理解AI智能体技术。对 AI 方或业务方来说,都应该了解技术边界,知道智能体能做什么不能做什么,同时结合业务,才会做好这事。”
但 Agent 不只是独立地去攻克一个个场景就可以了,其带来的变革是生态级别的。
郭炜表示,“ Agent 本身是一个大的生态,就像软件或 SaaS 生态一样。未来它会形成一个完整的生态体系,只有这个生态真正建立起来,才能形成所谓的 Agentic Stack,在 Agent 时代承接并转化原有生态。”
“ 这个生态规模很大。以 ToC 的手机端为例,目前手机端还没有出现通用型APP,需要在垂直领域中出现对应的 Agent,例如类似国内的携程、小红书等级别并且更方便的Agent,才能支撑起生态的第一层。”
“ 生态的第二层才是通用型 Agent,通用 Agent 的核心在于入口,例如 Apple Intelligence 就是一个入口。”
“ 而入口之争本质是流量之争,而不是技术或产品本身。谁能够抢占新一代 Agent 的流量,谁就能在通用 Agent 领域占据优势。”
从这个角度看,似乎 Manus 的流量打法也有一定的合理性?但王显并不这么认为,他指出应用层的创业公司没有机会去抢占这个流量入口。
也就是说,创业公司无法绕过生态的第一层,直接跳到第二层,成为流量入口。“ 创业公司现有的 Agent 产品要结合到生态链中去,比如苹果或者微信的生态,再把AI能力融合进去,相当于通过 AI 对已有生态链做增强。要实现这一点,要么拥有场景,要么拥有数据。”
如果想直接跳跃到第二层生态,就会面临 Manus 当前的困境,“ 从用户视角来看,Manus 这类产品已经出现用户数量下滑、使用意愿不足的情况。无论是创业公司还是老牌公司,首先要解决的就是生存问题。产品必须有正向 ROI,要能价值兑现,且使用成本不能太高。但 Manus 的产品正好存在价值兑现不足的问题,而且时间、学习和金钱成本都过高。”
王显还认为,流量入口也不是 OpenAI 这类公司的发展方向。“ OpenAI 是创业公司,但也是大模型厂商,肯定不会去做流量入口。相比 Anthropic、Google,OpenAI 更面向大众,比如 ChatGPT、Sora 这样的产品,特征是注重体验、规模化和生态扩展。他们的目标是底层基础设施供应,同时在 C 端和长尾 B 端场景做推广。”
郭炜表示,“ 像苹果这样的公司,天然具备优势去打造移动端的完全通用型 Agent。理想状态下,用户只需说一句 ‘ 帮我订一张去上海的机票 ’,通用助手Agent 就能自动调用多个 APP 或 Agent 服务协同完成整个流程。”
“ 在 ToB 领域也是类似的逻辑,每个垂直方向的 SaaS 都会出现对应的 Agent,需要是真正意义上属于 Agent 时代的软件,之后才会出现入口级通用 Agent。否则,入口级通用 Agent 即使想做,也无法与底层垂直领域的 Agent 有效衔接。即便使用 MCP 的 Server 来连接,中间也会损失大量信息,导致结果不准确,无法满足客户需求。”
“ 现阶段应优先在垂直领域启动 Agent 落地,无论是 To B 还是 To C,都应在原有赛道中先行深耕,逐步培育生态。”
以上,我们描述了 Agent 泡沫的总体情况,可以看到,造成这一现象的根本,还是在技术受限、行业规律甚至一些痼疾的背景下,创业公司和大厂对 Agent 产品在生态中的定位有着错误的认识。
接下来,知危将对这些背景进行更加细致的阐述。
其中,技术受限包括 MCP 协议限制、AI 幻觉限制、多智能体扩展限制、上下文长度限制、大模型智能限制等。
行业规律、痼疾则指向资本炒作、大模型行业竞争的残酷规律以及国内特有的老问题。
郭炜表示,“ 关于使用 MCP Server 会导致信息损失,这一点非常重要。最终,Agent 应该采用 A2A( Agent to Agent )的协议,服务于垂直Agent之间的通信,才能完整完成任务。”
“ 而 MCP 是通用 Agent 与外部数据源之间的通信协议。当调用 MCP 时,不可避免地会将自然语言信息转换成结构化的 query 或结构化的 ADB 请求来执行操作,这一转换的准确率需要由调用方来保证。但通用 Agent 要在专业领域内准确地将专业词汇翻译成精确指令,再交由原有程序执行,在现实中非常困难。”
“ 以我们正在做的 Data Agent 为例,这项工作需要较长时间推进,因为必须自底向上完成建设。过去的数据底层通常是裸数据,例如 CSV 文件,里面是各种原始数据。未来需要将这些数据转化为带有语义的 Contextual Data Unit( CDU ),才能被上层 Agent 有效消费。因此必须了解企业所有表的字段含义及数据意义,需要非常专业的数据获取厂商来完成。”
“ 例如,‘ 消费金额 ’ 必须明确对应哪个系统、什么业务的消费金额,Agent 才能理解。否则,如果上层 Agent 仅接到 ‘ 获取消费金额 ’ 的指令,它必须再去解析并定位到 Salesforce 系统中的特定交易表及其规则。比如让 MCP Server 将请求翻译成 SQL 再下发到 Salesforce 查询数据,但它并不知道 ‘ 消费金额 ’ 在当前语境下的具体含义,是来自 Salesforce、SAP,还是其他系统。它甚至不了解 Salesforce、SAP 分别是什么。”
“ 这不仅是当前 Agent 技术无法实现的,甚至人类在缺乏上下文的情况下也很难完成。”
“ 因此,通用 ToB Agent 并不是 ‘ 在 MCP 上套一层通用 Agent ’ 就能实现的,而必须由基于 A2A 的多个专业领域的 Agent 相互协作( Agent + Agent )实现。”
“ 相比之下,提示词专业性、token 成本爆炸等都是更加次要的,会随着时间自然解决。”
Agent 还有一个永远无法解决的问题,那就是底层大模型的幻觉。已有研究证明,大模型无法从理论上完全消除幻觉。
“ 在现有大模型技术下,有许多场景尝试进行完全 Agent 化,但效果并不理想。”
“ 以自动编码为例,各种号称能够代替人类编码的工具,无论是带 Agent 的 Claude Code、Cursor,还是Augment Code等,都无法真正替代程序员的工作。无论是初级、中级还是高级岗位,都仍需配备人类程序员进行检验和监督。否则一旦幻觉出现且缺乏有效控制,风险极高。例如,近期某公司在使用自动化工具 Replit 时出现误操作,导致数据库被删除。”
“ 目前也没有特别好的方式来自动定位和追溯幻觉。在校验中,虽然无法校验所有环节,但可以抽检一两个关键点,并用传统方法或知识库进行纠错和约束。”
“ 幻觉在前期沟通阶段有一定优势,因为它可能带来一些创新性想法。但在企业落地执行阶段,应尽量控制甚至避免使用大模型。在 Agent 执行任务时,为缓解幻觉,只有借助 workflow 才能保证足够的确定性。”
“ 总之,大模型和 Agent 在目前更多是作为效率工具,显著提升了开发能力。例如,我自己现在几乎没有时间写代码,对一些新发布的 Python 函数也不了解,但大模型能够知晓并直接为我生成代码,还能解释逻辑。这样我只需验证逻辑是否正确并运行,就能快速完成任务。这种方式不仅比我亲自编写代码更快,有时生成的算法思路甚至比我原本设想的更好。”
王文广指出,思维链的幻觉其实在 Agent 产品中也非常常见,“ 这通常被称为过程幻觉,即 AI 编造了一个它并未执行或执行失败的操作过程。”
“ 它输出的不是真实的操作日志,而是它生成的一个 ‘ 看起来像是成功了的 ’ 操作日志。例如,它声称 ‘ 我已经成功运行了测试,所有测试都通过了 ’,但实际上它可能根本没有能力或权限去运行测试,或者实际测试运行失败了。”
“ 从这点也可以看出,在许多情况下, 单纯依靠大模型,存在非常多无法解决的问题。如果把所有问题当做一个平面,大模型能够解决的问题是平面上的布,无法解决的问题是孔,那么可以看到,这个平面是千疮百孔的。”
在 Agent 框架设计方面,目前领域内有一个被过分炒作的概念,那就是多智能体。
当前实际应用中,智能体之间的交互主要限于两个智能体。编程体验后来居上的 Claude Code 也没有使用多智能体协作机制。
张森森表示,“ 单智能体或双智能体已经能覆盖 80% 的企业业务场景,此外,限于双智能体也是出于成本考量。”
“ 具体来说,多智能体会显著增加复杂度,容错设计难度提升,开发、维护、算力成本更高,收益和成本不匹配。引入更多智能体未必能提升效果,同时也难以抵消延迟,并会使得系统更加不稳定。用户体验最终取决于响应速度,稳定性方面,智能体越多越容易跑偏,可能出现循环对话、信息丢失等问题,还需要额外监督和约束,复杂度会越来越高。”
“ 多智能体的案例也有,比如一些游戏公司在做 AI 团队游戏,在沙盒环境里尝试多智能体交互。但对大部分企业而言,并不需要这种复杂度。”
王文广补充道,“ 虽然在一些对协调和优化要求极高的特定领域,已经出现了更复杂的、已实际落地的多智能体系统案例,但绝大多数情况下, 应该优先解决简单的问题。”
基础模型能力方面,当前非常核心的一个限制还是上下文长度。虽然 OpenAI、Anthropic、谷歌等 AI 公司一直宣称模型上下文达到数十万、上百万 token,但Reddit 社区反馈其中水分很大,有时几万 token 输入下,模型准确率就大幅下降。
张森森表示,“ 实际体验来看,大部分厂商宣称的上下文长度确实水分很大,别说两三千行代码,甚至一千多行时就开始丢失信息了。”
“上下文长度代表了基础模型能力的天花板,特别在 Coding Agent 场景中,基本就是硬天花板的程度。”
“ 在企业内部优化这个问题不仅很难,而且也不是靠企业自己能完全解决的。可选的方案有:代码检索以及更加智能的代码检索;动态上下文管理,只加载与本次修改相关的依赖文件。但这些都治标不治本。”
“ 对资深程序员来说影响不大,他们能很快发现逻辑缺口。”
“ 但对初学者来说,一旦项目规模大,IDE 频繁加载就会崩溃。项目规模一大,就会涉及很多模块和依赖,甚至是跨模态的复杂系统。模型不得不频繁丢失上下文、重新加载信息,导致迭代过程完全断裂,忘记之前的决策,甚至可能出现重复造轮子的情况。”
郭炜补充道,“ 当前的限制不仅来自模型本身,还与底层芯片架构有关,包括显存、外部存储等都需要进一步提升。”
王显认为,在硬件基础设施的限制下,上下文长度瓶颈对于国内而言将是更严峻的问题。
“ 国外芯片比如英伟达 H100、A100 这样的高端 GPU,能够更高效地进行分片计算,处理几十万、上百万 token 上下文。同时它们也有软件层面的优化,比如 FlashAttention 工具、针对张量计算的优化配置等,这些都是通过软硬件结合来提升性能的。”
“ 相比之下,国内主要通过算法优化和软件工程做一些 ‘ 曲线救国 ’ 的工作。类似的,DeepSeek、Kimi 等团队也在发布各种上下文剪裁、分层记忆、稀疏 Attention 等方法,其实都是一些面向低成本的方案。”
“ 一些国内厂商号称自己的高端 GPU 在浮点性能、显存、宽带等各方面和 H100 很相近,但其实还是有很大差距的。国外的顶配集群,比如 H100 加 NVLink Switch,能轻松地应对百万级 token 推理。”
王文广表示,“ 实际上就是 AI 芯片的存储容量和带宽限制了推理的极限,不管是国内外都是这样的。”
“ HBM 是通用 GPGPU 最好的选择,但专用的推理芯片有很多不同的路线,比如使用 3D 堆叠的专门的 AI 芯片。
“ 国内有一些如 CiMicro.AI 这样非常前沿的AI芯片公司,和寒武纪、华为、海光等走了不同的路线,将 3D DRAM 用于 AI 推理芯片上,如果成功流片,带宽能够得到极大的提升,比英伟达用的 HBM 还高一个量级,从而大模型的推理速度将得到极大的提升,长上下文和深度思考则会对 Agent 有极大的促进。”
除了上下文长度之外,更大的限制,自然来自基础模型的智能极限了,特别是近期被诟病平庸的 GPT-5 发布后。
客观来看,GPT-5 的更新点是在产品层面,把幻觉降得特别低,这在消费级用户看来不太友好,但对编程来说非常有用,可靠性很高。对于专业用户而言,有时甚至比 Claude 4 还好用一些,因为 GPT-5 在 Agentic Coding 中倾向 “ 精准定位问题 ” 和 “ 最小侵入修改 ”,而 Claude 4 自主性更强,写的代码更复杂,需要特别提醒才会选用最简方案。
那么,从这个角度看,一直以消费级用户为主体的 OpenAI 未来是否想更多向 B 端推进?
张森森表示,“ 如果是,那也是不得已而为之。现在 GPT-5 是通过多模型路由来提高上限,基本意味着大模型的 Scaling Law 几乎已经失效,单模型上很难再高效提升。其实 GPT-5 的发布本身就有点 ‘ 难产 ’ 的意味,更像是一种形式,而不是自然的过程。未来基础模型能否进一步进化,还需要观察。”
“ 这也是为什么大家都在强化 Agent 能力。相比基础模型,Agent 的可解释性相对更好一些,能更好结合具体业务场景去提升实际能力。但基础模型往往也决定了 Agent 的上限。”
“ 后面大模型的走向可能更多会朝垂直方向发展,参数量未必再无限增大,而是聚焦在更细分的场景。”
大模型厂商经常在营销中刻意忽视模型当前的智能上限,而过分强调可以放心地依赖大模型全权执行工作,比如 Claude 甚至介绍了一种简单粗暴的使用经验,他们内部用 Claude Code 写代码的时候,有一个原则就是 “ 不行就重来 ”。
王文广表示,“ ‘ 不行就重来 ’ 的策略,跟金钱和时间等无关,跟解决问题的复杂程度有关。简单来说,在原型探索阶段或者简单的应用中,是一种有效的捷径,但在严肃的、可维护的较为复杂的生产环境中,这是一种不可持续且极具破坏性的工作模式。”
对于基础模型本身,王文广则认为还会继续进步,“ 整个 Agent 生态系统,也都在等待基础模型的下一次重大突破。一旦新的、更强大的基础模型出现,它将立刻抬高整个 Agent 生态系统的能力天花板,催生出新的应用。”
来源:知危