对话开为杨通:未来80%工作流将由Agent自动编排|《AIBX TALK》

B站影视 日本电影 2025-03-28 19:07 1

摘要:其次在需求层面,垂类场景中提供的Agent应用服务得到了客户的认可后,便又产生了新的需求,希望能够把Agent应用形式从定制化、垂直化的场景进一步扩展到通用场景中;

大约10年前,开为科技开始聚焦AI视觉识别(机器视觉)方向,将AI技术应用于人脸识别、商品识别等场景,并服务沃尔玛、全家等零售行业客户。

而最近两年,他们开始了Agent应用在企业服务场景中的探索。这种转向并非空穴来风,曾师从两位图灵奖获得者的开为科技创始人杨通认为主要有三个原因:

一方面,从Transformer架构升级之后的AI,从早期的“工具”属性转变为了可以进行自主决策的Agent属性,在能力层面上有了巨大提升;

其次在需求层面,垂类场景中提供的Agent应用服务得到了客户的认可后,便又产生了新的需求,希望能够把Agent应用形式从定制化、垂直化的场景进一步扩展到通用场景中;

最后,在今年的DeepSeek+Manus完成了两次重要的行业认知教育之后,市场各方对Agent应用的关注度大幅提升。

在这样的多方面因素影响下,我们也看到了当前通用型Agent、Multi-Agent等技术理念的逐渐落地。那么,在这样的行业洞察下,开为科技接下来会怎么做?而需求端的企业和个人用户,又该如何适配Agent应用落地、能够获得怎样的价值提升?

以下为本期《AIBX TALK》核心内容整理

后附视频访谈精选内容视频

或查看AIBX视频号直播回放

AIBX Nick:我知道你们很早就开始做AI应用的落地了,可能最早是AI视觉识别这方面?可以先简单介绍一下,包括是怎样转向到Agent应用这个方向的?

开为科技创始人 杨通:我们是在2015年左右开始做AI视觉相关的应用,当时叫作“机器视觉”,比如说人脸识别、商品识别的应用场景。后来也被一些比较大的企业选用,比如说沃尔玛、全家等等。

从2015到2025,这十年间对AI的定义发生了很大变化。原来的AI更多是个工具,现在从Transformer架构升级之后的AI则更偏向于Agent——一个自主决策的智能体。

在这个过程中,我们在零售媒体的领域中也做了很大的AI能力升级,这个升级也不仅在机器视觉层面,也包括比如流程管理(Campaign Management)、营销内容生成、数据治理和BI(Business Intelligence)等几个模块。

在去年,我们面向零售媒体领域开了一个发布会,把这几个环节的能力组合在一起、称为Marketing Agent。这是我们很重要的一个转型,从最开始的机器视觉转到Marketing Agent。

但是当我们开始思考Agent应用的时候,这个概念还没有那么火。直到去年下半年,包括英伟达、微软,YC(Y Combinator )都在说Agent可能会颠覆所有的SaaS行业。

我们也发现所做的事情其实不用只局限在Marketing领域,完全可以放在更加通用的场景里,这也是我们很多客户提出的需求——既然有这样的能力做这个流程管理,那么完全可以把这个能力用到工业、教育等比较通用场景里。

所以从去年底到今年初,我们花了很多时间把这些能力做通用化,把定制化、垂直领域的Agent,向通用型Agent转型。

我们在今年2月发布会上发布的产品以及核心的能力,比Manus更早了一些,但是Manus还是做了一次比较大、关于Agent应用的市场教育。

AIBX Nick:所以Manus是在哪些层面改变了我们对Agent应用的认知?

开为科技创始人 杨通:在Manus之前,比较火的AI Agent搭建产品比如有Coze、Dify。但是后来的Manus创造出了市场对Autonomous Planning的新共识,完全改变了整个行业对于Agent的认知。

如果说DeepSeek完成了对大语言模型的认知教育,那么Manus则是做了一次对Agent应用的市场认知教育。

AIBX Nick:就是说在2024年或更早以前,Agent的这个概念认知或应用,其实还是在开发者这一端。而今年的Manus是让Agent应用形态在市场用户这一端有了更深刻的认知。所以说2025年是Agent元年,你对这个元年的概念怎么理解?是到了2025年,这个技术足够成熟了,还是需求足够明确了?

开为科技创始人 杨通:首先它是建立在一个stepwise的进程中,在一步一个台阶地发展。如果整个市场对于大语言模型都不理解的话,那么就更不会理解Agent。因为Agent的基础就是大语言模型。

去年的时候,虽然我们的行业中已经有很多人理解什么是大语言模型了,但当时市场端是不理解的。就算OpenAI的ChatGPT在海外获取了足够多的流量,但海外市场其实仍然没有得到充分的教育。

直到今年春节期间DeepSeek这一波浪潮,所有人都才开始讨论,甚至连不会说英语的人都能拼出DeepSeek。我觉得目前国内是全世界最了解什么是大语言模型的市场了。

在这个基础上,我们才可以谈未来的Agent的应用机会。因为Agent应用是有了这一波大语言模型的市场教育之后,大家才有机会去思考的。

这段时间可能大家也都在部署DeepSeek,我们公司也有很多这样的订单,包括如何部署、如何做微调、如何建立知识库等等。但这些事情做完之后才发现,如果要想完成端到端解决方案的话,光靠一个大语言模型是不够的。所以对于Agent应用的需求就“横空出世”了。

其实Coze和Dify去年在开发者领域确实很火。

原因在于,两个产品的核心功能是做人工的流程编排,有点像原来RPA 的流程搭建。唯一的区别是,原来做流程管理的每个环节是写死的,而现在做流程管理,每个环节是自主决策的。所以这是Coze和Dify在原来RPA基础上做的一个很重要的创新。

但是今年又有了新的变数,Manus给出了一个新的方向,即所有的流程编排都不用人工去做了,都可以用大语言模型自动完成。你只要定义我的输入是什么和我的输出是什么就可以了。

当然这样的解决方案也有它的局限性,但还是引发行业产生了新的认知。

AIBX Nick:可以理解为Manus是把之前像Coze这类应用场景中,需要人工进行流程编排和管理的环节给“黑盒”化了、完全由不同的Agent之间进行自动排布。目前在国内大家可能都管自己叫Agent应用,现在还有Agentic AI这个概念,有没有必要去统一去定义一下Agent究竟是什么,目前具备哪些特点才能被称为Agent?

开为科技创始人 杨通:首先我觉得Agent基本上核心是大语言模型,外部有一个知识库记忆的概念,包括长期记忆跟短期记忆;其次就是包括工具使用的能力,以及Prompt规范这几个模块。基本上这个Agent就已经定义完了。

一个Agent应用里面可能包含很多个Agent,面向不同的方向去深化不同的能力。有的专门研究Write,有的专门研究Planning,有的专门研究Execution,有的专门研究 Reflection,有的是专门研究搭建底层的Framework等等。当然很多现在不是特别懂Agent的公司,说自己是Agent,这是有蹭热度的嫌疑。

其实你刚刚提到“黑盒”,我个人认为不一定算是。一个Agent应用内部的Agent之间是如何编排(任务)的,可能并没有展示出来,但是这个整体应用过程中的每一步流程都是可以充分展示的。系统会很清晰地告诉你第一步准备做什么、第二步准备做什么。

AIBX Nick:我们会看到,最开始说的AI模型,其实只是一个通用的大语言模型,后来发展到逐渐具备了推理能力。而目前的Agent应用,是经过二次开发的,可能接入了某个模型的能力。如果AI模型继续这样发展的话,有没有可能大模型本身最后就是一个Agent系统,然后就被称为Agentic AI?

开为科技创始人 杨通:我觉得这是个非常专业的问题,也是非常好的问题。从应用视角来看,我们有句古话叫“三个臭皮匠,胜过诸葛亮”。如果一个大语言模型的能力真的和诸葛亮一样(能力顶尖),那么可能也不需要Multi-Agent这样的体系。

但如果模型能力还没有强大到那种程度的话,其实用三个臭皮匠是真的有可能替代掉一个诸葛亮的。更何况在实际应用中,还要兼顾成本的考量。

举个例子,如果这个Agent应用的所有能力都靠大语言模型的话,那么我们要考量的问题可能就会包括它的上下文记忆能力是否能够容纳所有应用流程中的环节,在出现问题的时候是否能在基于它的上下文记忆能力去找到。

如果因为对语料的压缩导致上下文记忆丢失,那么此时更好的方式还是通过Multi-Agent体系来实现,让不同的Agent只负责记忆各自流程中的环节,然后进行协作。

AIBX Nick:这个问题的背面是,会不会有一些应用开发者,由于大模型能力的提升而被淘汰掉了。比如我们提到的Coze,可能当时的模型能力是那样的,所以才有那样的产品形态。现在大模型能力的发展速度相对于前两年稍稍有点放缓,是不是说我们现在做Agent应用的时间窗口还相对充裕一点?

开为科技创始人 杨通:首先肯定得与时俱进。比如我们在今年2月份发布的产品中,也包含了一些工作流手动编排的能力。基于我们当时对应用场景的理解,有80%的场景是需要人工进行流程编排的,需要进行自动编排的场景只占到了20%。

前面提到,现在我们有了新的行业共识,所以我们公司也做相应的调整。因为我们认为未来用到自动编排的场景会占到70%~80%。

其次,我觉得Multi-Agent应用的场景,在很长一段时间内很难因为大语言模型能力提升而被替代。

比如在原来的大模型能力基础上,一个Multi-Agent系统相当于三个小学生的能力,那么在基础模型能力提升后,Agent能力也从小学生升级成了初中生。能力越强,整个系统能解决的问题也会越来越难、越来越复杂。

模型能力继续不断提升,我们也可以出现三个“诸葛亮”。如果蜀汉时期有三个诸葛亮的话,说不定历史都要改写了。

AIBX Nick:我们现在整体对Agent应用的认知还是相对比较浅的,也会有一些声音,认为Agent就是RPA+大模型,或者说本质上就是一个高级版的chatbot。我们现在该如何看待这个问题呢?是各有各的应用场景,还是说技术能力有限、只能做成这样?

开为科技创始人 杨通:我觉得每个公司的起点不同,有些之前是做RPA的,有些原来做Chatbot。

我举个海外的案例,比如说stack overflow。假如你写代码出错了,你可以在这个应用里搜索下错误信息,然后就会有不同的人来帮你解答,相当于是一个能帮你解决代码问题的社区。

其实现在已经没有这个场景了。有任何的代码问题,如果你还没有用cursor这样的工具,那就把这些错误信息放在ChatGPT里,它就能很清楚地告诉你错误在哪里,要怎么调整。

现在类似的场景还有很多,比如之前做RPA的公司,我觉得可能是最会被Agent替代的。像这类公司,都要应对一个很重要的课题,就是怎么能在AI时代生存。

我认为所有人都要重新回顾他原来做的事情是否有价值。每一个能力,只要是跟软件相关的,跟工具相关的,都会被颠覆掉,或者被调整,只是时间问题。

AIBX Nick:我认为AI改变的是我们和信息的交互方式。哪部分职业或分工最容易被AI替代掉?如果这个岗位平时是跟信息打交道比较多的,比如和代码、数据打交道,或者和图片打交道,那这类分工是有很大的概率会被替代掉的。但反过来,如果平时是跟人打交道,或跟一件事情打交道,那它受到影响还是相对要小一点。那你们正在做的Agent应用,面向哪一部分客户,或哪一种场景?

开为科技创始人 杨通:我们在未来几个月会有几场发布会,我可以先做一些方向上的分享。目前我们其实还没有特别明确去区分到底是做ToB还是做ToC。

直到今年2、3月份以前,我们都认为只要把ToB做好就可以了,不论是过去做的Marketing Agent,还是做一个ToB的Agent平台。

但是最近我们又产生了很大的变化,因为整个市场、行业环境发生了很大变化。现在看来,我们认为C端其实有巨大的机会,我们也在思考怎么参与。


而且我觉得C端的机会,海外也会比国内更加清晰,有几个核心原因。首先,海外用户相对来说更“值钱”一点。在国内,同样获取达到垄断级别的用户量,公司的估值可能只有在海外的10%或1%。

其次,国内C端应用的变现路径还是在互联网逻辑里面,导致现在很多好的产品是没有收费的。

但从我自己的使用场景来说,我认为只要产品做得足够好,消费者还是愿意付费的。

当然还有另外一个逻辑,我觉得国内可能更好切,就是所谓“大C小B”大C就是所谓的Power User,就像我这样每个月会花1000块钱在这类产品上。因为我觉得这1000块钱是值得的。

“小B”就像全国有很多小的创业公司,他们也很愿意为产品和服务付费。因为AI的价值对于一个小团队来说,是比个人更大的,包括像OpenAI也都推出了团队版本。

AIBX Nick:如果作为一个企业去引入Agent,目前有哪些场景是比较适于落地Agent应用的,有哪些场景是被过度高估了?

开为科技创始人 杨通:首先,我觉得基本上每个企业都需要Agent。至少我还没有看到哪个企业明确说他可能不需要用到Agent。

因为Agent就是大语言模型显象化的一个能力。毕竟大语言模型只是相当于一个大脑,一个中心处理器。它所有和外部世界的交互都需要靠Agent这个触角来触达每个端到端的服务。

有些场景可能对Agent的要求是更高的,因为我们所谓的Multi-Agent场景其实是一个团队协作的场景。只要跟复杂流程相关、需要团队协作、需要长期记忆、不是一个单人能解决问题的场景,对Agent的依赖就会比较大。

举个例子,比如我们有一个客户场景是需要20个工程师,花两个月时间调研各种材料,写一个报告,而这种报告他们每年要写6篇。你可以算一下,成本可能都是过千万级别的。

这样的场景比较适用于Multi-Agent应用,当然对它的多模态能力,以及长期记忆能力的要求也很高。

AIBX Nick:如果要引入Agent的话,客户的组织架构需要做哪些调整?

开为科技创始人 杨通:关于组织架构,我一直有一个想法,就是Agent和人之间的关系是平等的,人在团队中的作用可能相当于Human Agent,对应的是AI Agent。

人和AI并不一定是谁在管理谁的问题。比如在一个群聊里,和你聊天的可能有三个是机器人,虽然你也在参与聊天过程,但你并不一定就能比别人更有话语权,你们是完全平等的关系。

未来,如果完全进入Agent时代的组织架构,我觉得最核心的是流程的制定者。这个角色有可能是人,也有可能是AI,并且这个角色要能在这个组织架构的定义里面,让AI和人进行有机地结合。

AIBX Nick:所谓的碳基生命加硅基智能的混合编制。

开为科技创始人 杨通:对,是这个意思。

AIBX Nick:那企业引用Agent之后,怎样去评估ROI?

开为科技创始人 杨通:要看原本需要的人、再加上AI Agent之后,人员成本是不是能下降了。或者说解决同样复杂的问题中,人工的占比是否可以下降了。因为AI Agent的成本肯定要比Human Agent要低的。

举个例子,原来我们公司的设计师一天能设计五张海报左右。现在我们通过各种算法、提示词的优化等,这样的一台服务器每天可以生成八百张图。

当然不会每张图的质量都能超过人工设计师,但其中可能有一半以上的内容是可以达到人工标准的。

这个效率完全不可同日而语了,没法做很客观地评估,因为它可能是十倍、百倍甚至更高的效率提升。

AIBX Nick:最后给你们要发布的产品做个简单的预告,比如适合有哪类需求的用户或企业关注?

开为科技创始人 杨通:我们4月份会发布一版全面对标Manus的产品。

AIBX Nick:这个不用预约吧?

我认为现在所有做Agent的团队,先复刻出Manus是一个必须过的关,就像想离开少林寺,必须得打败十八罗汉一样。所以4月份我们希望大家能体验一个比Manus更Manus的产品。

到6月份,我们会发布一个很重磅的产品,就像我刚说的,是一个给“大C小B”使用的产品,是改变了很多互联网用户使用习惯的产品。我认为在场景、商业模式的理解和能力聚合上,会超越现在所有AI应用的一个产品,会掀起一波比Manus更大的浪潮。

来源:雷霆战神王

相关推荐