没有人明白到底什么是Agent,当下AI行业认知:盲人摸象

B站影视 港台电影 2025-04-03 14:32 1

摘要:25年开年以来,业界对于Al Agent(人工智能代理)的讨论尤其多,可当深入了解后,就会发现大多停留在概念层面,落地举步维艰。哪怕引入Manus机制,情况也未见好转。

25年开年以来,业界对于Al Agent(人工智能代理)的讨论尤其多,可当深入了解后,就会发现大多停留在概念层面,落地举步维艰。哪怕引入Manus机制,情况也未见好转。

虽然AI成为当下最热话题,但没有人知道到底什么是Agent,反映出当下对Al Agent的迷茫。

下面,通过几个小故事,看看Al Agent所处的行业环境。

美国ToB企业调研数据显示,2025年初回顾2024年,94%的企业对AI服务商不满意,仅6%满意。这和群像大课遇冷相互印证,说明AI在实际应用中,与企业期望差距很大。

随后,中国头部AI模型公司智谱推出AutoGLM沉思Al Agent产品。但对非专业人士来说,产品名里的专业术语让人一头雾水。

这反映出AI行业概念泛滥、从业者与用户沟通不畅的问题,企业内部技术团队和公关团队也常相互不理解。这几个案例表明,AIagent落地困难重重。

OpenAI将AI发展分为L1-L5五个阶段,分别是L1聊天机器人、L2推理者、L3Agent、L4创新者、L5组织者。当前,全球头部公司大多处于从L2向L3过渡阶段。

回顾AI发展历程,从早期基于规则研究,到机器学习、神经网络,再到Google发布Transformer架构,AI迎来快速发展。

2022年GPT3问世,年底ChatGPT引爆AI热潮,我们进入L1阶段,获得通用大模型,打破了单一领域的限制。

进入L2阶段,思维链(COT)等技术发挥重要作用,通过复杂输入刺激大模型产生复杂输出。训练从预训练转向后训练,实践证明,仅对结果激励,配合简单强化学习就能实现L2。

DeepSeek基于基础模型V3强化学习,推出DeepSeek-R1的Zero版本,后经优化得到R1,并应用到拉玛和千问模型,提升了它们的性能。

从AI早期到L1、L2阶段,形成两个共识:追求通用能力,打破场景边界;通过强化学习,减少对模型的干预,仅对结果激励。迈向L3阶段时,这两个共识是否依然适用,值得探讨。

以GPT3、GPT3.5为代表的是模型,ChatGPT则是产品。过去两年多,行业靠加大资金投入提升模型性能,头部科技公司投入持续增加。在产品层面,DeepSeek爆火时,产品形式并无创新,核心是智能加开源。

这让人思考,在AI时代,产品和商业模式创新是否不如智能创新重要?

近期,GPT4发布新的图片生成功能,“吉卜力风格”照片在社交网络走红。大模型一次更新,可能取代创业公司长期投入的算法和模型,这说明创业公司过度依赖大模型存在风险。

随着AI大模型产品发展,产品变得越来越复杂。以智谱的AutoGLM沉思版为例,产品实现和功能并不理想。从用户和产品角度看,Manus的“看见”理念很重要。过去使用ChatGPT看到机器吐字、使用DeepSeek-R1看到模型推理过程,这种直观体验成了产品设计范式。在L3阶段,用户期望看到Agent的规划、执行和归纳过程。

秘塔搜索新功能也体现了“看见”的重要性,搜索答案转换为互动网页时,展示HTML代码滚动和进度条,让用户了解转换过程。

从开源技术到可用产品,差距巨大。美国“Enterprise Tech 30”创业公司榜单显示,AI Native公司比例上升,产品趋势抬头,非技术导向的PLG公司占比也在增加。但头部厂商对Agent理解有差异,OpenAI的深度研究(Deep research)是面向研究的端到端模型,这让我们对Agent究竟是模型还是产品更加困惑。

用“盲人摸象”形容当前行业对AI Agent的讨论很贴切。不同人对AI Agent理解不同,难以形成统一的定义。

在游戏领域,AI早已应用,如足球游戏和吃豆人游戏中的AI元素。但这些算不算AI Agent呢?

从2023-2024年初的YC-AI项目看,AI Agent相关项目已成为第七大分类,当时模型能力有限,项目实现方式多样。

随着行业发展,从L1到L2再到L3,经历从简单到复杂、再到简单又到复杂的过程。L1阶段认为自然语言就行,后来发现需要提示词工程和思维链;L2阶段提示词重要性降低,为实现L3又引入Workflow,但从逻辑上讲,L3可能不应依赖workflow和限制场景。比如,GPT4更新图像生成功能后,有人认为其可通过自然语言完成复杂图像生成工作流。

目前,对AI Agent的共识逐渐收敛。2022年底ChatGPT发布后,2023年是模型竞争年,2024年应用年效果欠佳,2025年需新突破,ToB市场也期待AI落地。通用仍是行业追求的目标,场景化和垂类应用也有空间。实现AG需要端到端训练,强化学习和推理是基础,但实际应用中存在上下文长度超标、外部工具调用困难等问题。

目前对AI Agent普遍描述有四个特征:有记忆、有规划能力、能使用工具、有行为记忆。大模型发展中,上下文长度内卷问题一直存在。推理模型出现后,计划制定变容易,引发对AG的新讨论。在工具使用上,当前工具生态丰富,重点是解决现有工具的调用问题。从语言到行为的转变,是从L2到L3及更高阶段发展的关键。

CB insights发布的AI Agent行业地图,将Agent行业分为基础层、平台层、应用层。

通用模型厂商,如美国的七姐妹、OpenAI,以及国内的腾讯、阿里等,不仅提供AI Agent服务,还打造开发工具和平台,构建Agent生态。这似乎说明通用Agent是大型厂商的发展方向,Manus等产品的定位因此值得思考。

在模型应用方面,ChatGPT、微软Copilot等公司处于领先地位。

有学者认为,能做好模型应用的公司不多,因为这需要高留存和高时长的软件支持。从投资角度看,早期投资主要集中在专业Agent领域,通用Agent领域被头部公司占据,垂直行业的Agent在美国仍有待发展。

基础层基建不完善,催生了大量相关项目。比如,DeepSeek和Kimi使用推理模型时的搜索服务由谁提供,就是问题。所有头部厂商都想把Agent打造成平台,近期MCP讨论增多,就因为它专注基建设施和工具调用,OpenAI也发布了Agent SDK并兼容MCP。

一些公司在这一领域取得成功,如Browser Use,3月22日获得1700万美金融资,Browserbase是“Enterprise Tech 30”今年早期公司榜单第一名,专门为Agent提供访问网站所需身份。

在AI Agent讨论中,边界不清晰的被称为Agent,边界清晰后就不再叫Agent,比如AI搜索、AI代码编程等。这说明AI Agent概念缺乏明确界定,和曾经的元宇宙概念一样,看似包罗万象,实则难以定义。

此前,网上流传微信Agent相关截图,声称微信将推出Agent,以IMA为雏形,开放多种权限。但这大概率是假消息,IMA由CSIG开发,微信不太可能将其作为中枢,且微信数据涉及大量个人隐私,调用存在难题。不过,小程序可能是微信Agent未来的实现方式,微信肯定会探索,但实施和节奏把控将考验微信团队。

对于想在AI Agent领域发展的公司,有很多问题值得思考,比如是否需要大一统入口、输入方式是否只能是自然语言等。这些问题难以马上回答,最终可能要通过收入和AR数字评判项目价值。目前AI模型产品定价多为20美金一个月,AI Agent时代是否延续这一定价模式有待观察。

Epoch AI发布文章指出,AI价值更多体现在自动化方面,专注自动化普通工作任务的人工智能实验室可能更具盈利性。现实中,AI Agent推理成本高、用户信任度低,还有很长的路要走。

来源:波波百谈

相关推荐