从L1到L5:没有人知道,到底什么是Agent,你凭什么被收割?

B站影视 港台电影 2025-04-09 10:39 3

摘要:有数据显示,在2025年初回望2024年,美国ToB企业调研中,高达94%的企业对AI服务提供商不满,仅6%表示满意,这一现象映射出行业的诸多问题。

今天,我们聚焦 “没有人知道到底什么是 Agent” 这一主题。当下,AI领域的发展错综复杂,相关概念令人眼花缭乱。

有数据显示,在2025年初回望2024年,美国ToB企业调研中,高达94%的企业对AI服务提供商不满,仅6%表示满意,这一现象映射出行业的诸多问题。

与此同时,机械工业出版社推出《Manus极简入门》,在行业前景不明朗时,相关书籍的出现,凸显出一种矛盾,恰似当前行业冲突与对立的写照。

此外,中国头部AI模型公司智谱推出 “AutoGLM 沉思” 这一类似Deep Research的AI Agent产品,对于不熟悉AI行业的人,其中的专业词汇令人一头雾水。

这也反映出行业概念泛化、理解割裂、边界模糊的现状,公司内部技术与市场团队相互不理解的情况更是屡见不鲜。

OpenAI定义的AGI发展路径包含 L1 聊天机器人、L2 推理者、L3 Agent、L4 创新者、L5 组织者。目前,全球头部公司大多处于从 L2 迈向 L3 的阶段。

早期AI基于规则,历经机器学习、神经网络,直至Google的Transformer架构引发热潮,随后GPT3及ChatGPT的出现将AI探讨推向高潮,我们由此进入 L1 的通用大模型时代。

通用大模型突破了场景限制,区别于上一代聚焦单一任务的AI模型,如AI四小龙多集中于视觉安防领域。

为了从 L1 进阶到 L2,人们在大模型基础上进行探索。因输入受限导致输出有限,故而引入COT(思维链),并在训练方面从预训练转向后训练。

实践证明,仅针对结果做激励,结合简单情境学习即可实现 L2。在此过程中,“更少的控制,更多的智能” 成为共识,类似阿尔法狗从依赖人类棋谱到通过强化学习实现自我超越。

DeepSeek基于基础模型V3的强化学习实践,先推出可用性欠佳的 Zero 版本,经改进得到 R1,并将该方法应用于拉玛和千问,提升了它们的性能。

回顾这一历程,我们形成两个重要共识:一是追求通用,打破场景边界,尽管初期通用模型并不完美;二是强化学习中减少干预,仅对结果激励,从而达成 L1 与 L2。然而,L3 是否仍遵循这些共识,尚待探讨。

模型如 GPT3、GPT3.5,产品以 ChatGPT 为典型。过去两年多,行业发展依赖资金与 KPI 投入,巨头们持续加大投入以追求更好的模型。

在产品层面,DALL・E 的爆火表明模型应用的重要性,其智能加开源的模式引发思考:AI 时代,产品与商业模式创新是否逊色于智能创新?

李霞老师 “能力未收敛,谨慎做应用” 的观点,在GPT - 4新图像能力取代众多创业公司成果的事件中得到印证。创业公司基于大模型构建能力,却常被大模型的发展冲击。

随着 AI 产品深入发展,普通人面临的情况愈发复杂。以智谱的AutoGLM沉思版为例,产品实现与功能并不理想。

Manus

Manus从用户与产品角度提出 “看见” 的概念,即用户期望看到Agent规划(展示 to do list)、执行(如打开网页、编程整理)、归纳以及完整交付成果。

秘塔搜索将长内容转换为互动网页时,向用户展示代码滚动与进度条的过程,正是 “看见” 的体现。

从开源技术到可用产品,差距巨大,“424” 原则指出基础研发仅占2,需求确定、产品边界与运营推广更为关键。

美国 “Enterprise Tech 30” 榜单显示,AI native公司比例急剧上升,且产品增长形态中,非技术导向的 PLG 公司占比呈小幅度增长。

但头部厂商对 Agent 的定位模糊,如 OpenAI 的Deep Research是面向研究的端到端新模型,并非普通产品,这使得 Agent 的定义与性质亟待明确。

行业对 Agent 的理解犹如盲人摸象,缺乏统一、明确的定义,多基于特征描述。AI 在游戏领域的应用便是例证,虽然 AI 早已应用于游戏(如机器学习、脚本等),但这一代大模型在游戏行业表现欠佳。

在实况或 FIFA 游戏中,队友和敌人的行为体现出 Agent 特性,吃豆人游戏中敌人的规则也是 AI 的一种,但这些是否属于 Agent 尚无定论。

在早期 YC 项目整理中,Agent 相关项目已成为第七大分类,当时虽达成一定共识,但因其项目间差异性小,代理实现方式多样(如录屏、拖拽、工作流等),引发对其是否为中间态解决方案的质疑。

由于模型能力不足,过去几年行业借助各种 “花活” 来弥补,如工作流等,但工作流难以穷举,限制了 Agent 的边界与场景。

从 L1 到 L3,行业发展呈现出从简单到复杂、再回归简单又走向复杂的过程。当前对 Agent 的普遍共识是具备记忆、规划、工具调用和行为记忆能力。

然而,在实现过程中,面临上下文长度超标、工具调用权限、数据安全等诸多问题。同时,大语言模型在游戏领域落地困难,凸显出从语言到行为转变的迫切性,这也是从 L2 迈向 L3 及更高阶段的关键。

CB Insights 发布的 AI Agent 行业地图将其分为三层:Infer 基建层、水平工作层(涵盖软件开发、数据分析等 Agent)、垂类 Agent 层(针对法律、游戏等行业)。

当下,通用模型厂商纷纷布局 AI Agent 开发工具与平台,构建生态。美国科技巨头与国内大厂均参与其中,通用 Agent 看似成为大厂与模型厂商的机遇,但Manus的定位又显得格格不入。

在模型与应用方面,ChatGPT 等大公司引领潮流,有人指出模型即应用的难度。投资上,早期集中于专业 Agent 领域,或因通用 Agent 被大厂占据。

垂直行业 Agent 在美国有待发展,类似早年 ToB SaaS 行业的波折。基建层的不完善促使相关项目大量涌现。

如搜索层服务提供等问题引发关注,MCP 因专注基建设施尤其是工具调用而备受讨论,OpenAI 也发布 Agent SDK 并兼容 MCP。

在此过程中,Browserless等公司受益,Browserless 能让 Agent 调用浏览器功能,于3月22日获1700万美金融资,BrowserBase则成为 “Enterprise Tech 30” 早期公司榜单榜首。

在产品定价方面,OpenAI 采用分级定价,从免费到2万美金每月不等。Manus也推出两档定价,通过积分制让用户按需消费,这使用户需谨慎权衡任务价值与花费。

Epoch AI 发文指出,AI 的价值更多源于自动化而非研发,未来专注于普通工作任务自动化的人工智能实验室可能更具商业价值。

回归现实,尽管媒体盛传 Agent 的强大,但实际上面临推理成本高、复杂环境适应性差、用户不信任、交互体验待创新等问题,这便是当前 AI Agent 领域的真实写照,在迷雾中探索前行,诸多问题亟待解决与突破。

来源:波波百谈

相关推荐