摘要:1月24日,OpenAI发布了首个AI Agent产品Operator,凭借能够为你订机票、点外卖的功能,再次引发国内外媒体的关注。
1月24日,OpenAI发布了首个AI Agent产品Operator,凭借能够为你订机票、点外卖的功能,再次引发国内外媒体的关注。
没过多久,知名的AI搜索软件Perplexity也推出一款Agent产品,能在安卓手机上自动调用其他APP,做类似的事情。
1月23日,王煜全在直播中和大家分享了AI产业最新趋势,提到2025年Agent会最热门的赛道,直播结束Agent之争的序幕已经拉开。
今天我们为你详细梳理一下Agent是什么?为什么OpenAI的Agent是个产业信号?
1.Agent究竟是什么?
在探讨OpenAI的最新产品之前,我们有必要了解一下Agent是什么,以及这个技术概念的发展历程:
Agent今天成为AI领域的热词,但这个技术概念其实已经存在并演化70年以上。
早期理论阶段(1950-1990年代)人工智能概念诞生之初智能代理(Intelligent Agent)的概念就已经出现了,1959年由Selfridge在论文中正式提出。
最初的Agent指能够感知环境并作出反应的计算机系统,这个阶段Agent主要停留在理论研究层面。
本周王煜全直播PPT报告,加入特训营立刻获取
软件代理时代(1990-2010年代)随着互联网的发展,出现了第一代软件Agent,比如自动化爬虫、邮件过滤器等,能够按照规则自动完成任务的系统成为当时的Agent产品。
这一时期的Agent在今天看来就是固定规则执行的软件,并没有真正的智能。
智能助手时代(2010-2022年)Siri、Alexa等智能助手的出现,让Agent又迎来一轮小的炒作,借助早期的语音识别技术,IT产品具备一些简单的自然语言交互能力,有了看起来更加智能化的Agent能力。
但这个阶段的Agent仍然局限于简单的指令执行和信息检索。
AI大模型驱动的Agent革命(2022年至今)2022年底,AI大模型的突破,为Agent带来了强大的理解能力和推理能力。
这次Agent开始能够处理复杂任务,理解上下文,并做出相对智能的决策,通过一些框架设计也有了类似反思的能力。
Agent从单纯的程序逐步演变为具有一定自主性的智能体。随着OpenAI等公司的新产品发布,我们正在进入Agent的实用化阶段。
2.OpenAI的Operator
OpenAI的Operator,被官方定义为“能够为你执行网络任务的AI智能体”,是一款具备高度自主性的智能系统。
用人话说,Operator可以自动执行用户的任务,例如订购食品杂货、预订航班、填写表格。用户只需向 Operator 发出指令,它就能理解用户的意图并执行相应操作。
Sam Altman参与演示Operator订餐
Operator 的核心技术是 CUA (Computer-Using Agent) 模型 。CUA 结合了 OpenAI 的多模态 GPT-4o 大型语言模型和强化学习技术,使其能够像人类一样“看到”和“操作”计算机屏幕 。
为了提高安全性,Operator 将通过内置浏览器访问网站,并使用虚拟鼠标和键盘执行操作 ,定期截取屏幕截图,以检查任务执行情况 。
目前,Operator在美国面向ChatGPT Pro用户开放,该功能OpenAI也正在与DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack和Uber等公司合作,确保Operator能够真正帮助用户完成任务。
3.Operator会引领Agent变革吗?
很多媒体和用户看到Operator就认为OpenAI又要掀起新变革,但在我们看来这只是产业爆发的重要信号,而且OpenAI能否引领Agent变革也是个未知数。
首先,Computer-Use的Agent范式并非OpenAI首创。Anthropic在2024年10月就推出了自家的Computer Use范式。
Anthropic的Claude 3.5 Sonnet模型,在经过相应的软件设置后,已经能够按照用户的指令移动鼠标、点击相关位置,模仿人类与计算机交互的方式。
其次,Operator的真实性能离可用还有很远的距离。从OpenAI官方公布的测试数据看,最高的准确率也只有87%,技术上确实有巨大进步,但远未达到自动为你完成任务的程度,肯定经常会出错,让用户介入管理,甚至重新来过。
OpenAI官方也提到Operator的应用有很多困难,面对日历这样花花绿绿复杂界面出错率很高,一些网站阻止了 OpenAI 的网络爬虫,导致 Operator 无法访问这些网站 。
最后,Operator真正的价值是让更多开发者有机会加入到Agent创业中。
在Operator和Claude的“计算机使用”功能发布之前,Agent的概念已经在ToB领域引发广泛关注。
Langchain、Dify等Agent开发框架已经应用到了企业开发中,微软、谷歌、亚马逊这三个云巨头也早已提供Agent开发的服务。
但是这些技术都太过专业,加上Agent会频繁调用AI大模型,使用成本并不低,只能服务少数开发者使用,这也是Agent虽然声量很大,但大家平时都不这么见得到的原因。
OpenAI下场推出Agent产品,更像苹果为手机新功能发布示范的APP,微软推出的官方电脑,为下游集成、开发商们展现新功能的潜力,带动更多人投入开发,推出更具创新价值的产品。
虽然很多人将Agent视为新技术突破的关键点,但我们必须要注意到Agent的本质并非单纯的技术,而是多种技术组合而成的产品。
打造真正具有变革性的产品,不是技术一个指标说了算的,更要洞察用户需求,还要能快速迭代产品,占据市场先发位置。
对于身处大模型竞赛里的OpenAI,这一切都太过分散资源,很难成为重点投入的方向。
那么我们该如何分析Agent的未来趋势,从哪里观察未来风口呢?
↓¥399,掌握王煜全AI产业预测精华(iOS用户请在电脑端打开)
此外,我们还为您准备了一份清单
“全球AI独角兽TOP10”
来源:王煜全