OpenAI发布首个AI智能体,有哪些不一样?

B站影视 2025-01-24 10:45 2

摘要:深夜,OpenAI展示了他们的首个智能体:Operator,这可不是普通的AI,它能像人类一样操作电脑,更厉害的是,它可以直接和网页交互,无论是打字、点击还是滚动,都能一气呵成。

,作者:王智远,题图来自:OpenAI

深夜,OpenAI展示了他们的首个智能体:Operator,这可不是普通的AI,它能像人类一样操作电脑,更厉害的是,它可以直接和网页交互,无论是打字、点击还是滚动,都能一气呵成。

Operator是什么,它有什么能力呢?简单讲,它是OpenAI最新推出的一款创新型AI模型,像一个会自己操作电脑的“数字助手”。

我们平时用电脑时,得自己点鼠标、敲键盘、盯着屏幕找东西,但Operator不一样,它能自己搞定这些,能自己和电脑界面打交道。

OpenAI为啥要开发这么个东西?

动机有三个方面:

1. 从用户需求层面来看,现代社会中存在大量重复性、机械化的数字操作任务。

以日常办公场景为例,表单填写、数据整理、信息检索等操作不仅耗时耗力,而且容易出错,Operator的开发者想解决这一痛点,通过AI自动化提升工作效率。

2. 从技术发展角度来看,当前大多数AI系统仍局限于信息处理和问答交互的范畴,缺乏实际执行能力。

Operator的创新之处在于突破了这一限制,它实现了从认知到执行的完整闭环,这种能力拓展标志着AI技术向更高层次发展的重要一步。

3. 从长远发展来看,Operator的开发,体现OpenAI对AI技术潜力的深入探索;通过赋予AI直接操作计算机的能力,为未来更复杂的智能应用奠定了基础,具有重要的战略意义;所以,要做这个东西,我觉得它像一个RPA技术。

图示:Operator操作页面

那么,它的核心能力有什么呢?

首先,它能特别精准地理解你的指令。你给它下命令,它能完全听懂,还能根据你的需求去完成任务;比如,你让它帮你买一双运动鞋,它就能在网上找到合适的店铺,帮你下单,而且还能挑出性价比最高的那一双。

然后,可以自己操作网页,不限于网页浏览与信息提取、表单填写与数据录入、文件管理与文档处理、邮件收发与日程安排等四个方面。

最主要的是,它有智能化决策能力。

例如:在商品采购任务中,系统能够根据预设条件(如预算、品牌偏好等)进行智能筛选和决策;再或者,你让它帮你订一张机票,它就能自己搜索航班、比较价格,最后帮你下单,整个过程都不用你操心。

而且,这个智能化包括两个维度:一,是复杂任务处理能力,二,持续学习与优化能力。

以会议安排为例,Operator可以协调参会人员时间、预定会议室、发送通知等,实现全流程自动化处理,甚至,它可以从你操作过、编排过的任务中进行学习。

它的使用场景是什么?报告中,有七个有趣的例子。

首先是网上购物。

想象一下,你正准备买一双运动鞋。以前,你要自己打开购物网站,搜索款式、比较价格,还要手动填写收货地址和支付信息。

现在,有了Operator,你只要告诉它:“帮我买一双耐克运动鞋,预算500元左右。”它就能自动完成搜索、下单,甚至还能帮你找到最划算的优惠券。这个过程完全不需要你动手,是不是很省心?

然后是,自动填写表单,注册账号、申请贷款,还是填写各种复杂的在线表格,这些任务不仅繁琐,还很容易出错。但Operator可以轻松搞定这些。

图示:Operator帮人选择产品购物

再者是信息检索与整理。

在工作和学习中,我们常常需要查找各种资料。比如,你正在写一篇关于人工智能的论文,需要查找最新的研究进展。以前,可能要在多个网站之间来回切换,手动整理信息。

Operator可以直接帮你搜索相关内容,把关键信息整理成一个简洁的总结,甚至还能帮你找到相关的学术论文链接。这样你就不用把精力浪费在搜索上。

还有日程安排。

你计划下周和客户开一个会议,要协调双方的时间,预定会议室,还要发送会议通知。这些事情听起来简单,做起来却很费时间,Operator会自动查看日程安排,找到一个双方都方便的时间,预定会议室,甚至还能发送会议通知给所有参与者。

我认为最有用的两个是:创意内容制作、文件管理。

我想制作一个表情包,但又不会用复杂的图像编辑软件。只要告诉Operator:帮我做一个搞笑的表情包,主题是“周一的我”。

它就能自动找到合适的图片,添加文字,甚至还能调整图片的风格,最后生成一个有趣的表情包。

至于文件夹管理,以前可能需要手动搜索,甚至还要逐个打开文件查看内容,现在,Operator可以帮你快速找到需要的文件,并且还能整理文件夹,把相似的文件归类在一起。

这就是它的其中一部分能力。

既然这样,Operator是怎么训练出来的呢?

一共有四个步骤:先让它“见多识广”,然后让它模仿(监督学习),再让它思考(强化学习),最后通过人类反馈(让它少走弯路)。

首先,训练数据的来源至关重要。

报告中显示,OpenAI从两个主要渠道收集数据:一是公开数据集,包括行业标准的机器学习数据集、网络爬取的数据,这些数据为模型提供了广泛的任务场景,涵盖从简单的网页浏览到复杂的文件管理等操作。

二是由人类训练员创建的数据集,这些数据集展示了如何在计算机上解决各种任务,例如点击按钮、填写表单、滚动页面等。通过这些数据,Operator学会了如何模拟人类的操作行为。

在监督学习阶段,Operator学习基本的计算机操作能力,如视觉感知和输入控制。

这一阶段的任务主要是为了让模型掌握基本的操作技能,例如在网页上点击链接、填写表单,或者在文件管理器中打开文件夹。

强化学习阶段的目标是赋予模型更高级的能力,如推理和错误纠正。在这一阶段,Operator学会了根据任务需求制定执行策略,适应意外事件,并在执行任务时做出智能决策。

例如:当用户要求“帮我买一双运动鞋”时,模型会自动搜索、比较价格,并选择最合适的商品。此外,Operator还学会了错误纠正;如果模型在填写表单时出错,它会重新尝试或提示用户确认。

同时,Operator能够适应意外事件,例如:当网页加载缓慢或界面发生变化时,模型能够调整策略,继续完成任务。

值得注意的是,Operator的训练数据与GPT-4有所不同。

图示:模型自主性评估,不同任务在不同条件下的通过率比较

GPT-4的训练数据,主要集中在文本理解和生成上,而Operator的训练数据,则更偏向于视觉和交互任务,这种差异使得Operator在处理图形界面和复杂操作时表现更出色,但纯文本任务上不如GPT-4灵活。

最后,通过人类反馈,Operator能够进一步优化其性能。人类训练员的反馈帮助模型在实际应用中少走弯路,提高其在真实场景下的适应性和效率。

总的来说,思路就是:先有数据、让它模仿、开始思考,人类使用再进化。

除了这些,风险意识测试,伦理安全问题也少不了,报告显示,开发Operator的过程中,OpenAI始终将安全性放在首位。

毕竟,让一个AI模型操作计算机,就像赋予它一双无形的手,因此,OpenAI在设计和训练Operator时,采取了一系列多层次的防护措施

我看了下,有三点:

首先,它会主动拒绝高风险的任务。比如,当你要求它购买违禁品或执行其他潜在有害的操作时,模型会直接说“不”。

根据OpenAI的内部评估,Operator对高风险任务的拒绝率高达97%,这种机制有效防止了模型被滥用或执行不当操作。

其次,Operator在执行高风险操作时,会主动要求用户确认。比如,在发送重要邮件或完成购买之前,它会先展示相关内容,并询问用户是否确认继续,这种机制确保了用户对关键操作的控制权,减少了模型错误带来的风险。

在一些敏感网站(如邮箱、银行网站)上,它会自动进入“监控模式”;如果离开页面或长时间未操作,模型会暂停任务执行,直到用户返回并确认继续。

另外,为了全面评估Operator的风险,它们邀请了来自全球20个国家的红队成员,使用多种语言对Operator进行了测试。

图释:Operator与GPT-4o在挑战性拒绝任务中的性能对比

红队成员的任务,是尝试绕过模型的安全措施,例如:

通过提示注入攻击或恶意指令误导模型,尽管测试环境受到限制(例如使用模拟网站和数据库),但,红队测试仍然发现了关键漏洞,这些发现帮助OpenAI进一步完善了模型的安全性。

报告还显示了Operator面临的一些挑战。

目前,它擅长处理短任务和重复性操作,但在复杂任务(如幻灯片制作、日历管理)上表现不佳。

例如:让它处理多步骤任务,模型可能会因为界面变化或意外事件而失败。还有,在处理长DNA序列、随机字符串(如API密钥)或复杂代码时,Operator的光学字符识别(OCR)系统表现不佳。

这是因为任务超出了训练数据的范围,导致模型在识别和操作内容时,容易出错;而且,尽管OpenAI已经采取了多种措施来防止提示注入攻击和恶意指令,但Operator在面对新型对抗性攻击时仍可能表现出脆弱性。

总的来说,OpenAI对Operator的未来发展充满信心,他们表示要在三个方面下功夫:

一,具体的真实场景;二,更多代码编辑和终端操作;三,将继续优化安全防御性能,为真正实现AGI之路而奋斗。

目前,Operator AI Agent已经上线,但目前仅面向Pro用户,要200美刀,扎心。看完这个报告,我只想说:这难道不是RPA技术用到电脑上了吗?国内前段时间流行的手机点单和这不是一样的吗?

希望国内大模型赶紧跟上,弯道超车它。

发布会视频地址:https://www.youtube.com/live/CSE77wAdDLg

技术报告链接地址:https://cdn.openai.com/operator_system_card.pdf

,作者:王智远

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com

正在改变与想要改变世界的人,都在 虎嗅APP

来源:夕仲余综艺

相关推荐