OpenAI推出首个智能体Operator,能网购、会订票甚至会做表情包

B站影视 2025-01-24 12:02 2

摘要:OpenAI 表示,“它目前处于研究预览阶段,这意味着它存在局限性,并将根据用户反馈不断变化。Operator 是我们的第一批智能体(Agent)之一,它们是能够独立为你工作的 AI,你给它一个任务,它就会执行。”

当地时间 1 月 23 日, OpenAI 正式推出了其首款 AI 智能体 Operator。 它可以通过自带的浏览器独立浏览网页,并通过键入、单击和滚动来与之交互,能够完成填写表格、订购日常用品,甚至是创建表情包的任务。 OpenAI 表示,“它目前处于研究预览阶段,这意味着它存在局限性,并将根据用户反馈不断变化。Operator 是我们的第一批智能体(Agent)之一,它们是能够独立为你工作的 AI,你给它一个任务,它就会执行。” Operator 将首先向美国的 ChatGPT Pro 订阅用户推出。OpenAI 表示,它计划最终将此功能推广给其 Plus、Team 和 Enterprise 级别的更多用户群体。作为一项研究预览工作, 它目前可通过独立网站访问,OpenAI 表示,希望很快将 Operator 集成到其所有 ChatGPT 应用中。 图 | Operator 操作演示(来源:OpenAI) 山姆·奥特曼(Sam Altman)对这项技术充满期待和信心。这位 OpenAI CEO 在发布会直播中明确表示:“这款产品是我们进军智能体领域的开始。” 与此同时,OpenAI 总裁兼联合创始人格雷格·布罗克曼(Greg Brockman)也在 X 上写道:“2025 年将是智能体元年。” 作为 ChatGPT 的重大升级,Operator 不仅仅是一个简单的信息处理工具,更是直接展现了 AI 工具从被动接收信息向主动行动的关键跨越。 图 | 在演示视频中,Operator 可以网购食物(来源:OpenAI) Operator 的核心能力是替代人类进行一系列电脑操作。 作为一个智能体,它可以像真人一样流畅地浏览网页,精准地点击、滚动、填写表单,甚至能独立完成订票、购物、订餐等相当复杂的任务。不同于传统的虚拟助手,这款 AI 助手真正具备了“行动”的能力,而非仅仅给出建议或答复。 Operator 背后的技术被 OpenAI 称为“计算机使用智能体(Computer-Using Agent,简称 CUA)”模型。这一全新模型巧妙地结合了 GPT-4o 的视觉识别能力和高级推理技术,可以通过截图“理解”网页,并像人类一样精准操作鼠标和键盘。 CUA 经过训练,可以像人类一样与图形用户界面(GUI,Graphical User Interface)进行交互,包括人们在屏幕上看到的按钮、菜单和文本。这使它能够灵活地执行数字任务,而无需使用特定于操作系统或网络的 API。 图 | Operator 可以根据指令预定餐厅(来源:OpenAI) 根据用户的指令,CUA 通过集成感知、推理和动作的迭代循环进行操作,其工作原理大致分为三个关键阶段。 感知: 将屏幕截图添加到模型的上下文中,提供计算机当前状态的视觉快照,用于详细分析页面内容和结构。 推理: 使用复杂的思路链推理后续步骤,同时考虑当前和过去的屏幕截图和操作。这使其能够评估其观察结果、跟踪中间步骤并动态调整,从而提高任务表现。 操作: 执行操作(单击、滚动或键入),直到确定任务已完成或需要用户输入。虽然 CUA 会自动处理大多数步骤,但对于敏感操作(例如输入登录详细信息或填写验证码),CUA 会寻求用户确认。 这种决策过程使 Operator 能够在不同的网页环境中灵活应对。尤其是在 WebArena 和 WebVoyager 两项浏览器操作测试中,驱动 Operator 的 CUA 模型展现出了令人印象深刻的表现。 图 | Operator 在不同任务中的测试成绩,全面超过了此前 SOTA(来源:OpenAI) WebArena 利用自托管的开源网站离线模拟网购、在线商店内容管理、社交论坛等网络场景。WebVoyager 则在 Amazon、GitHub 和 Google Maps 等真实网站上测试模型的性能。不过 WebAreana 的任务相对更加复杂。 CUA 在 WebArena 上的成功率为 58.1%,而在 WebVoyager 测试中,其在实际网站导航中取得了惊人的 87% 成功率,可以独立完成从在线购物到旅行预订的各种任务,展现出了令人兴奋的潜力。 除了基础浏览能力,Operator 还具备个性化定制功能。用户可以为特定网页或全站添加自定义指令,并在主页保存这些指令,实现跨聊天窗口的多任务并行处理。这种灵活性极大地提升了其实用价值。 此外,在 OSWorld 基准测试中(用于评估模型控制 Ubuntu、Windows 和 macOS 等完整操作系统的能力),CUA 的成功率为 38.1%。不过,人类在这项测试中的平均成绩是 72.4%,说明 AI 还有很大的进步空间。 OpenAI 还表示,其观察到随着测试时间的增加(这意味着允许进行更多操作步骤),CUA 的表现会提高。 图 | 随着最大允许步骤数的增加,CUA 的表现也越来越好(来源:OpenAI) 考虑到 AI 智能体可能带来的潜在风险,OpenAI 在 Operator 中设置了多重严格的安全机制。用户可以随时接管控制权,填写信用卡信息和确认付款等敏感操作都需要人工明确确认。 目前,Operator 还被限制不能处理银行交易、发送电子邮件(尽管 CUA 可以做到这一点)、删除日历事项等高风险任务。 除了用户控制机制,Operator 还配备了滥用防范系统。它能够识别并拒绝有害请求,并在检测到可疑活动时立即暂停执行。它还配有黑名单机制,许多赌博网站、成人娱乐网站以及毒品或枪支零售网站都无法访问。 图 | OpenAI 介绍的一些安全措施(来源:OpenAI) OpenAI 在其网站上解释道,Operator 使用的监控系统旨在限制模型尝试恶意提示、隐藏指令和网络钓鱼。如果检测到可疑活动,监控系统会暂停 Operator 的工作,而自动和人工审查机制会不断更新保障措施。 不过即使是浏览网页和操作电脑,Operator 目前也存在一定局限性。OpenAI 表示,“目前还不能指望 CUA 在所有场景下都能可靠运行。” 例如,它还无法可靠地处理许多复杂或专业的任务,例如创建详细的幻灯片、管理复杂的日历系统,或与高度定制或非标准的 Web 界面进行交互。 与此同时,许多网站(如 Reddit)已经阻止 AI 智能体浏览,因此 Operator 无法访问它们。在这种研究预览模式下,出于性能或法律原因,OpenAI 还阻止了 Operator 访问某些资源密集型网站(如 Figma)或直接竞争对手拥有的网站(如 YouTube)。 最后,CEO 奥特曼在直播中表示,Operator 是 OpenAI 的“第一批智能体”,未来几周和几个月还会推出更多的智能体。 越来越多的 AI 智能体出现,标志着 AI 正从被动的信息处理工具,转变为主动的数字生态系统参与者。无论是简化日常事务,还是创新商业工作流程,AI 正在变得越来越实用。人类与 AI 的协作,正在从想象逐渐变为现实。

来源:东窗史谈

相关推荐