摘要:蒂博尔·布拉霍 (Tibor Blaho) 是一位以准确泄露即将推出的 AI 产品而闻名的软件工程师,他声称发现了 OpenAI 传闻已久的Operator工具的证据。
鞭牛士报道,1月21日消息,据外电报道,OpenAI 可能即将发布一款可以控制你的电脑并代表你执行操作的 AI 工具。
蒂博尔·布拉霍 (Tibor Blaho) 是一位以准确泄露即将推出的 AI 产品而闻名的软件工程师,他声称发现了 OpenAI 传闻已久的Operator工具的证据。
彭博社等出版物此前曾报道过 Operator,据说它是一个代理系统,能够自主处理编写代码和预订旅行等任务。
据The Information 报道,OpenAI 计划于 1 月发布 Operator。Blaho 本周末披露的代码进一步证实了这一报道的可信度。
Blaho 表示, OpenAI 的macOS ChatGPT客户端已获得目前隐藏的选项,用于定义切换操作符和强制退出操作符的快捷方式。
Blaho 表示,OpenAI 已在其网站上添加了对操作符的引用 — — 尽管这些引用尚未公开。
已确认 - ChatGPT macOS 桌面应用程序具有隐藏选项,可定义桌面启动器的快捷方式“切换操作员”和“强制退出操作员” https://t.co/rSFobi4iPN pic.twitter.com/j19YSlexAS
- 蒂博尔·布拉霍 (@btibor91) 2025 年 1 月 19 日
Blaho 表示,OpenAI 的网站还包含尚未公开的表格,比较了 Operator 与其他使用计算机的 AI 系统的性能。这些表格很可能只是占位符。但如果这些数字准确,则表明 Operator 并非 100% 可靠,具体取决于任务。
OpenAI 网站已经有对 Operator/OpenAI CUA(计算机使用代理)的引用——“操作员系统卡表”、“操作员研究评估表”和“操作员拒绝率表”
包括与 Claude 3.5 Sonnet 计算机使用、Google Mariner 等的比较。
(表格预览... pic.twitter.com/OOBgC3ddkU
- 蒂博尔·布拉霍 (@btibor91) 2025 年 1 月 20 日
在 OSWorld(一个试图模拟真实计算机环境的基准测试)上,「OpenAI 计算机使用代理 (CUA)」——可能是为 Operator 提供支持的 AI 模型——得分为 38.1%,高于 Anthropic 的计算机控制模型,但远低于人类的 72.4%。
OpenAI CUA 在 WebVoyager 上的表现超过了人类,WebVoyager 评估了 AI 导航和与网站交互的能力。但根据泄露的基准测试,该模型在另一个基于网络的基准测试 WebArena 上得分低于人类水平。
如果泄露的消息属实,Operator 还难以完成人类可以轻松完成的任务。在一项要求 Operator 与云提供商签约并启动虚拟机的测试中,Operator 的成功率只有 60%。
在要求 Operator 创建比特币钱包的测试中,Operator 的成功率只有 10%。
OpenAI 即将进入人工智能代理领域,而此前提到的 Anthropic、谷歌等竞争对手也正在争夺这一新兴领域。人工智能代理可能存在风险和投机性,但科技巨头们已经将其吹捧为人工智能领域的下一个大热门。
据分析公司 Markets and Markets 称,到 2030 年,人工智能代理市场价值可能达到 471 亿美元。
当今的功能还很原始。但一些专家担心,如果技术迅速进步,他们的安全就会受到威胁。
其中一张泄露的图表显示,Operator 在选定的安全评估中表现良好,包括试图让系统执行非法活动和搜索敏感个人数据的测试。
据报道,安全测试是 Operator 开发周期较长的原因之一。在最近的 X帖子中,OpenAI 联合创始人 Wojciech Zaremba 批评 Anthropic 发布了一个他声称缺乏安全缓解措施的代理。
Zaremba 写道:我只能想象如果 OpenAI 发布类似版本会引起什么负面反应。
值得注意的是,OpenAI 受到了包括前员工在内的人工智能研究人员的批评,据称他们为了快速将其技术产品化而忽视了安全工作。
来源:鞭牛士Bianews