OpenAI发布Operator智能体,自主操控浏览器开启Level 3新时代!

B站影视 2025-01-24 14:20 3

摘要:OpenAI备受瞩目的智能体终于揭开神秘面纱!OpenAI正式宣布推出其首批智能体之一——Operator,这款AI能够独立执行任务,只需简单指令,即可自主完成复杂操作。

OpenAI备受瞩目的智能体终于揭开神秘面纱!OpenAI正式宣布推出其首批智能体之一——Operator,这款AI能够独立执行任务,只需简单指令,即可自主完成复杂操作。

想象一下,只需给Operator一个购物清单,它就能完全自主地帮你完成购物;或者让它帮你预定餐厅,一切操作都无需人类插手。在官方发布的Demo中,操作人员的双手离开键盘,屏幕上的所有动作均由Operator自主完成,令人叹为观止。

OpenAI总裁Brockman在奥特曼直播结束后迫不及待地宣布:2025年将是智能体之年!而Operator的官宣即上线,更是让网友们兴奋不已,直呼“疯狂星期四”。不过,目前Operator仅面向Pro用户开放,即每月需支付200美元(约合人民币1458元)的大会员。

Operator的强大之处在于其几乎可以使用任何网站,无需人类操作辅助。无论是从食谱网站找到菜谱并将食材加入购物车,还是根据用户指令选择特定商家下单,Operator都能轻松完成。与其他基于API或编程接口的Agent不同,Operator是基于文本的思维链进行推理,其操作逻辑与人类如出一辙。

在遇到登录、支付等需要用户干预的操作时,Operator会智能地将操作权交还给用户。同时,用户还可以通过添加自定义指令获得个性化体验。Operator支持同时运行多个任务,就像打开多个网页一样轻松自如。

Operator的底层技术是一个全新的模型——Computer-Using-Agent(CUA)。该模型将GPT-4o的视觉能力和高级推理强化学习相结合,实现了GUI交互。这意味着Operator可以看到网页界面的内容,并使用鼠标、键盘允许的所有操作进行自动操作,无需自定义的API集成。此外,Operator还具备自我纠错能力,并在需要时将控制权交还给用户。

值得一提的是,CUA在WebArena和WebVoyager两个基准测试中都取得了最优异成绩(SOTA),展现了其强大的实力。

随着Operator的发布,OpenAI也迈入了“Level 3”阶段。此前,OpenAI曾提出了从AI到AGI的五步过程,其中Level 3即为AI可以作为系统执行一些行动任务。而如今,Operator的发布正是OpenAI进入Level 3的开始。

更令人期待的是,Operator只是OpenAI推出的首批智能体之一。在直播中,奥特曼预告称,未来几周和几个月内还将推出更多智能体,让人充满期待。

此外,在Operator发布前2小时,OpenAI还发布了一条推文,表示已修复ChatGPT和API错误率高的问题。这一好消息无疑为Operator的发布增添了更多亮点。

总的来说,Operator的发布标志着OpenAI在AI领域又迈出了重要一步。这款能够自主操控浏览器的智能体不仅让人们对未来充满了期待,也激发了人们对AI技术的无限遐想。

来源:AI中国

相关推荐