OpenAI的Operator:AI也能玩转电脑了!

B站影视 2025-01-24 20:46 3

摘要:OpenAI 的Operator是一种开创性的 AI 代理,标志着 3 级 (L3) 代理的首次亮相,其中 AI 可以像人类一样与数字界面交互,而不受特定 API 的限制。以下是其功能、功能和操作原理的概述:

OpenAI 的Operator是一种开创性的 AI 代理,标志着 3 级 (L3) 代理的首次亮相,其中 AI 可以像人类一样与数字界面交互,而不受特定 API 的限制。以下是其功能、功能和操作原理的概述:

功能 (Functionality):

直接 Web 交互:操作员可以键入、单击和滚动网页以执行填写在线表格、在线购物甚至创建模因等任务。这是通过它直接与图形用户界面 (GUI) 交互的能力实现的,无需自定义 API。

任务自动化:它可以自主执行从预订到购买杂货的任务。该系统确保在一定程度的人工监督下完成任务,用户可以随时进行控制。

复杂任务执行: 操作员可以处理更复杂的任务,例如解决复杂的谜题或管理软件许可证,在简单和复杂的数字环境中展示其能力。

作用 (Impact):

AGI 进度:Operator 的推出被视为迈向通用人工智能 (AGI) 的重要一步,因为它消除了 AI 与数字系统交互的关键障碍。

用户独立性: 通过允许 AI 接管重复或复杂的数字任务,它可以为人类腾出时间进行更细致的活动,从而可能重塑我们与技术的交互方式。

通用接口:Operator 代表了 AI 与数字世界的“通用接口”,扩大了 AI 在日常计算任务中的应用范围。

工作原理 (Working Principles):

计算机使用代理 (CUA):这是 Operator 背后的技术,经过训练,可以通过解释屏幕截图中的原始像素数据来与 GUI 交互。它结合使用感知、推理和行动来导航数字环境:

知觉:CUA 捕获屏幕截图以了解计算机的当前状态。

推理:通过“思维链”(CoT),它根据当前的视觉输入和过去的动作评估下一个动作,从而允许动态适应任务。

行动:执行单击或键入等操作,适应界面或任务要求的变化,大多数步骤无需人工干预,但需要用户确认登录凭据等敏感操作。

性能指标: 在基准测试中,CUA 的成功率令人印象深刻:

用于计算机的 OSWorld:38.1% 的成功率。

用于 Web 交互的 WebArena:58.1%。

WebVoyager,用于实际的 Web 任务:令人印象深刻的 87%。

限制和安全性:虽然功能强大,但 Operator 的可靠性因不同界面而异,并且难以处理不太熟悉的 UI 或需要精确文本编辑的任务。OpenAI 强调安全性,并采取措施防止代理滥用或有害行为。

来源:小王论科技

相关推荐