你敢信？GPT-5的电脑操作水平只比人类低2%了

摘要：Agent（智能体）是最近一段时间的人工智能热点之一，将大语言模型的能力与工具调用、环境交互和自主规划结合起来，使其能够像虚拟助理一样完成复杂任务。

机器之心报道

机器之心编辑部

Agent（智能体）是最近一段时间的人工智能热点之一，将大语言模型的能力与工具调用、环境交互和自主规划结合起来，使其能够像虚拟助理一样完成复杂任务。

其中「计算机使用智能体」（computer-use agent，CUA）是一种能够直接在电脑环境中代替人类执行操作的智能体。它和传统的对话式 AI 不同，不只是回答问题，而是模拟人类使用鼠标、键盘和操作软件来完成任务。在该领域，Simular Research 推出的框架 Agent S 是典型代表之一

一年前，Agent S 在 CUA 基准测试「OSWorld 」上取得了 20.6% 的成绩。此后能力继续扩展，Agent S2 将业界水平提升到了 48.8%。就在昨日，Agent S3 又刷新了自身记录，将性能拉升到了 69.9%，超出先前的 SOTA 10%，接近人类水平的 72%

加州大学圣巴巴拉分校助理教授、Simular 研究负责人 Xin Eric Wang表示，「接下来是超越人类的计算机使用」。

在技术层面，Agent S3 直接在 Agent S2 的基础之上构建，通过简化框架并引入原生的代码智能体，将 OSWorld 上的性能提升至 62.6%，实现了新的 SOTA。

不仅如此，Agent S3 还首次引入了并行扩展的 CUA 框架 ——Behavior Best-of-N (bBoN)，它不再依赖单次智能体运行，而是从多次 rollout（执行过程）中挑选最佳结果。这种方法解锁了可扩展的性能提升，使准确率从 62.6% 提高到 69.9%，并展示了智能体框架如何仅凭借扩展多样化运行次数，就能获得持续改进。

目前，Agent S3 已经放出了相关论文，并且完全开源。

接下来看 Agent S3 的技术和实验细节。

方法改进

计算机使用智能体（CUA）描绘了这样一个未来：软件自己运行，帮你订票、填写表格、操作应用，而你无需亲自动手。

但在当下，即便是最强的 CUA，在任务变得冗长复杂时也常常出错。一次误点、一次延迟响应，或者一个意外的弹窗，都可能让整个执行过程偏离轨道。小错误会不断叠加，本该顺畅的自动化最终变成了挫败感。

这正是 CUA 面临的核心瓶颈：高方差（即高波动性）。同一个智能体，可能这一次顺利完成任务，而下一次却完全失败。这种不一致性让 CUA 难以预测，也凸显了在复杂、日常工作流中实现可靠性的巨大挑战。

缓解这种脆弱性的一个自然方法是并行扩展（Wide Scaling）：与其简单地接受单个智能体的一次执行结果，不如扩大智能体数量，让它们并行生成多个执行过程，再从中选择最佳结果。

这种并行扩展的思路利用了一个事实：尽管单个智能体往往不够理想，但它们通常会在不同的任务子集上互补成功。不过，对 CUA 进行规模扩展也带来了独特的挑战。

长时间跨度的执行轨迹信息密度极高，且包含多模态细节，其中大多数与任务成功无关，这使得轨迹的表示、理解和比较变得困难。同时，评估本身也并非易事：许多计算机使用任务本身存在多种有效解法，而自动化评估往往难以判断某条轨迹是否真正正确。

因此，要实现对 CUA 的有效并行扩展，需要全新的应对方法：

针对此，Agent S3 引入了Behavior Best-of-N (bBoN)来实现 CUA 的并行扩展，包括以下两个关键组件：

(1) 行为叙事生成（Behavior Narrative Generation）

本文的方法从生成事实开始。原始的智能体运行包含大量逐步的细节，其中许多无关紧要或冗余。通过生成「事实」，将这些嘈杂的运行过程转化为简洁的陈述，只关注那些与任务成功直接相关的信息。而将这些事实串联起来，就形成了一个「行为叙事」，它清晰地总结了智能体在每一步的操作，使其运行过程更加可解释，也更易于比较。

(2) 行为最佳选择评判（Behavior Best-of-N Judge）

在得到行为叙事后，进一步应用评判机制来决定哪一次运行最能完成任务。与直接比较原始输出不同，评判过程基于每个行为叙事中的事实进行决策。通过跨运行引用这些事实，评判者可以进行对比推理，从而判断哪一次尝试最为有效，并最终选出最佳执行结果。

另外，上个版本 Agent S2 采用了管理者 — 工作者（manager–worker）分层结构。但是随着基础模型的增强，这种层级反而成了不必要的开销。

因此，Agent S3 对框架进行了精简，移除了这一层级结构，并引入了一个原生代码智能体，能够直接生成和执行代码。这样不仅让解决方案更加多样，既能处理代码任务，也能覆盖图形界面（GUI）任务，同时可靠性也得到了提升。

这些改进共同带来了约 13% 的性能提升，使 Agent S3 在单次运行上的表现达到 62.6%，刷新当前 SOTA。

实验结果

在改进基线的基础上，本文的核心贡献 Behavior Best-of-N (bBoN)，在 GPT-5 上实现了 69.9% 的成功率（SR），相比 Agent S3 的单次运行提升了 7.3 个百分点；在 GPT-5 Mini 上实现了 60.2% 的成功率，提升幅度为 10.4 个百分点

考虑到人类的表现大约为 72%，这些结果凸显了 bBoN 不仅大幅超越了现有方法，而且已经接近人类水平的能力。

此外，本文还在单次运行设定（不使用扩展）下，将 Agent S3 与 Agent S2 进行了对比。结果显示，Behavior Best-of-N 带来了 13.8% 的成功率提升，使每个任务的 LLM 调用次数减少了 52.3%，平均任务完成时间缩短了 62.4%。因此，Agent S3 不仅能力更强，而且效率更高。