你敢信？仅差2%！GPT-5电脑操作追平人类？

摘要：他们的Agent S3在CUA基准测评OSWorld里拿了69.9%的成绩，离人类72%的操作水平就差2个多点。

2025年10月4号，Simular Research那边扔出个大消息。

他们的Agent S3在CUA基准测评OSWorld里拿了69.9%的成绩，离人类72%的操作水平就差2个多点。

其实，之前看CUA这技术，我还觉得它顶多帮着填填简单表格，没想到现在都快追上人了。

先跟大伙说下CUA是啥，它全名叫计算机使用智能体，不是那种光会跟你聊天的AI。

你用鼠标点图标、用键盘输内容、用软件做报表，这些活儿它都能替你干。

现在不少公司都盼着这技术能成熟，毕竟重复操作太磨人了，要是AI能接手，效率能提一大截。

Agent S3不是突然冒出来的厉害角色，它前面还有两代“前辈”。

一年前，第一代Agent S去测OSWorld，才拿了20.6%的成绩。

那时候业内还说，CUA要想用起来，最少还得等个三五年。

后来Agent S2出来了，直接把成绩拉到48.8%。

这一下就不一样了，不少办公软件厂商开始找Simular合作，想把这技术嵌进去。

本来想这48.8%已经够猛了，没想到S3更狠，直接冲到69.9%，还超了之前的行业最佳10个点。

Simular的研究负责人，就是加州大学圣巴巴拉分校的Xin Eric Wang教授，人家直接说“接下来要超越人类的计算机使用”。

其实，这话要是放一年前，我肯定觉得是吹牛，但看这迭代速度，还真有可能实现。

而且Agent S3不光成绩好，还把论文和代码都公开了。

论文叫《The Unreasonable Effectiveness of Scaling Agents for Computer Use》，在arXiv上能搜到，代码也放GitHub了。

如此看来，他们是真想让行业一起把这技术做起来，不是藏着掖着搞垄断，这点还挺让人佩服的。

Agent S3能有这成绩，核心是靠个叫bBoN的框架，全名叫Behavior Best-of-N。

本来想简单说这框架就是让多个智能体一起干活，选最好的结果，但后来发现没那么简单。

之前的CUA有个大问题，就是不稳定。

有时候能把任务完成得好好的，有时候一个误点、一个弹窗，整个流程就崩了。

业内叫这“高方差”，说白了就是不靠谱。

bBoN就是来解决这个问题的，它分两步走。

第一步，是“行为叙事生成”。

智能体每次操作都会留下一堆细节，比如“点了桌面图标，等了0.5秒，打开了Excel”。

bBoN会把这些没用的细节去掉，直接总结成“打开目标Excel文档”。

这样一来，不同智能体的操作结果就好对比多了。

第二步。是“行为最佳选择评判”。

它不看原始的操作记录，就看刚才总结的“行为叙事”。

比如A智能体用了3步打开文档，B用了5步，还多错点了一次，那肯定选A的结果。

很显然，这样选出来的结果，靠谱程度比单个智能体高多了。

除了bBoN，Agent S3还把之前的框架精简了。

Agent S2有个“管理者-工作者”的分层结构，现在S3给拆了，还加了个“原生代码智能体”。

这智能体不光能操作用户界面，还能直接写代码处理数据。

毫无疑问，这样一来，它能做的事就更多了，效率也上去了。

测试数据也能说明问题，用GPT-5跑的时候，加了bBoN之后，成功率比单次跑高了不少，LLM调用次数少了一半多，任务完成时间也短了六成。

更厉害的是，在调文档格式、录简单数据这些任务里，它的成功率已经超过人类了。

还有个有意思的发现，要是把不同模型搭一起用，效果更好。

比如GPT-5加Gemini 2.5 Pro，成功率能到66.7%，任务覆盖率也有78%。

其实，这俩模型各有擅长，一个写代码厉害，一个操界面厉害，放一起就是1+1>2。

最后说句实在的，Agent S3这次的突破，不光是数字好看。

它意味着以后咱们上班，那些重复的、磨人的操作，可能真的不用自己动手了。

不过话说回来，也得考虑安全问题，比如AI误删了重要文件咋办？这肯定得提前想到。

但不管咋说，离AI替咱们干杂活的日子，是越来越近了。

来源：围炉夜话

标签：智能体 s3 agent cua agents3

本文地址：http://news.43b.com.cn/a/1527863.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐