你敢信?仅差2%!GPT-5电脑操作追平人类?

B站影视 港台电影 2025-10-06 18:59 2

摘要:他们的Agent S3在CUA基准测评OSWorld里拿了69.9%的成绩,离人类72%的操作水平就差2个多点。

2025年10月4号,Simular Research那边扔出个大消息。

他们的Agent S3在CUA基准测评OSWorld里拿了69.9%的成绩,离人类72%的操作水平就差2个多点。

其实,之前看CUA这技术,我还觉得它顶多帮着填填简单表格,没想到现在都快追上人了。

先跟大伙说下CUA是啥,它全名叫计算机使用智能体,不是那种光会跟你聊天的AI。

你用鼠标点图标、用键盘输内容、用软件做报表,这些活儿它都能替你干。

现在不少公司都盼着这技术能成熟,毕竟重复操作太磨人了,要是AI能接手,效率能提一大截。

Agent S3不是突然冒出来的厉害角色,它前面还有两代“前辈”。

一年前,第一代Agent S去测OSWorld,才拿了20.6%的成绩。

那时候业内还说,CUA要想用起来,最少还得等个三五年。

后来Agent S2出来了,直接把成绩拉到48.8%。

这一下就不一样了,不少办公软件厂商开始找Simular合作,想把这技术嵌进去。

本来想这48.8%已经够猛了,没想到S3更狠,直接冲到69.9%,还超了之前的行业最佳10个点。

Simular的研究负责人,就是加州大学圣巴巴拉分校的Xin Eric Wang教授,人家直接说“接下来要超越人类的计算机使用”。

其实,这话要是放一年前,我肯定觉得是吹牛,但看这迭代速度,还真有可能实现。

而且Agent S3不光成绩好,还把论文和代码都公开了。

论文叫《The Unreasonable Effectiveness of Scaling Agents for Computer Use》,在arXiv上能搜到,代码也放GitHub了。

如此看来,他们是真想让行业一起把这技术做起来,不是藏着掖着搞垄断,这点还挺让人佩服的。

Agent S3能有这成绩,核心是靠个叫bBoN的框架,全名叫Behavior Best-of-N。

本来想简单说这框架就是让多个智能体一起干活,选最好的结果,但后来发现没那么简单。

之前的CUA有个大问题,就是不稳定。

有时候能把任务完成得好好的,有时候一个误点、一个弹窗,整个流程就崩了。

业内叫这“高方差”,说白了就是不靠谱。

bBoN就是来解决这个问题的,它分两步走。

第一步,是“行为叙事生成”。

智能体每次操作都会留下一堆细节,比如“点了桌面图标,等了0.5秒,打开了Excel”。

bBoN会把这些没用的细节去掉,直接总结成“打开目标Excel文档”。

这样一来,不同智能体的操作结果就好对比多了。

第二步。是“行为最佳选择评判”。

它不看原始的操作记录,就看刚才总结的“行为叙事”。

比如A智能体用了3步打开文档,B用了5步,还多错点了一次,那肯定选A的结果。

很显然,这样选出来的结果,靠谱程度比单个智能体高多了。

除了bBoN,Agent S3还把之前的框架精简了。

Agent S2有个“管理者-工作者”的分层结构,现在S3给拆了,还加了个“原生代码智能体”。

这智能体不光能操作用户界面,还能直接写代码处理数据。

毫无疑问,这样一来,它能做的事就更多了,效率也上去了。

测试数据也能说明问题,用GPT-5跑的时候,加了bBoN之后,成功率比单次跑高了不少,LLM调用次数少了一半多,任务完成时间也短了六成。

更厉害的是,在调文档格式、录简单数据这些任务里,它的成功率已经超过人类了。

还有个有意思的发现,要是把不同模型搭一起用,效果更好。

比如GPT-5加Gemini 2.5 Pro,成功率能到66.7%,任务覆盖率也有78%。

其实,这俩模型各有擅长,一个写代码厉害,一个操界面厉害,放一起就是1+1>2。

最后说句实在的,Agent S3这次的突破,不光是数字好看。

它意味着以后咱们上班,那些重复的、磨人的操作,可能真的不用自己动手了。

不过话说回来,也得考虑安全问题,比如AI误删了重要文件咋办?这肯定得提前想到。

但不管咋说,离AI替咱们干杂活的日子,是越来越近了。

来源:围炉夜话

相关推荐