摘要:他们的Agent S3在CUA基准测评OSWorld里拿了69.9%的成绩,离人类72%的操作水平就差2个多点。
2025年10月4号,Simular Research那边扔出个大消息。
他们的Agent S3在CUA基准测评OSWorld里拿了69.9%的成绩,离人类72%的操作水平就差2个多点。
其实,之前看CUA这技术,我还觉得它顶多帮着填填简单表格,没想到现在都快追上人了。
先跟大伙说下CUA是啥,它全名叫计算机使用智能体,不是那种光会跟你聊天的AI。
你用鼠标点图标、用键盘输内容、用软件做报表,这些活儿它都能替你干。
现在不少公司都盼着这技术能成熟,毕竟重复操作太磨人了,要是AI能接手,效率能提一大截。
Agent S3不是突然冒出来的厉害角色,它前面还有两代“前辈”。
一年前,第一代Agent S去测OSWorld,才拿了20.6%的成绩。
那时候业内还说,CUA要想用起来,最少还得等个三五年。
后来Agent S2出来了,直接把成绩拉到48.8%。
这一下就不一样了,不少办公软件厂商开始找Simular合作,想把这技术嵌进去。
本来想这48.8%已经够猛了,没想到S3更狠,直接冲到69.9%,还超了之前的行业最佳10个点。
Simular的研究负责人,就是加州大学圣巴巴拉分校的Xin Eric Wang教授,人家直接说“接下来要超越人类的计算机使用”。
其实,这话要是放一年前,我肯定觉得是吹牛,但看这迭代速度,还真有可能实现。
而且Agent S3不光成绩好,还把论文和代码都公开了。
论文叫《The Unreasonable Effectiveness of Scaling Agents for Computer Use》,在arXiv上能搜到,代码也放GitHub了。
如此看来,他们是真想让行业一起把这技术做起来,不是藏着掖着搞垄断,这点还挺让人佩服的。
Agent S3能有这成绩,核心是靠个叫bBoN的框架,全名叫Behavior Best-of-N。
本来想简单说这框架就是让多个智能体一起干活,选最好的结果,但后来发现没那么简单。
之前的CUA有个大问题,就是不稳定。
有时候能把任务完成得好好的,有时候一个误点、一个弹窗,整个流程就崩了。
业内叫这“高方差”,说白了就是不靠谱。
bBoN就是来解决这个问题的,它分两步走。
第一步,是“行为叙事生成”。
智能体每次操作都会留下一堆细节,比如“点了桌面图标,等了0.5秒,打开了Excel”。
bBoN会把这些没用的细节去掉,直接总结成“打开目标Excel文档”。
这样一来,不同智能体的操作结果就好对比多了。
第二步。是“行为最佳选择评判”。
它不看原始的操作记录,就看刚才总结的“行为叙事”。
比如A智能体用了3步打开文档,B用了5步,还多错点了一次,那肯定选A的结果。
很显然,这样选出来的结果,靠谱程度比单个智能体高多了。
除了bBoN,Agent S3还把之前的框架精简了。
Agent S2有个“管理者-工作者”的分层结构,现在S3给拆了,还加了个“原生代码智能体”。
这智能体不光能操作用户界面,还能直接写代码处理数据。
毫无疑问,这样一来,它能做的事就更多了,效率也上去了。
测试数据也能说明问题,用GPT-5跑的时候,加了bBoN之后,成功率比单次跑高了不少,LLM调用次数少了一半多,任务完成时间也短了六成。
更厉害的是,在调文档格式、录简单数据这些任务里,它的成功率已经超过人类了。
还有个有意思的发现,要是把不同模型搭一起用,效果更好。
比如GPT-5加Gemini 2.5 Pro,成功率能到66.7%,任务覆盖率也有78%。
其实,这俩模型各有擅长,一个写代码厉害,一个操界面厉害,放一起就是1+1>2。
最后说句实在的,Agent S3这次的突破,不光是数字好看。
它意味着以后咱们上班,那些重复的、磨人的操作,可能真的不用自己动手了。
不过话说回来,也得考虑安全问题,比如AI误删了重要文件咋办?这肯定得提前想到。
但不管咋说,离AI替咱们干杂活的日子,是越来越近了。
来源:围炉夜话