你敢信?GPT-5的电脑操作水平只比人类低2%了!AI革命再突破

B站影视 内地电影 2025-10-06 18:14 1

摘要:想象一下,你需要订个票、填写个表格,过去你可能得亲自敲键盘点鼠标,但现在有了智能体,它直接就能在你的电脑上替你操作,让你省下时间,去做一些更有意义的事情。

在阅读文章前,辛苦您点下“关注”,方便讨论和分享。作者定会不负众望,按时按量创作出更优质的内容。

你听说过Agent S3吗?不,这不是个新出的游戏角色,也不是某个神秘的超级英雄,而是人工智能领域的“大杀器”。

它不但刷新了智能体(Agent)技术的成绩,还把人类水平快要追赶上了!

从单次运行的62.6%提升到69.9%,一跃超越现有的SOTA(当前最佳),真的是“黑科技”里的一股清流!

这意味着,未来我们可能不用亲自操作电脑了,智能体就能在背后“替我们做事”,把所有的繁琐操作都给完成了。

首先给你科普一下:智能体(Agent)是什么?简单来说,就是能像人一样在电脑上代替我们做事的AI工具。

想象一下,你需要订个票、填写个表格,过去你可能得亲自敲键盘点鼠标,但现在有了智能体,它直接就能在你的电脑上替你操作,让你省下时间,去做一些更有意义的事情。

就像你有了一个虚拟助手,能完成很多操作——而且比你还更高效!比方说,它能一口气做十件事,而你做一件可能就已经喘不过气了。

但是说实话,早期的智能体并不是特别靠谱,就像是你刚买的游戏角色,刚上线时经常出错,点错按钮、点错地方,一个小小的失误,任务就搞砸了。

这个问题正是CUAs(计算机使用智能体)面临的最大挑战——高方差,每次运行结果都不一样,时好时坏,简直让人捉摸不透。

但好消息来了,Agent S3引入了一个叫做“Behavior Best-of-N(bBoN)”的功能,简单来说,智能体不再做一次就算了,而是通过并行扩展,让它们同时“多试几次”,然后从多个结果中选出最优秀的那个。

这个方式帮助Agent S3的成功率从62.6%直接冲上69.9%,都快接近人类的72%水平了!

这意味着,智能体的表现几乎可以媲美我们这些操作系统的“老司机”了。

而且这个新系统比之前的版本有了更大改进,以前,Agent S2 还得分成“管理者”和“工人”两部分来处理任务,但到了Agent S3,直接简化了框架,把“管理层”删掉,效率直接提升,原本的“阶级”结构消失了,智能体直接就能通过原生代码执行任务。

这意味着,我们未来或许真的能做到——当智能体运行一次失败时,不再感到灰心丧气,它能继续试,直到找出最有效的路径,不断在进步,甚至可能在某一天,超越人类水平。

所以,Agent S3和它背后的技术,真正为智能体的发展带来了“新突破”。

它不仅仅是一个能完成简单任务的工具,还是一个可以理解并在复杂环境中做出最优决策的“伙伴”。

从50%成功率到接近人类水平的70%,这简直就像是“升级版”的你,而且随着这些技术的不断进步,未来的智能体可能不仅仅是为你执行任务,它们可能会在更多领域和你共同合作,成为你不可或缺的“工作伙伴”。

未来的工作模式,可能就是这样,人与智能体共同进步、共同工作。

来源:昕昕局

相关推荐