拜拜了GUI,中科院团队推出“LLM助手”新体验

B站影视 日本电影 2025-10-28 15:18 1

摘要:接下来发生的事挺有意思,也挺直观的:在他们的测试里,把传统的图形界面(GUI)那套一步步点的命令式操作,换成声明式的接口后,Agent在像Word、Excel、PowerPoint这种办公软件上的成功率,从大概44%直接飙到74%。更让人眼前一亮的是,超过61

GOI把问题从“不会做”变成了“做错了目的地”。

接下来发生的事挺有意思,也挺直观的:在他们的测试里,把传统的图形界面(GUI)那套一步步点的命令式操作,换成声明式的接口后,Agent在像Word、Excel、PowerPoint这种办公软件上的成功率,从大概44%直接飙到74%。更让人眼前一亮的是,超过61%的成功案例只用了1次LLM调用就解决了——一次到位,没来回折腾。这些数字看着真实,也有点扎心,说明问题变得更本质了。

先把背景说清楚。原先那些智能体主要是把屏幕当成“要操控的对象”:看控件长什么样、模拟鼠标点击、拖来拖去、再看反馈、再点下一步。评测基线里失败的原因里,有一半多(约53%)是机制层面出错:视觉识别出问题、导航走偏、和控件交互失败。换句话说,很多失败并不是策略思路错了,而是“手脚”不灵,一不小心就把路给走歪了。

GOI的做法有点像给机器换了一副工具:把“怎么做”这件事交给一套可靠的机制去干,让大模型专心说“要做什么”。他们用的比喻也直白——你现在不能只是告诉司机目的地,反而要一路告诉司机怎么踩油门、怎么转弯。GOI把这种命令式接口换成声明式接口,LLM只需说“我要去XX”,具体怎么开路由“老司机”来负责。

技术上,核心是把策略和机制分开。策略是高层目标(例如“把所有幻灯片背景改成蓝色”),机制是把这句目标拆成一连串点击、滚动、菜单选择这些低级操作。GOI只向LLM暴露三类简单原语:访问(access)、状态(state)和观察(observation)。LLM不用描述每一步点击,也不用去模拟拖动滚动条找位置,可以直接用类似set_scrollbar_pos把滚动条设到80%,把那些容易出错的微操作交给GOI去做。

为了让这种接口可靠,GOI先做了离线的“画地图”工作。在离线阶段,它自动探索目标应用里可访问的控件,记录每次点击前后的界面变化,从这些变化里拼出一张UI导航图。复杂应用里这图会很乱:有循环路径,有不同路径通到同一个控件,还有同一控件在不同路径触发不同功能。GOI用去循环和基于成本的选择性外化算法,把这张乱网理成一棵棵路径清晰的“森林”。结果就是,当LLM想去访问某个功能时,GOI能给出一条唯一明确的路径,减少歧义和冲突。

上线执行时,GOI把离线得到的信息压缩成对LLM友好的“文本地图”,塞进LLM上下文。LLM要操作时,不是吐一堆点击命令,而是调用access指定控件ID,或用state把目标控件设到某个状态,用observation拿回结构化控件信息。整个过程不需要改软件源码,也不依赖应用自己提供API,GOI是基于操作系统和应用的可访问性机制来实现的,这点决定了它通用性比较强,短期内更容易落地。

举个直观例子来说明:传统流程是“点击设计—格式背景—纯色填充—选蓝色—应用到全部”,每一步都得模拟鼠标。用GOI,LLM只需要一句高层话:“访问颜色蓝色并应用到全部”,剩下的导航、点击、确认全由GOI替你完成。听起来像偷懒,但实质是把那些反复出错的细节交给专门能稳妥完成它们的模块去干。

评测数据能说明问题。以GPT-5做推理模型的设置为例,成功率从44%升到74%,而超过61%的成功任务只召唤了一次LLM API。失败的性质也发生了转移:以前失败多半是机制层面,现在失败大多是策略层面的理解问题(约81%)。也就是说,GOI把“找不到控件”“点错按钮”这类低级问题干掉了,留下的是LLM在理解界面语义、图片内容或功能意图上的不足。

这些剩下的问题同样有意思。比如有的LLM会把界面上的图片内容理解错,或者不清楚“全局应用”这类功能该如何处理,于是操作偏差。换句话说,现在工程师们不用再花大量精力去调那种“看屏幕点鼠标”的低级错误,得把刀口往LLM的语义理解能力上磨一磨:要让它更准确地分辨图片里的东西,更明确地理解像“应用到全部”这种模糊指令的边界。听着倒像把低级错误剃掉后,留下更有挑战性的脑力活。

还有一些实现细节值得一提:GOI把离线得来的导航图压缩成对LLM友好的文本,实际运行时需要保持这些信息的时效性。应用升级、界面改版,都会让这张“地图”变老旧——这就是工程上需要考虑的维护成本。不过好处也明显:不改应用源代码、不要求应用厂商做额外接口,只靠操作系统的可访问性层就能实现,这比让每个应用都重新设计接口要现实得多。

最后,说到出处和证明,这项工作是在一个叫OSWorld-W的基准上做的,覆盖了常见办公软件操作场景。对比的基线主要是那些直接把GUI当操作对象的智能体。论文和评测细节可以在arXiv上看到,地址是:https://arxiv.org/abs/2510.04607。原文来自中国科学院软件研究所团队,量子位微信公众号和36氪都有转载或授权发布。

来源:小铭说科学

相关推荐