别怪大模型“手笨”！GUI拖后腿，新接口让操作效率翻倍

摘要：前阵子我试着用大模型Agent帮我批量改PPT背景，本来想省点事，结果它磨磨蹭蹭跟系统交互了几十轮，最后还把“蓝色”改成了“青色”，气得我直接手动改了。

前阵子我试着用大模型Agent帮我批量改PPT背景，本来想省点事，结果它磨磨蹭蹭跟系统交互了几十轮，最后还把“蓝色”改成了“青色”，气得我直接手动改了。

相信不少人用这类Agent都遇到过类似情况，要么卡在某个步骤不动，要么干半天出错，总之就是不省心。

一开始我还以为是大模型不够聪明，毕竟宣传里说得挺厉害，怎么一到实际操作就拉胯？后来看了中科院软件研究所团队的研究才发现，冤枉大模型了，真正拖后腿的是咱们用了四十多年的图形用户界面，也就是常说的GUI。

这GUI说起来也是老熟人了，从八十年代开始就陪着电脑用户，帮咱们把复杂的命令行变成了点一点的菜单。

但问题就出在这儿，它打设计那天起就是给人用的，跟大模型的“能力习惯”完全对不上。

比如咱们想改个Word字体颜色，知道在“开始”选项卡里找下拉框，点几下就行；可大模型不行啊，它“看”不清屏幕上的按钮，让它找藏在几层菜单里的控件，跟让近视的人找掉在草丛里的钥匙似的。

还有更麻烦的，GUI要频繁“观察-操作”循环，比如拖滚动条找内容，咱们手快，拖两下就到位，大模型却得一点点试，等它推理完下一步，半天都过去了。

本来想怪大模型反应慢，但后来发现，这根本不是它的问题，是GUI的设计没考虑过“非人类操作者”。

就像你打车，本来跟司机说“去火车站”就行，结果非得一步一步指挥“往前开两百米左转”，这谁受得了？大模型现在操作电脑，就处在这尴尬的处境里。

聊到这可能有人问，那有没有办法让大模型不这么费劲？中科院团队还真找到了路子，他们搞出个叫GOI的声明式接口，核心思路特简单：让大模型只干擅长的“指挥”，具体“开车”的活儿交给GOI。

GOI这套逻辑，用大白话讲就是“分工明确”。

大模型负责想“要做什么”，比如“把Excel里的数据求和”，这是它擅长的语义规划；GOI负责想“怎么做”，比如“点哪个菜单、选哪个按钮”，这部分刚好能避开大模型的短板。

我觉得这分工太关键了，以前大模型又要想“做什么”又要想“怎么做”，相当于一边看地图一边开车，不跑偏才怪。

现在有了GOI，大模型只需要跟GOI说“我要访问求和控件”，GOI就自动找路点进去，省了好多麻烦。

而且GOI给大模型准备了三个“简单指令”，不用搞复杂操作。

想找某个功能，用“访问”指令报个ID，GOI就带路；想调滚动条位置，直接说“设到80%”，不用模拟拖拽；想拿某个控件的信息，用“观察”指令一要，结构化数据就过来了，不用大模型费劲“看”屏幕。

更省心的是，这套接口不用改现有软件的代码，也不用等软件出API，就靠系统本身的可访问性机制就能跑。

比如Windows的UIAutomation、macOS的AccessibilityAPI，这些早有的功能被GOI盘活了，这思路挺巧妙的，不是硬造新东西，而是把现有资源用对了地方。

那GOI是怎么做到的呢？分两步，先“离线画地图”，再“在线按图走”。

离线的时候，它会把Word、Excel这些软件的控件都摸一遍，记录点一下按钮后界面的变化，画出一张“UI导航图”。

不过这图一开始可能有绕路、多路口的问题，GOI会再处理一下，把它变成没歧义的“路线图”，确保每个控件都有唯一的路能到。

在线用的时候，大模型拿到这张“路线图”，直接发指令就行。

比如要改PPT背景，大模型说“访问蓝色控件和应用到全部控件”，GOI就照着路线图点按钮，不用大模型管中间步骤。

为了看GOI好不好使，团队在Word、Excel、PPT的测试集上做了实验，结果还真让人眼前一亮。

以前用GUI的时候，大模型完成任务的成功率不高，现在有了GOI，成功率提上去不少，而且超过六成的成功任务，一次调用就搞定，不用反复拉扯。

更有意思的是失败原因的变化。

以前大模型失败，多半是因为找不着控件、点错按钮这些“低级错误”，就像人出门不认路迷了路；现在失败，大多是因为没理解任务意思，比如把“深蓝色”当成了“浅蓝色”，这相当于人记错了目的地，不是路的问题了。

我觉得这变化比成功率提升更有价值，因为它说明GOI真的把大模型从繁琐的操作里解放出来了。

大模型不用再在“找按钮”这种小事上栽跟头，能集中精力干它该干的，理解用户需求。

这就像学生考试，以前总因为看错题目要求丢分，现在题目要求看明白了，丢分顶多是知识点没掌握，改进方向更明确了。

当然，GOI也不是完美的，比如现在大模型还会因为语义理解出错，但这总比因为操作失误失败强。

毕竟语义理解的问题，随着大模型升级能慢慢改善，可操作层面的问题，只要GUI还是老样子，就很难根治。

团队说，GOI不只是解决了当下的问题，还指了个新方向：以后的操作系统和软件，是不是该直接设计成“大模型友好”的样子？不用再让GOI费劲适配老GUI，原生就带这种声明式接口。

我挺认同这个想法的，现在的GUI已经用了四十多年，早就该跟上AI的脚步了。

要是以后电脑系统出厂就支持GOI这种接口，大模型Agent可能真能做到“你说一句话，它就办好事”，到时候改文档、做表格这些活儿，才是真的能省心。

大模型Agent操作电脑“理想丰满现实骨感”的问题，不是因为大模型不够聪明，而是接口没找对。

GOI的出现，算是给这个问题找到了一个靠谱的解法，也让我们看到，AI要真正融入生活，不光要让AI变强，还得让我们用的工具，跟AI“好好说话”。

来源：念寒尘缘

标签：模型 gui goi 手笨 gui拖后腿

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!