摘要:随着 LLM(大模型)和 MLM(多模态语言模型)等基础模型的不断发展,AI Agent(也有人说是 AI 智能体/代理)能够完成更加复杂的任务。
随着 LLM(大模型)和 MLM(多模态语言模型)等基础模型的不断发展,AI Agent(也有人说是 AI 智能体/代理)能够完成更加复杂的任务。
AI Agent 利用 MLM 获得了视觉功能,这些 Agent 能够模拟人类与 GUI(Graphical User Interfaces,图形用户界面)交互的方式,通过执行单击和填写信息等操作来满足用户请求。
这就是 ACI(AI Agent Computer Interfaces,AI Agent 计算机接口)。
本文将向你介绍 ACI 在数据、框架和应用程序方面的创新。
由于 GUI 是人类与数字设备之间的主要交互点,因此让 AI Agent 模拟人类与 GUI 的交互方式是有意义的。但是直到最近,AI Agent 像人类一样与 GUI 交互的想法似乎还是不可想象的。
这一突破之所以成为可能,得益于两项关键技术突破:
下图展示了过去一段时间内纯文本和文本与视觉 AI Agent 的发展。
这个发展历程图是探索现有 ACI 框架的一个非常好的起点。需要注意的是,AI Agent 本身并不是语言模型。
AI Agent 以一个或多个语言模型为骨干,在模型具有视觉功能的情况下,模型需要为 AI Agent 提供此功能。
AI Agent 是一个作为模型扩展的框架,下图显示了 Anthropic 最新的可以操作计算机的 AI Agent 架构。
我个人喜欢 ACI 这个简称,但上图使用了 GUI Agent 这个术语……
原则上,GUI Agent 旨在自动控制设备以完成用户指定的任务。
它们处理用户的查询和设备的当前 UI 状态,然后执行一系列类似人类的操作以实现预期结果。
这些 Agent 通常由五个关键组件组成:
GUI 感知器,分析设备的界面。任务规划器,将任务分解为可操作的步骤。决策者,选择最佳行动。记忆检索器,访问相关的过去交互或数据。执行器,在设备上执行计划的操作。这种结构存在变体。例如,一个框架包括用于规划、决策和反思的专门 Agent,以有效地引导移动设备操作。
由于界面的多变性和动态性,跨不同 GUI 处理复杂的多步骤任务尤其具有挑战性。
此外,推理效率也是一个关键因素。
人类对响应时间非常敏感,通常认为 200 毫秒以下的延迟是可以接受的,而较长的延迟会迅速降低用户体验。
当前的 GUI Agent 通常面临以秒为单位的推理和通信延迟,严重影响用户满意度。最小化这些延迟或使 (M)LLM 能够直接在移动设备上运行是一项迫切需要解决的挑战。
本文,完。觉得本篇文章不错的,记得随手点个赞、收藏和转发三连,感谢感谢~如果想第一时间收到推送,请记得关注我们⭐~
来源:AIGC研究社一点号