摘要:Aria-UI通过纯视觉理解,实现了GUI指令的精准定位,无需依赖后台数据,简化了部署流程;在AndroidWorld和OSWorld等权威基准测试中表现出色,分别获得第一名和第三名,展示了强大的跨平台自动化能力。
【导读】 Aria-UI通过纯视觉理解,实现了GUI指令的精准定位,无需依赖后台数据,简化了部署流程;在AndroidWorld和OSWorld等权威基准测试中表现出色,分别获得第一名和第三名,展示了强大的跨平台自动化能力。
在当今数字时代,智能助手已成为处理跨平台任务的不可或缺工具。然而,如何将用户的自然语言指令精准映射(grounding)到界面元素一直是该领域的核心挑战。
传统解决方案主要依赖调用无障碍API、解析HTML源码或提取后台数据,这些方法普遍存在效率低下、信息不完整、兼容性差等显著痛点,严重制约了自动化技术的广泛应用。
港大联合Rhymes AI推出的Aria-UI,通过开创性的「纯视觉理解」方案彻底改变了这一现状,无需任何后台数据支持,仅通过直接观察用户界面就能完成自然语言理解、界面元素定位、语义对齐和任务执行等全流程操作。这种新的设计不仅简化了部署流程,更为跨平台自动化开辟了全新范式。
项目主页: https://ariaui.github.io
Hugging Face在线demo: https://huggingface.co/spaces/Aria-UI/Aria-UI
GitHub仓库: https://github.com/AriaUI/Aria-UI
论文链接:https://arxiv.org/abs/2412.1702Aria-UI是一款专门面向GUI智能交互的创新型大规模多模态模型(LMM),颠覆性地实现了「看到即会操作」的自然交互范式 - 就像人类用户一样,AI只需「观察」界面,即可理解并自主完成复杂的操作流程,从网页浏览、文件处理到系统设置等任务都能轻松应对。
在评估AI自动化操作能力的权威基准测试中,Aria-UI配合GPT-4o展现出卓越表现: AndroidWorld榜单排名第一,OSWorld榜单排名第三!
这一成绩不仅超越了业界领先的Claude 3.5 Sonnet computer-use接口,更展示了其在模拟人类操作电脑方面的强大能力。
Aria-UI采用创新的MoE (Mixture of Experts)架构,通过智能动态激活机制,将模型参数需求压缩至仅3.9B,同时保持较好的性能。这一突破性的轻量级设计带来多重优势: 技术亮点: 极致压缩:仅激活3.9B参数,大幅降低计算资源需求 高效推理:优化的MoE架构确保快速响应和稳定性能 广泛适配:支持在资源受限场景下的灵活部署 开放生态:全面开源模型权重与训练数据 部署便利: 提供即用型vLLM推理脚本、支持主流huggingface transformers框架、完整的部署文档与示例这种开放共享的策略,配合便捷的部署方案,让Aria-UI真正做到「开箱即用」。
Aria-UI的突破性创新
智能指令适配引擎: Aria-UI设计了数据生成pipeline,通过自动合成海量高质量训练样本,为模型注入强大的指令理解能力。这套智能指令适配引擎使模型获得了卓越的泛化性能,能从容应对各类复杂任务场景,展现出非凡的环境适应能力,为实现真正的通用型AI助手奠定了坚实基础。
这些挑战不仅推动着GUI智能体技术的持续创新,也为打造更智能、更实用的自动化解决方案指明了方向。
多样化指令适配:从数据到模型的全方位提升
在开发Aria-UI的过程中,研究人员深入剖析了当前GUI Grounding领域的数据困境。传统数据集普遍存在规模受限、封闭私有、平台单一等问题,尤其是缺乏对动态任务执行过程中关键上下文信息的采集。这些局限性严重制约了多模态大模型(LMM)在跨平台场景下的表现和通用性。
多平台数据扩展:打造Web、PC与移动端全场景覆盖
采用顶尖多模态语言模型(如GPT-4o或Qwen2-VL-72B)进行元素描述生成。输入数据包含:元素截图、HTML文本信息、屏幕位置坐标。
为确保描述质量,研究人员优化了视觉输入方式:
• 独立截图:捕捉目标元素局部画面 • 放大视图:用红框标注目标元素在整体界面中的位置 这种方法能获取元素特征,包括视觉属性、功能特性和位置关系等。例如,一个红色的“订阅”按钮描述为:位于ChefMaria烹饪频道头部右上角的'订阅'按钮,鲜红色背景,白色文字搭配铃铛图标,下方显示2.3M订阅者第二阶段:多样化指令生成
基于第一阶段的精确描述,利用LLM生成自然、多样的操作指令。以上述订阅按钮为例:「 订阅ChefMaria的频道。」
为增强数据多样性,每个元素均生成3种不同表达的指令。通过这套精心设计的pipeline,成功构建了覆盖三大平台的海量高质量指令数据集,为模型训练提供了坚实基础。 网页数据(Web) 网页平台以其丰富的交互形式和动态特性,为构建GUI Grounding数据集提供了理想环境。基于最新的Common Crawl数据库,设计了以下精细化处理流程: • 网页筛选:采用fastText技术进行内容质量评估,有效过滤低质量和不当网页,重点保留交互元素丰富的高价值页面; • 元素提取:基于HTML属性进行精准识别,提取按钮、图标等高交互性元素,优先采集复杂度高且贴近实际应用场景的界面内容; • 跨设备数据采集:运用Playwright自动化工具,同步采集1920×1080(标准分辨率)和2440×1600(高清分辨率)两种规格的界面数据,确保模型的广泛适用性。 通过这套系统化的处理流程,成功从173K个网页中提取了2M个高质量交互元素,并最终生成了 6M条标准化指令样本。这些覆盖多种分辨率和界面复杂度的数据,不仅完整展现了现代网页的特性,更为GUI任务提供了丰富而实用的训练资源。 桌面数据(Desktop) 桌面环境数据的高质量采集一直是研究中的关键难点。现有数据集普遍存在规模受限、采集成本高等问题,如OmniACT数据集仅包含7.3K条人工标注样本。动态上下文感知机制
相比于静态任务,动态任务的成功执行高度依赖于对上下文信息的准确理解。Aria-UI 创新性地引入了 文本-图像混合的操作历史记录,显著增强了模型的上下文感知能力。在处理多步骤任务时,模型不仅考虑当前元素的特征,还综合分析先前操作的完整记录,从而生成更精准的操作指令。这种深度上下文感知机制使 Aria-UI 在复杂任务场景中展现出优异的准确性和稳定性。
跨平台统一解决方案
通过上述创新设计,Aria-UI 不仅有效克服了现有数据集的局限性,还在多样化指令适配方面取得了突破性进展。无论是网页、桌面应用还是移动端界面,Aria-UI 都表现出卓越的性能,为跨平台GUI自动化提供了一站式解决方案。这些进展为未来更广泛的任务自动化应用奠定了坚实基础。
模型框架:高效与精准的结合
Aria-UI 基于先进的MoE多模态大模型Aria构建,充分继承和优化了其核心优势,实现了效率与精确度的最佳平衡:
深度多模态理解: Aria的原生多模态架构专门设计用于处理复杂的跨模态信息,使GUI智能体能够准确理解和响应多样化的交互场景; 高效计算架构: 得益于精巧的模型设计,Aria以仅3.9B的激活参数实现了超越7B规模密集模型的推理速度,确保了实际应用中的快速响应能力。 突破分辨率限制, 精准适配复杂界面 面对显示技术从1080p向2K及更高分辨率演进的趋势,高分辨率图像处理能力已成为GUI Grounding模型的核心需求。 研究人员对Aria的基础架构进行了创新性改进:通过智能分块策略,将原本980×980的处理能力提升至 3920×2940,实现了超高分辨率支持。 为确保高分辨率场景下的精确定位,采用了基于NaViT的优化方案,通过保持原始宽高比的智能填充技术,有效降低了图像变形带来的精度损失。这些技术创新使Aria-UI能够在各种分辨率环境下保持稳定的性能表现。 训练与推理策略:构建动态环境适应能力 Aria-UI采用双阶段训练方案,系统性地建立基础能力并强化动态适应性: 基础能力构建阶段 在第一阶段,研究人员专注于培养模型的核心GUI Grounding能力。模型接收标准格式的指令输入(如「给定GUI图像,定位以下描述对应元素的像素坐标」),通过大量单步指令-坐标对的训练,学习准确输出归一化坐标值(0-1000范围内)的基础能力,为后续的动态任务处理奠定坚实基础。 动态能力增强阶段 第二阶段着重增强模型的动态任务处理能力,引入了包含纯文本历史和文本-图像混合历史的上下文感知训练。 为了维持模型的普适性并防止过度拟合,在训练集中保留了20%的单步数据,确保模型在保持动态处理能力的同时不会丢失基础定位准确度。 智能推理机制 在实际推理阶段,Aria-UI将输出统一的标准化坐标([0, 1000]范围),并能够将历史操作记录作为上下文输入处理。这种设计使模型能够像进行对话一样处理连续的交互任务,将过往的元素定位与交互记录纳入决策考量,从而在复杂的动态环境中展现出优异的适应能力和稳定性。 凭借这套创新的技术架构,Aria-UI在多个关键领域实现了突破:精准支持从1080p到4K的超高分辨率界面、灵活适配多样化布局设计,同时在复杂动态环境中展现出较强的任务处理能力和环境适应性。Agent任务表现
研究人员在ScreenSpot基准数据集上对Aria-UI的基础GUI Grounding能力进行了系统评估。该测试集包含六个细分场景,覆盖两类界面元素和三大主流平台(移动端、网页、桌面端)。
每个测试样本由一张GUI截图和对应的定位指令组成,其中移动端和网页场景采用2K分辨率,桌面端场景则使用540p分辨率,全面验证模型在不同应用环境下的定位准确性。Aria-UI_IH(文本-图像交替历史):该变体在文本动作历史的基础上,额外引入了前序步骤的图像信息作为辅助输入。这种多模态融合策略为任务提供了更丰富的上下文感知,尤其适合需要精确视觉理解的复杂场景。
实验结果显示,两个变体都在AndroidControl和GUI-Odyssey测试集上取得了突破性进展,显著超越现有基准模型。历史信息的引入(无论是纯文本还是文本-图像结合)都有效提升了元素定位精度和任务完成质量。其中,Aria-UI_TH凭借其出色的性能与效率权衡,展现出特别优异的应用价值。 网页端离线Agent测试 研究人员采用Multimodal-Mind2Web基准对Aria-UI在网页代理任务中的性能进行了全面评估。该基准包含三个具有挑战性的测试场景:跨任务、跨网站和跨领域,旨在系统验证模型在零样本环境下的泛化能力。 实验结果令人瞩目:Aria-UI系列模型在所有测试场景中均显著领先于现有基准方案,整体平均准确率达到57.5%。 其中,融入历史信息的变体表现更为出色,Aria-UI_TH和Aria-UI_IH的准确率进一步提升至58.9%。特别值得一提的是,Aria-UI_IH在跨网站和跨领域测试中展现出卓越表现,充分证明了其在处理复杂多模态上下文方面的优势。AndroidWorld测试:Aria-UI展现出突破性成果,其中Aria-UI_TH变体实现了44.8%的任务成功率,创造了新的性能基准。这一成绩不仅超越了现有最优方案,还优于依赖AXTree输入的非纯视觉方法(如SoM和Choice)。这充分证明了Aria-UI作为纯视觉GUI代理的卓越能力,展示了其在复杂真实场景中的稳定性和适应性。
MobileMiniWob++测试:在纯视觉输入条件下,Aria-UI的表现显著优于其他视觉方法和基于选择的方案。虽然在这个结构相对简单的测试环境中,基于GPT-4-Turbo的SoM方法取得了最佳成绩,但Aria-UI仍然在纯视觉处理领域展现出领先优势。OSWorld评估:复杂操作系统环境测试
在最具挑战性的操作系统模拟环境OSWorld中,研究人员对Aria-UI进行了深入评估。通过将Aria-UI作为核心定位模型,并与GPT-4o协同运作,我们完成了涵盖369个实际应用场景的综合测试。 实验结果显示,Aria-UI创造了15.15%的平均任务成功率,显著领先于所有现有方案。特别值得关注的是,在多个高难度应用场景中,Aria-UI展现出卓越性能: VLC播放器任务:30.06% Chrome浏览器操作:23.80%Impress演示制作:15.32%
这些证明了Aria-UI在处理复杂GUI交互时的优越能力。 综合性能总结 通过一系列严格的在线评估,Aria-UI在多个关键场景中均展现出全面的技术优势: 移动端环境:优异的定位精度 网页端应用:出色的交互能力 操作系统环境:强大的任务完成能力这些测试结果有力地证明了Aria-UI作为纯视觉GUI代理的技术先进性,展示了其在复杂多变的实际应用环境中的卓越适应能力和操作精准度。
总结
Aria-UI通过一系列严格的在线测试,在移动端、网页端及复杂的操作系统模拟环境中均展现出显著的技术优势,全面超越现有最先进解决方案。
这些测试成果不仅验证了Aria-UI作为纯视觉GUI代理的卓越性能,更凸显了其超强的环境适应能力、精确的元素定位能力和可靠的任务完成能力。如此全方位的优异表现,有力地证实了Aria-UI在处理复杂人机交互任务时的技术成熟度和实用价值。
来源:东窗史谈