Google推出Gemini 2.5 Computer Use能“动手操作”的AI模型，比谁都更会用计算机

摘要：Google近日公开预览全新AI模型Gemini 2.5 Computer Use，主打一项突破性功能：不只看得懂画面、理解需求，更能主动“动手操作UI”，像人类一样在网页或App上点击、输入与滑动。

Google近日公开预览全新AI模型Gemini 2.5 Computer Use，主打一项突破性功能：不只看得懂画面、理解需求，更能主动“动手操作UI”，像人类一样在网页或App上点击、输入与滑动。

在多项基准测试中，这款模型表现超越OpenAI与Anthropic竞品，更以超低延迟与高准确率成为目前业界表现最佳的“计算机代理人模型”。

Gemini 2.5 Computer Use模型构建在Gemini 2.5 Pro基础上，具备强大的视觉理解与推理能力。它不靠API，而是通过模拟人类的使用行为，来完成任务，例如：

在网页上填写与送出表单

拖拽画面上的项目

操作菜单、下拉菜单、登录系统

甚至在遇到关键操作（如付款）时，主动请求用户确认

这些操作过程会持续进行，直到任务完成为止，就像人类在执行工作流程一样自然。

模型运行的关键流程如下：

开发者将用户请求、屏幕截屏与以往动作历史提供给模型

模型分析这些数据后回传一个UI操作（如点击、输入）

客户端执行该动作，并回传最新画面与网址给模型

循环开始下一轮，直到任务完成、错误发生，或用户终止

在Browserbase与Google自行执行的基准测试中，Gemini 2.5 Computer Use的表现如下：

在“准确率70%以上”的前提下，Gemini 2.5仍保持极低延迟

适合用于需要快速决策、连续操作的使用场景

Google表示，这类能控制计算机的AI引入了新的风险（如恶意指令、诈骗网站、模型误判），因此他们设计了三层安全机制：

模型内置安全训练：防止滥用与潜在危害行为

推论阶段即时风控（Per-step safety service）：每步操作都经过外部安全系统审核

开发者可自订高风险行为是否需用户确认（例如付款、登录等）

Google自家与早期合作伙伴已经实际部署此模型，应用场景包括：

Firebase Testing Agent：自动执行UI测试，提高开发速度

Project Mariner：作为搜索AI模式的一部分

Google支付平台团队：原先常出错的E2E测试流程，通过模型修复成功率提升60%

第三方如Poke.com、Autotab：用于行动助理、数据截取、自动调度等

目前模型已于Google AI Studio与Vertex AI开放开发者预览，而用户也可以通过Browserbase试用范例环境来尝试看看。

来源：小倩说科技

标签：模型 gemini google 计算机 ai模型

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!