Google推出Gemini 2.5 Computer Use能“动手操作”的AI模型,比谁都更会用计算机

B站影视 内地电影 2025-10-11 15:52 1

摘要:Google近日公开预览全新AI模型Gemini 2.5 Computer Use,主打一项突破性功能:不只看得懂画面、理解需求,更能主动“动手操作UI”,像人类一样在网页或App上点击、输入与滑动。

Google近日公开预览全新AI模型Gemini 2.5 Computer Use,主打一项突破性功能:不只看得懂画面、理解需求,更能主动“动手操作UI”,像人类一样在网页或App上点击、输入与滑动。

在多项基准测试中,这款模型表现超越OpenAI与Anthropic竞品,更以超低延迟与高准确率成为目前业界表现最佳的“计算机代理人模型”。

Gemini 2.5 Computer Use模型构建在Gemini 2.5 Pro基础上,具备强大的视觉理解与推理能力。它不靠API,而是通过模拟人类的使用行为,来完成任务,例如:

在网页上填写与送出表单

拖拽画面上的项目

操作菜单、下拉菜单、登录系统

甚至在遇到关键操作(如付款)时,主动请求用户确认

这些操作过程会持续进行,直到任务完成为止,就像人类在执行工作流程一样自然。

模型运行的关键流程如下:

开发者将用户请求、屏幕截屏与以往动作历史提供给模型

模型分析这些数据后回传一个UI操作(如点击、输入)

客户端执行该动作,并回传最新画面与网址给模型

循环开始下一轮,直到任务完成、错误发生,或用户终止

在Browserbase与Google自行执行的基准测试中,Gemini 2.5 Computer Use的表现如下:

在“准确率70%以上”的前提下,Gemini 2.5仍保持极低延迟

适合用于需要快速决策、连续操作的使用场景

Google表示,这类能控制计算机的AI引入了新的风险(如恶意指令、诈骗网站、模型误判),因此他们设计了三层安全机制:

模型内置安全训练:防止滥用与潜在危害行为

推论阶段即时风控(Per-step safety service):每步操作都经过外部安全系统审核

开发者可自订高风险行为是否需用户确认(例如付款、登录等)

Google自家与早期合作伙伴已经实际部署此模型,应用场景包括:

Firebase Testing Agent:自动执行UI测试,提高开发速度

Project Mariner:作为搜索AI模式的一部分

Google支付平台团队:原先常出错的E2E测试流程,通过模型修复成功率提升60%

第三方如Poke.com、Autotab:用于行动助理、数据截取、自动调度等

目前模型已于Google AI StudioVertex AI开放开发者预览,而用户也可以通过Browserbase试用范例环境来尝试看看。

来源:小倩说科技

相关推荐