摘要:一波由 AI 驱动的浏览器代理工具正在兴起,它们承诺将改变企业与网络交互的方式。这些代理工具可以自主导航网站、检索信息,甚至完成交易 —— 但早期测试显示,承诺与实际表现之间存在显著差距。
一波由 AI 驱动的浏览器代理工具正在兴起,它们承诺将改变企业与网络交互的方式。这些代理工具可以自主导航网站、检索信息,甚至完成交易 —— 但早期测试显示,承诺与实际表现之间存在显著差距。
虽然 OpenAI 新推出的浏览器代理工具 Operator 提供的消费者应用案例(如订购披萨或购买游戏票)引起了广泛关注,但关键问题在于主要的开发者和企业用例在哪里。AI 代理应用开发公司 Red Dragon 的联合创始人 Sam Witteveen 表示:"我们尚不清楚killer app会是什么。我猜测会是那些在网上耗时且枯燥的任务。"这包括在网上搜索产品最低价格或预订最佳酒店住宿等。更可能的是,它将与 Deep Research 等其他工具结合使用,让公司能够进行更复杂的研究并执行网络任务。
随着老牌公司和初创企业采用不同方法解决自主浏览难题,企业需要仔细评估这个快速发展的领域。
浏览器代理工具领域的主要参与者
该领域已经迅速涌现出大型科技公司和创新型初创企业:
OpenAI 的 Operator (2025 年 1 月推出) - 面向 ChatGPT Pro 订阅用户 (每月 200 美元),专注于消费者友好的网络自动化
Convergence 的 Proxy (2024 年 12 月推出) - 英国初创企业提供限量免费使用 (每天 5 次) 或每月 20 美元无限制访问
Google 的 Project Mariner - 目前处于预览测试阶段,需要等待访问权限
Anthropic 的 Computer Use (2024 年 10 月推出) - 预计即将发布更新
Microsoft 的 OmniParser V2 (2025 年 2 月) - 一个将 UI 截图转换为结构化数据的开源项目,允许大语言模型解释和与网站交互
ByteDance 的 UI-TARS - 需要更深层的系统访问权限,引发潜在安全问题
Browser-Use - 一个面向开发者的工具,允许选择 AI 模型,包括 Google 的 Gemini 2.0 Flash
Operator 和 Proxy 在消费者友好性和开箱即用方面最为先进。其他产品似乎更多地定位于开发者或企业使用。例如,Y-Combinator 创业公司的 Browser Use 允许用户自定义代理使用的模型,包括使用本地机器上的模型,但使用起来较为复杂。
其他列出的工具提供不同程度的功能和与本地机器资源的交互。我暂时决定不测试 ByteDance 的 UI-TARS,因为它请求对机器的安全和隐私功能进行较低级别的访问(如果要测试,我一定会使用备用电脑)。
测试揭示推理能力的挑战
最容易测试的是 OpenAI 的 Operator 和 Convergence 的 Proxy。在我们的测试中,结果突显了推理能力比原始自动化功能更为重要。特别是 Operator 表现出更多 bug。
例如,我要求代理工具找出并总结 VentureBeat 最受欢迎的五个故事。这是一个模糊的任务,因为 VentureBeat 并没有"最受欢迎"栏目。Operator 在处理这个任务时遇到困难。它首先陷入无限滚动循环,搜索"最受欢迎"的故事,需要手动干预。在另一次尝试中,它找到了一篇三年前的文章"本周五大故事"。相比之下,Proxy 表现出更好的推理能力,它将主页上最显眼的五个故事作为衡量受欢迎程度的实际指标,并提供了准确的总结。
在实际任务中,这种区别变得更加明显。我要求代理工具在加州纳帕预订中午的浪漫餐厅。Operator 采用线性方法 —— 先找到浪漫餐厅,然后检查中午是否有空位。当没有空位时,它就陷入了死胡同。Proxy 显示出更复杂的推理能力,它从 OpenTable 开始,寻找既浪漫又在所需时间有空位的餐厅。它甚至找到了一家评分略高的餐厅。
即使是看似简单的任务也揭示了重要的差异。在 Amazon 上搜索"YubiKey 5C NFC 价格"时,Proxy 比 Operator 更快找到了该商品。
OpenAI 并未透露多少关于培训其 Operator 代理的技术细节,只是表示已经在浏览器使用任务上训练了其模型。相比之下,Convergence 提供了更多细节:其代理使用称为生成树搜索的技术,"利用 Web-World 模型预测提议行动后的网络状态。这些预测被递归地生成,产生可能未来的树状结构,通过价值模型对其进行排名来选择下一个最优行动。我们的 Web-World 模型还可以用于在假设情况下训练代理,而无需生成大量昂贵的数据。"
基准测试现阶段可能无意义
从表面上看,这些工具似乎不相上下。Convergence 的 Proxy 在 WebVoyager 基准测试中达到 88% 的成绩,该测试评估网络代理在 Amazon 和 Booking.com 等 15 个流行网站上完成 643 个实际任务的能力。OpenAI 的 Operator 得分为 87%,而 Browser-Use 声称达到 89%,但承认是在"根据需求"略微修改 WebVoyager 代码库后才达到的。
这些基准测试分数应该持谨慎态度,因为它们可能被操纵。真正的考验来自于实际用例中的实践使用。目前还很早期,这个领域变化极快,这些产品几乎每天都在更新。结果将更多地取决于你试图完成的具体工作,你可能需要依靠使用不同产品时的直观感受。
对企业的影响
对企业自动化的影响是重大的。正如 Witteveen 在我们的视频播客对话中深入探讨这一浏览器使用趋势时指出的,许多公司目前都在为虚拟助理(由真人操作)支付费用,处理基本的网络研究和数据收集任务。这些浏览器代理工具可能会极大地改变这种情况。
Witteveen 指出:"如果 AI 接管这些工作,这将是人们失业的第一批低垂果实之一。这种情况将在某些领域出现。"
这可能会融入机器人流程自动化 (RPA) 趋势,浏览器使用将成为公司自动化更多任务的又一个工具。如前所述,更强大的用例将是代理工具将浏览器使用与其他工具结合,包括 Deep Research 等,让大语言模型驱动的代理使用搜索工具加上浏览器使用来完成更复杂的工作。
推动创新的成本动态
另一个推动快速发展的关键因素是强大的开源推理模型(如 DeepSeek-R1)的可用性。这使得构建这些浏览器代理工具的公司能够通过利用这些模型而不是自建模型来有效地与大型公司竞争。
价格压力已经显现。虽然 OpenAI 需要每月 200 美元的 ChatGPT Pro 订阅才能访问 Operator,但 Convergence 提供有限的免费使用(每天最多五次)和每月 20 美元的无限计划。这种竞争动态应该会加速企业采用,尽管明确的用例仍在浮现。
安全和集成挑战
在广泛的企业采用之前仍存在几个障碍。一些网站主动阻止自动浏览,而其他网站需要 CAPTCHA 验证。虽然 OpenAI 和 Convergence 都有工具可以绕过 CAPTCHA,但它们让用户接管任务来填写这些验证码 —— 而不是直接完成,因为 CAPTCHA 的全部目的是确保另一端是人类。像 ByteDance 的 UI-TARS 这样的工具请求深层系统访问权限,这给企业部署带来了安全隐患。
此外,与网站合作的方式也各不相同。OpenAI 与 Instacart、Priceline、DoorDash 和 Etsy 等特定合作伙伴合作,而其他公司则尝试导航任何网站。这种不一致性可能影响企业用例的可靠性。当然,每当代理工具遇到需要登录详细信息的网站时,都会减慢速度 —— 因为代理工具会让用户填写这些详细信息。
展望未来
对于评估这些工具的企业来说,重点应该放在自主网络交互能够提供明确价值的具体用例上 —— 无论是在研究、客户服务还是流程自动化方面。技术正在快速进步,但成功将取决于能力与具体业务需求的匹配程度。
随着这个领域的发展,预计将出现更多面向企业的功能,可能还会出现针对特定行业或任务的专门代理工具。老牌公司和创新型初创企业之间的竞争应该会推动技术进步和竞争性定价,使 2025 年成为企业浏览器代理工具采用的关键一年。
来源:至顶网