browsecomp测试

OpenAI开源BrowseComp测试基准，Deep Research模型浏览器能力大突破？

在科技界的又一重大进展中，OpenAI于今日凌晨正式推出了BrowseComp，一个专为智能体浏览器功能设计的挑战性测试基准。据悉，该基准测试难度极高，即便是OpenAI自家的GPT-4o与GPT-4.5，在这项测试中的表现也不尽如人意，准确率分别仅为0.6%