OpenAI开源BrowseComp测试基准,Deep Research模型浏览器能力大突破?
在科技界的又一重大进展中,OpenAI于今日凌晨正式推出了BrowseComp,一个专为智能体浏览器功能设计的挑战性测试基准。据悉,该基准测试难度极高,即便是OpenAI自家的GPT-4o与GPT-4.5,在这项测试中的表现也不尽如人意,准确率分别仅为0.6%
浏览器 deepresearch browsecomp测试 2025-04-11 09:56 3
在科技界的又一重大进展中,OpenAI于今日凌晨正式推出了BrowseComp,一个专为智能体浏览器功能设计的挑战性测试基准。据悉,该基准测试难度极高,即便是OpenAI自家的GPT-4o与GPT-4.5,在这项测试中的表现也不尽如人意,准确率分别仅为0.6%
浏览器 deepresearch browsecomp测试 2025-04-11 09:56 3