摘要:这是一个用于评估 AI 智能体复现最前沿 AI 研究能力的基准测试。智能体需从零开始复现 20 篇 ICML 2024 Spotlight 和 Oral 论文,包括理解论文贡献、构建代码库并成功执行实验。
深夜,OpenAI再次发力Agent领域,开源了一个全新的AI Agent评测基准—— PaperBench。
这是一个用于评估 AI 智能体复现最前沿 AI 研究能力的基准测试。智能体需从零开始复现 20 篇 ICML 2024 Spotlight 和 Oral 论文,包括理解论文贡献、构建代码库并成功执行实验。
看得出,OpenAI新的基准测试PaperBench,无疑是想将现在DeepResearch的功能更近一步,剑指AI科学家、甚至诺奖级AI。
那么AI搞科研的水平目前咋样呢?
OpenAI也用这个最新基准测试了一把目前最顶尖的LLM,结果就是——人类并没有一败涂地!“顶尖的“人工智能博士”尝试了 PaperBench 的一个子集,结果发现模型的性能尚未超过人类基线。”
有趣的是,在OpenAI家的基准上,表现最好的居然是死对头Anthropic。使用开源 scaffolding 框架的 Claude 3.5 Sonnet(新版),其平均复现得分为 21.0%。
OpenAI指出,智能体的失败显示出当前模型在执行 长时间、多步骤任务 上的弱点。尽管它们能规划多步骤计划、写出流程,却很难真正一步步执行这些计划。
OpenAI已经开源PaperBench代码,旨在推动未来对 AI 智能体工程能力的研究:
开源地址:
论文阅读:
那么,我们来看看PaperBench究竟指明了Agent进化的那些方向,又是如何构成的?
为实现客观评估智能体能力,OpenAI整了一套“套娃式”的评分标准。
将每个复现任务按层次细分为多个小任务,并配有明确的评分标准。整个 PaperBench 共包含 8,316 个可单独评分的子任务。这些评分标准专业到是由OpenAI成员和每篇 ICML 论文的作者共同开发,那真的是很权威了。
那怎么能方便地给每个智能体评分呢?——外包给AI,OpenAI开发了一个基于大语言模型(LLM)的自动评分系统,AI评估AI。
然后又套娃了一把:OpenAI又另外构建了一个专门的评分基准来评估该评分系统本身的性能,验证下这个 LLM 评委到底靠不靠谱。
我们来看一下这个层级树具体如何为AI打分:
图中右边的文字说明:
每一层越往下,要求越具体(finer granularity)。所有的叶子节点都由评审(LLM)逐个打分(1 表示通过,0 表示失败)。每个子任务都有一个权重(灰色数字),最终通过加权平均把得分向上传递,得出总得分。以"测试时模型自适应"论文为例,其评分树结构如下:
在OpenAI的论文中提到了测试环境:每个智能体都在一个 Ubuntu 24.04 的 Docker 容器中运行,该容器配备了一块 A10 GPU。
智能体在容器内有一个本地工作目录,其中包含:
论文的 PDF 和 Markdown 格式版本,补充材料(addendum),以及一份指令文本文件。此外,OpenAI还使用了一个基于 Inspect AI 基础智能体 的简单智能体脚手架,称为 BasicAgent,并用 nanoeval 来调度运行。
这个脚手架会循环调用各种工具,直到模型选择自行终止,或时间用完为止。
在运行过程中,智能体还获得了一个原始工具箱,可以调用几种工具:
一个 Bash shell 命令执行工具,一个 Python 代码执行工具,一个网页浏览器工具,一个分页文件阅读器(用于阅读长文档)。我们先来看看AI对战的结果:
OpenAI在所有 20 篇论文上评估了以下模型,每篇论文运行 3 次:GPT-4o、 o1、 o3-mini、 DeepSeek-R1、 Claude 3.5 Sonnet(新版)、 Gemini 2.0 Flash参与了这次竞赛。
OpenAI还报告说,原本也想评估 Claude 3.7 Sonnet,但由于 Anthropic API 的调用限制,未能完成实验。小编想,如果测成了Anthropic的评分可能更高?
来看一下这个榜单,其中Claude 3.5 Sonnet 表现最亮眼,得分 21.0%;R1的表现也算不错,在其中位列第三名。
通过手动查看了多个智能体的运行日志,OpenAI发现:
智能体经常偷懒摆烂:除了 Claude 3.5 Sonnet 外,其他模型经常提前结束任务,说要么“已经完成了复现”,要么“遇到了无法解决的问题”。策略不合理:所有模型都没有制定出 在有限时间内复现论文的合理策略。工具调用有问题:o3-mini 经常在工具使用上失败。(这也是o3-mini惨败的重要原因,只能动脑不能动手)再来看这个基准上的人机对战结果:
虽然人类三小时后取胜了,但是看看OpenAI招募的测试员,还是感觉一阵冷汗了:参与和顶尖智能体PK的 8 个人类,均为正在攻读或已完成机器学习博士(PhD)的人来构建人类基线(human baseline)。(注:他们来自伯克利、剑桥、卡内基梅隆、哥伦比亚、康奈尔、普渡、维也纳理工、麻省大学阿默斯特)
这次只在 4 篇论文上建立人类基线。每篇论文安排 3 次独立的复现实验,每次由参与者中最有信心复现该论文的人来执行。
与此同时,OpenAI也对 o1 模型(使用 IterativeAgent)进行了一个 36 小时扩展实验,并在第 1、3、6、12、36 小时分别保存快照。
我们将这个 o1 的 36 小时版本与人类的表现随时间变化进行了对比。发现:
在复现初期,o1 模型表现超过人类基线;但在 24 小时后,人类的表现开始反超 AI。这一趋势与 Wijk 等人(2024)以前的研究一致:AI 初期输出快、人类后劲更强。
特别值得注意的是,o1 的得分在第一小时后几乎就停滞了,说明它虽然能迅速产出大量代码,但难以在更长时间内有效策略性地优化方案。
相比之下,人类在初期得分提升缓慢,可能是因为他们花时间认真理解论文内容。
OpenAI 的 PaperBench,像是一场酣畅淋漓的机器学习界“神仙打架”——AI 和顶尖人类选手打得有来有回,而最终人类的反超,也像是武侠电影结尾中的神来一笔。
这次“AI 智能体 vs 满级 PhD 工程师”的对决,既展现了智能体的潜力,也提醒我们:真正的科研复现,还远不只是“写出代码”这么简单。
而另一方面,智能体也远不便宜。就在上周,负责维护 ARC-AGI 的 Arc Prize 基金会更新了 o3 的计算成本:该机构最初估计,在测试中表现最好的 o3 配置(即 o3 high)解决一道 ARC-AGI 题目的成本约为 3,000 美元。最近已经更正到高达 30,000 美元。而此前OpenAI 也被外媒曝出可能会为某些 AI Agent 收取每月 2 万美元的企业级费用。更让人警醒的是,o3 high 为了完美答对一道题,平均尝试了 1024 次。
当下的 AI 模型也许足够强,但想高效、可控地替代人类,还没那么快。
来源:51CTO