摘要:近期,AI评测领域迎来了一场前所未有的风暴,由AAI机构推出的FormulaOne基准测试让业界为之震动。此次测试汇集了GPT-5、Grok4、o3Pro等顶尖AI模型,然而结果却令人大跌眼镜:所有参赛模型在测试中均未能及格,得分全部为零。
近期,AI评测领域迎来了一场前所未有的风暴,由AAI机构推出的FormulaOne基准测试让业界为之震动。此次测试汇集了GPT-5、Grok4、o3Pro等顶尖AI模型,然而结果却令人大跌眼镜:所有参赛模型在测试中均未能及格,得分全部为零。
FormulaOne基准测试包含220个精心设计的图结构动态规划问题,这些问题难度横跨中等至科研级别,涉及拓扑、几何和组合等多个复杂领域。尽管问题表述简洁明了,但背后所需的推理和逻辑推演难度极高,堪称AI领域的“博士级”挑战。
该测试的核心在于利用Courcelle提出的算法元定理,该定理表明,对于类似树的图结构,任何可用逻辑定义的问题都能通过动态规划算法解决。这要求AI模型能够利用树分解结构,将图的顶点组织成一系列重叠集合,并以树状结构排列,再通过动态规划逐步求解。
在测试初期,这些前沿AI模型在较为简单的问题上尚能维持一定成功率,范围在50%至70%之间,显示出它们对这类问题有一定的理解和应对能力。然而,随着问题难度的加深,这些模型的表现开始急剧下滑。在深层难度测试中,Grok4、Gemini-Pro等模型几乎全军覆没,仅能解决极少数问题,而GPT-5Pro虽稍胜一筹,也仅成功解答了四道题。至于最深层的难度测试,所有模型均未能斩获任何分数,遭遇了彻底的失败。
这一评测结果迅速在科研界引发了广泛热议,人们对AI模型的真实能力产生了深刻质疑。不少专家甚至提出,或许应该邀请人类博士生参与评测,以更全面地评估AI的推理能力。随着AI技术的迅猛发展,人们不禁要问:这些尖端模型距离达到真正的“博士级”推理水平,究竟还有多远的距离?
FormulaOne基准测试的模型表现详情,可在以下链接中查看:https://huggingface.co/spaces/double-ai/FormulaOne-Leaderboard
重要信息概览:
GPT-5等AI模型在FormulaOne基准测试中集体遭遇滑铁卢,得分均为零。
FormulaOne测试包含220个高难度动态规划问题,旨在检验AI模型的推理极限。
虽然部分模型在简单问题上表现尚可,但在深层和更高难度问题上均告失败,暴露了AI在复杂推理任务上的局限性。
来源:ITBear科技资讯