AI评测新挑战：GPT-5等顶尖模型在FormulaOne基准中集体遇挫

摘要：近期，AI评测领域迎来了一场前所未有的风暴，由AAI机构推出的FormulaOne基准测试让业界为之震动。此次测试汇集了GPT-5、Grok4、o3Pro等顶尖AI模型，然而结果却令人大跌眼镜：所有参赛模型在测试中均未能及格，得分全部为零。

近期，AI评测领域迎来了一场前所未有的风暴，由AAI机构推出的FormulaOne基准测试让业界为之震动。此次测试汇集了GPT-5、Grok4、o3Pro等顶尖AI模型，然而结果却令人大跌眼镜：所有参赛模型在测试中均未能及格，得分全部为零。

FormulaOne基准测试包含220个精心设计的图结构动态规划问题，这些问题难度横跨中等至科研级别，涉及拓扑、几何和组合等多个复杂领域。尽管问题表述简洁明了，但背后所需的推理和逻辑推演难度极高，堪称AI领域的“博士级”挑战。

该测试的核心在于利用Courcelle提出的算法元定理，该定理表明，对于类似树的图结构，任何可用逻辑定义的问题都能通过动态规划算法解决。这要求AI模型能够利用树分解结构，将图的顶点组织成一系列重叠集合，并以树状结构排列，再通过动态规划逐步求解。

在测试初期，这些前沿AI模型在较为简单的问题上尚能维持一定成功率，范围在50%至70%之间，显示出它们对这类问题有一定的理解和应对能力。然而，随着问题难度的加深，这些模型的表现开始急剧下滑。在深层难度测试中，Grok4、Gemini-Pro等模型几乎全军覆没，仅能解决极少数问题，而GPT-5Pro虽稍胜一筹，也仅成功解答了四道题。至于最深层的难度测试，所有模型均未能斩获任何分数，遭遇了彻底的失败。

这一评测结果迅速在科研界引发了广泛热议，人们对AI模型的真实能力产生了深刻质疑。不少专家甚至提出，或许应该邀请人类博士生参与评测，以更全面地评估AI的推理能力。随着AI技术的迅猛发展，人们不禁要问：这些尖端模型距离达到真正的“博士级”推理水平，究竟还有多远的距离？

FormulaOne基准测试的模型表现详情，可在以下链接中查看：https://huggingface.co/spaces/double-ai/FormulaOne-Leaderboard

重要信息概览：

GPT-5等AI模型在FormulaOne基准测试中集体遭遇滑铁卢，得分均为零。

FormulaOne测试包含220个高难度动态规划问题，旨在检验AI模型的推理极限。

虽然部分模型在简单问题上表现尚可，但在深层和更高难度问题上均告失败，暴露了AI在复杂推理任务上的局限性。

来源：ITBear科技资讯

标签：模型评测 formulaone formulaone基准

本文地址：http://news.43b.com.cn/a/766317.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!