摘要:最难的数学基准测试是“FrontierMATH”。这一测试由顶尖数学家陶哲轩联合60多位数学家推出,包含数百道原创且极具挑战性的数学问题,涵盖了从奥林匹克数学竞赛(IMO)水平到现代数学研究前沿的各个领域,如数论、群论和代数几何等。这些题目通常需要专业数学家花
最难的数学基准测试是“FrontierMATH”。这一测试由顶尖数学家陶哲轩联合60多位数学家推出,包含数百道原创且极具挑战性的数学问题,涵盖了从奥林匹克数学竞赛(IMO)水平到现代数学研究前沿的各个领域,如数论、群论和代数几何等。这些题目通常需要专业数学家花费数小时甚至数天才能解决,而目前市面上的所有AI模型在该测试中的通过率均低于2% 。
FrontierMath测试的具体问题类型和难度等级如下:
问题类型:
数论:涉及计算密集型问题,需要复杂的数学推理和精确计算。
代数几何:包含抽象问题,要求模型具备多步推理和严谨的逻辑能力。
组合学:设计精巧,需要结合创造性思维与精确计算。
集合论:涉及高级数学推理,需要深厚的领域专长和创造性洞察力。
实数分析:涵盖从基础到高级的数学问题,要求模型能够处理复杂的数学对象和逻辑结构。
难度等级:
极高:这些问题不仅对AI模型构成巨大挑战,甚至对人类专家也需花费数小时至数天才能解决。例如,陶哲轩等顶尖数学家一致认为这些题目非常具有挑战性,需要深厚的专业知识和强大的推理能力才能解决。
研究级别:FrontierMath的问题设计旨在捕捉当代数学的概貌,覆盖现代数学的主要分支,包括数论、代数几何、组合学和集合论等。这些问题要求模型具备深度领域专长和创造性洞察力,远超传统基准如GSM8K和MATH的测试范围。
设计原则:
所有问题均为全新且未公开,以防止数据污染。
解决方案自动可验证,实现高效评估。
问题具有“防猜测”特性,确保模型必须进行真正的数学推理而非简单的猜测。
根据提供的信息,无法回答问题“陶哲轩和其他60多位数学家是如何选择和设计这些数学问题的?
目前市面上所有AI模型在FrontierMath测试中的具体表现和通过率数据如下:
测试背景与设计:
FrontierMath是由Epoch AI与全球60多位数学家合作推出的全新数学基准测试,旨在评估AI系统在高级推理能力方面的表现。该测试包含数百个原创且极具挑战性的数学问题,覆盖了从数论、实数分析到代数几何和群论等主要数学分支。
测试的设计原则包括防止数据污染、支持模型解答的自动验证以及问题的“防猜测”特性,确保了测试的公正性和准确性。
具体表现与通过率:
在FrontierMath测试中,评估了六个前沿模型(包括o1、Claude 3.5 Sonnet、GPT-4o、Grok和Gemini 1.5 Pro),结果显示这些模型的成功率均低于2%。
即使在延长思考时间、提供Python访问权限及运行实验的能力的情况下,这些模型的成功率仍然低于2%。
这一结果与现有数学基准测试中的表现形成鲜明对比,在传统数学基准测试中,顶级模型的准确率通常超过90%。
专家评价与影响:
该测试结果引发了AI领域内专家和网友的广泛关注和讨论,他们认为FrontierMath能够更准确地反映AI在数学领域的实际能力,避免了数据污染导致的高分虚高现象。
一些专家指出,尽管大语言模型在数学和编程领域接近顶级专家水平,但在自主解决长问题序列方面仍面临挑战。
例如,Artin原根猜想这样的问题要求解决者具备深厚的数学知识和多步骤推理能力,即使是GPT-4和Claude 3.5等顶尖AI模型也未能达到2%的成功率。
根据提供的信息,FrontierMath测试的准备和参与方式如下:
题目设计与原创性:
所有题目都是由60多位顶尖数学家设计的原创题目,旨在确保问题的原创性和挑战性。
数学家们按照三个关键原则设计题目:所有问题都是新的且未发表的,以防止数据污染。
提交方式:
模型可以直接给出问题的最终答案,或者在提交最终答案之前,通过代码执行进行实验,以验证其解决方案的有效性。
在提交最终答案时,模型必须遵循一些标准化格式。例如,在答案中需包含“#This is the final answer”这一标记注释,并将结果保存在Python的pickle模块中。同时,提交的代码必须是自包含的,不依赖于先前的计算。
评估过程:
评估过程将持续进行,直到模型提交了正确格式化的最终答案,或者达到了预设的标记限制(研究设置为10,000个token)。
如果模型在达到标记限制之前没有提交最终答案,它将收到一个最终提示,要求立即提交最终答案。如果在收到该提示后模型仍然无法提供正确格式化的最终答案,则该尝试被标记为不正确。
数据保护与防污染措施:
为了最大限度地降低问题和解决方案在网上传播的风险,机构鼓励所有提交都通过安全、加密的渠道进行。具体来说,机构采用加密通信平台与投稿人协调,并要求对在线存储的任何书面材料进行加密(如加密文档)。
机构依赖于核心数学家团队专家评审这一原创验证性方法,以识别自动化系统可能错过的潜在相似性。此外,还通过抄袭检测工具Quetext和Copyscape对问题进行测试。
定期评估与改进:
Epoch AI计划定期评估大模型,观察其高级数学推理能力的提升,并计划增加更多问题和代表性问题,以加强质量控制。
除了FrontierMath,还有其他一些被认为是极其困难的数学基准测试,包括:
AIME 2024:这是一个非常具有挑战性的数学基准测试,许多先进的大型语言模型(如Claude3 Opus、GPT-4 Turbo 和 Gemini 1.5 Pro)在其中的表现非常有限,只能解决极少数题目。ARC-AGI:由Keras之父François Chollet发起,专门设计用来测试人工智能模型对极其困难的数学和逻辑问题进行推理的能力。o3模型在该测试中取得了87.5%的高分,显示出其强大的推理能力。GPQA Diamond:这是一个极其困难的专家级基准测试,用于评估模型在处理复杂问题上的能力。Inflection-2.5在该测试中的表现显著提升。匈牙利数学考试:这是一个高难度的数学考试,用于评估学生的数学推理和解题能力。Inflection-2.5在该考试中的表现也得到了评估。来源:露露课堂