摘要:鉴于此前它们在AIME上的出色表现,MathArena团队使用最近的2025年美国数学奥林匹克竞赛进行了详细评估,结果令人大吃一惊——
3月26号,ETH等团队的一项研究一经发布,就引起了圈内热议。
这项研究彻底撕开遮羞布,直接击碎了「LLM会做数学题」这个神话!
论文地址:https://files.sri.inf.ethz.ch/matharena/USAMO_report.pdf
鉴于此前它们在AIME上的出色表现,MathArena团队使用最近的2025年美国数学奥林匹克竞赛进行了详细评估,结果令人大吃一惊——
所有大模型的得分,都低于5%!
DeepSeek-R1表现最好,得分为4.76%;而表现最差的OpenAI o3-mini(high)比上一代o1-pro(high)还差,得分为2.08%。
各顶尖模型在2025 USAMO中的得分
就在今天,这项研究再次被关注到,直接成为了Reddit的热议。
具体来说,在这项研究中,模型需要在2025年USAMO的六道基于证明的数学题上进行了测试。每道题满分7分,总分最高为42分。然后会由人类专家来给它们打分。
这些模型取得的最高平均分,也就5%,简直惨不忍睹。
更好笑的是,这些模型对自己的解题进行评分时,还会一致高估自己的得分(此处点名O3-mini和Claude 3.7)。跟人类研究者相比,评分被夸大了能有20倍不止。
所以,此前模型之所以能骗过人类,营造出自己很擅长做数学的假象,纯纯是因为它们已经在所有可以想象到的数学数据上进行了训练——国际奥数题、美国奥数档案、教科书、论文,它们全都见过!
而这次,它们一下子就暴露出了三大致命缺陷。
逻辑错误:模型在推理过程中做出了不合理的跳跃,或将关键步骤标记为「微不足道」。
缺乏创造力:大多数模型反复坚持相同的有缺陷策略,未能探索替代方案。
评分失败:LLMs 的自动评分显著提高了分数,表明他们甚至无法可靠地评估自己的工作。
这,就是人类投入数十亿美元后造出的成果。
DeepSeek,唯一亮眼的选手
好在,这项研究中,多少还是有一些令人鼓舞的迹象。
比如「全村的希望」DeepSeek,在其中一次尝试中,几乎完全解决了问题4。
问题4大意为:设H为锐角三角形ABC的垂心,F为从C向AB所作高的垂足,P为H关于BC的对称点。假设三角形AFP的外接圆与直线BC相交于两个不同的点X和Y。证明:C是XY的中点。
LLM数学能力,到底强不强?
LLM的数学能力,早已引起了研究人员的怀疑。
在AIME 2025 I中,OpenAI的o系列模型表现让人叹服。 对此,来自苏黎世联邦理工学院的研究人员Mislav Balunović,在X上公开表示:「在数学问题上,LLM到底具有泛化能力,还是学会了背题,终于有了答案。」将MATH数据集中的问题,做一些改动,多个模型的性能显著下降!
美国奥赛,LLM表现堪忧
这是首次针对2025年美国数学奥林匹克竞赛(USAMO)的难题,系统评估LLM的自然语言证明能力。
USAMO作为美国高中数学竞赛的最高殿堂,要求证明与国际数学奥林匹克(IMO)同等级别的严密与详细阐述。 美国数学奥林匹克(USAMO)是美国国家级邀请赛,是国际数学奥林匹克队伍选拔中的关键一步。LLM评估方法
在评估过程中,为每个模型提供题目,并明确要求其生成格式规范的LaTeX详细证明。
完整的提示词说明,原文如下:请对以下问题给出详尽的答案。你的答案将由人工评委根据准确性、正确性以及你证明结果的能力来评分。你应包含证明的所有步骤。不要跳过重要步骤,因为这会降低你的分数。仅仅陈述结果是不够的。请使用LaTeX来格式化你的答案
{问题}
为降低方差,每个模型对每道题 独立求解 4次。 所有解答(不含推理过程)经匿名化处理后统一转换为PDF格式供评分使用。 改卷专家与流程 评分团队由四位专家组成,每位专家都拥有丰富的数学解题经验,他们曾是国家国际数学奥林匹克(IMO)代表队成员,或者参加过各自国家的最终阶段国家队选拔。 在评分之前,评委们收到了详细说明评估目标和方法的指导意见。 2025年美国数学奥林匹克竞赛(USAMO)共有六道题目。1. 逻辑类错误: 因逻辑谬误或未经论证的推理跳跃导致论证链断裂;
2. 假设类错误: 引入未经证明或错误假设,致使后续推导失效;
3. 策略类错误: 因未能识别正确解题路径而采用根本性错误解法;
4. 运算类错误: 关键代数运算或算术计算失误。
此外,对于模型生成的解答中值得关注的行为或趋势,研究人员录为文档,以便进一步分析。
这些观察结果被用于找出模型在推理能力方面常见的陷阱和有待改进的地方。评估结果
在解决美国数学奥林匹克竞赛(USAMO)的问题时,所有模型表现都很差。
此外,还会深入分析了常见的失败模式,找出了模型推理过程中的典型错误和趋势。 主要发现 针对2025年美国数学奥林匹克竞赛(USAMO)的问题,对六个最先进的推理模型进行了评估,分别为 QwQ、R1、Flash-Thinking、o1-Pro、o3-mini和Claude 3.7。 表1提供了每个问题的模型性能详细分类,平均分数是通过四次评估运行计算得出的。 美国数学奥林匹克竞赛的每个问题满分为7分,每次运行的总最高分是42分。 该表还包括在所有问题和评估运行中运行每个模型的总成本。 成本以美元计算,各模型在所有题目上的最终得分取各评审所给分数的平均分呈现。共性问题
在评估过程中,评审专家还记录了模型的共性问题和显著的特征。
当下,像GRPO这类基于强化学习的优化技术,需要从清晰标注的最终答案里提取奖励信号。
所以,模型常常被要求把最终答案放在\boxed{}里。 但这一要求,在USAMO解题过程中引发了异常情况。大部分赛题其实并不强制框定最终答案,但模型却非要这么做。 以第五题为例,QwQ模型在解题时,自行排除了非整数解的可能,即便题目没这个限制。 它还错误地认定最终答案是2。 QwQ可把自己「绕晕」啦! 它想要一个整数答案,可实际上,答案明明是所有偶数整数的集合。模型有个常见毛病,喜欢把在小规模数值案例里观察到的模式,一股脑套用到还没验证的场景中。
在只求算出数值答案的题目里,这种方法或许还行得通。可一旦碰上需要严格证明的问题,它的弊端就暴露无遗。 模型经常不做任何证明,就直接宣称局部观察到的模式放之四海而皆准。 比如说,在问题2的求解过程中,FLASH-THINKING模型选择了一个具体的多项式进行验证,但随后却错误地将结论推广至所有多项式。 这种从特殊案例直接跳跃到普遍结论的做法,暴露了当前模型在数学归纳推理能力上的根本缺陷—— 它们缺乏对「充分性证明」这一数学核心原则的理解,无法区分「举例验证」与「完备证明」的本质区别 。来源:东窗史谈一点号