摘要:人工智能在数学领域高歌猛进,似乎正以不可阻挡之势逼近甚至超越人类智慧的边界。从国际数学奥林匹克(IMO)赛场上斩获银牌级成绩(DeepMind的AlphaProof与AlphaGeometry 2组合系统[1]解决了当届难题),到辅助顶尖数学家证明困扰学界数十
人工智能在数学领域高歌猛进,似乎正以不可阻挡之势逼近甚至超越人类智慧的边界。从国际数学奥林匹克(IMO)赛场上斩获银牌级成绩(DeepMind的 AlphaProof与AlphaGeometry 2组合系统[1]解决了当届难题),到辅助顶尖数学家证明困扰学界数十年的猜想(如卡日丹-卢斯蒂格多项式[2]),再到AlphaTensor发现超越人类已知最优解的矩阵乘法算法[3],AI的数学“传奇”故事层出不穷,似乎预示着一个机器智能主导数学研究的新纪元即将到来。诸如OpenAI的O3-MINI[4]等模型,在MathArena[5]等基准测试的AIME(美国数学邀请赛)模拟中,取得了高达86.7%的惊人准确率[6],几乎与人类顶尖选手持平。一时间,“AI数学天才”的形象深入人心。
然而,就在这片乐观的喧嚣之下,一项来自INSAIT、苏黎世联邦理工学院(ETH Zurich)等顶尖机构的研究,悄然进行了一场不为大众所知的、堪称“终极试炼”的测试,结果却石破天惊。这份名为 《Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad》[7](证明还是虚张声势?评估大语言模型在美国2025数学奥林匹克上的表现)的预印本论文,像一面冷峻的镜子,照见了AI数学“天才”光环下令人不安的阴影。研究团队让包括O3-MINI、Claude 3.7在内的六款当前最先进的AI推理模型,挑战了真正考验数学思维深度——需要严格证明的美国数学奥林匹克(USAMO)2025年的题目。下图展示了其中两道题目的示例:
图注:USAMO题目不仅要求答案,更要求严谨的证明过程,考察深度逻辑推理能力。来源:《Proof or Bluff?》Fig. 1[8]
结果如何?平均得分低于5%!与它们在AIME等只需给出数值答案的测试中的辉煌战绩形成了刺眼的对比。更令人困惑的是,几乎所有模型在提交了几乎完全错误的解答后,都自信满满地宣称“问题已解决”。这戏剧性的反转不禁让人脊背发凉:那个在计算题上所向披靡的AI“学霸”,为何在需要真正“讲道理”的证明题面前,竟显得如此不堪一击?这究竟是技术发展中的暂时性瓶颈,还是暴露了当前AI范式难以逾越的根本性鸿沟?这背后隐藏的,是对AI能力边界、乃至人类智能独特性的深刻追问。
要理解这场AI的“滑铁卢”,我们首先需要认识USAMO(美国数学奥林匹克)究竟是何方神圣。在全球数学竞赛的金字塔体系中,其层级关系大致如下:
图注:全球数学竞赛体系层级示意图,USAMO是通往IMO的关键环节。信息来源:MAA官网[9]及维基百科[10]
USAMO正是这个体系中承上启下的关键一环,是通往IMO国家队的“试金石”。与AIME侧重计算技巧和快速得出数值答案不同,USAMO的灵魂在于证明。它要求参赛者在极长时间内(两天,每天4.5小时)完成6道高难度题目,每一题都需要提供完整、严谨、逻辑无懈可击的数学证明,正如Art of Problem Solving网站上的USAMO介绍[11]所述。
数学证明,绝非仅仅是“算出答案”。它是一门要求深刻理解概念、灵活运用定理、构建逻辑链条、甚至需要创造性洞察的艺术。从 欧几里得《几何原本》[12]奠定公理化范式,到现代数学家借助形式化语言和Lean[13]、Coq[14]等计算机辅助证明工具验证复杂猜想,证明的标准在不断演进,但其核心——对真理的严谨追求和深刻理解——从未改变。正如数学教育专家指出的,USAMO的独特价值在于它弥补了传统教育中对证明写作和开放性问题解决能力训练的不足,真正考察的是学生是否具备未来数学研究所需的深度思维能力(可参考数学家Tanya Khovanova的博客文章[15])。例如,USAMO 2025年的一道题目涉及到一个复杂的无限城市布局博弈,要求参赛者不仅要理解游戏规则,更要构建全局策略并证明其完备性,融合了组合游戏、拓扑结构和形式逻辑(见2025 USAMO 题目列表[16])。这与AIME中常见的、可以通过标准技巧求解的代数或计算几何题,在认知要求上有着天壤之别。
正是USAMO的这种独特性,使其成为了检验AI真实数学推理能力的“照妖镜”。研究团队深知这一点,因此设计了极其严格的评估流程:邀请了四位具有前IMO国家队成员背景的数学专家组成评审团,采用与人类竞赛完全相同的7分制评分标准,对AI生成的每一份证明进行独立、细致的交叉评估。被测试的六款模型,包括声名赫赫的O3-MINI和Claude 3.7,都是当前公认的推理能力佼佼者。这场测试,无疑是对AI数学能力的一次前所未有的“深度体检”。
测试结果令人瞠目结舌。在总共近150份(6个模型 x 6道题 x 4次运行)AI生成的解答中,没有任何一份获得满分7分。所有模型的平均得分都**低于5%**,即在满分42分的测试中,平均得分不到2.1分。即使是此前在AIME模拟中表现最抢眼的O3-MINI,其平均得分也仅为0.9分,与人类顶尖选手的表现相去甚远。这份惨淡的成绩单(详见下表),与AI在数值计算、模式识别等任务上的高光表现形成了强烈的、几乎是讽刺性的对比。
表格注:展示了各AI模型在USAMO 2025六个问题上的平均得分(满分7分/题)和总平均分。数据来源:《Proof or Bluff?》Table 1[17]
更令人不安的是AI表现出的“虚假自信”。研究报告指出,几乎所有模型在提交解答时,都使用了诸如“我们已经成功证明了…”、“因此,结论成立…”等确定性表述,完全无视其证明过程中存在的明显逻辑漏洞或前提错误。这种现象,在AI领域被称为“幻觉”(Hallucination),但在数学这个对精确性要求极高的领域,其潜在危害远超文学创作中的“一本正经胡说八道”。想象一下,如果一个用于药物研发或桥梁设计的AI系统,以同样的自信提交了基于错误数学推导的方案,后果将不堪设想(关于AI幻觉风险的讨论,可参考 Science AI Chat的相关文章[18]或这篇关于AI幻觉的综述[19])。
雪上加霜的是,研究团队还发现,让AI模型(O3-MINI和Claude 3.7)来评估其他AI生成的证明时,其评分结果与人类专家评分存在惊人的偏差——AI评分平均比人类专家评分高出近20倍!这意味着AI不仅自身在进行严格数学推理时存在严重问题,甚至连识别自身或其他AI错误的能力也极其有限。这无疑给那些希望通过AI自监督学习或相互评估来提升推理能力的技术路线蒙上了一层厚厚的阴影。
表格注:对比了人类专家与AI模型对各模型解答的评分,并计算了AI评分相对人类评分的平均倍数。数据来源:《Proof or Bluff?》Table 2[20]
为何AI会在严谨的数学证明面前如此脆弱?研究团队通过对AI错误解答的细致分析,归纳出四大“致命弱点”:
图注:根据《Proof or Bluff?》研究中对AI失败模式的分类和大致比例绘制。逻辑错误是最主要的失败原因。
逻辑断链 (Flawed Logic):这是最常见的失败模式(如上图所示,占比最高)。AI生成的证明往往在推理链条的中间环节出现断裂。例如,论文附录C.1.1中提到,在一个需要证明所有指标都满足某个性质的问题中,Claude 3.7模型在证明了单个指标满足该性质后,便错误地将其泛化至所有指标,跳过了关键的归纳或推广步骤。这种错误并非简单的计算失误,而是深层次逻辑推理能力的缺失。技术上,这与当前主流Transformer架构在处理长序列依赖和维持严格逻辑一致性上的固有局限密切相关,正如一篇分析Transformer推理能力局限的论文[21]所指出的。Transformer本质上是基于概率的模式匹配器,而非严谨的逻辑演绎机。
创造力沙漠 (Lack of Creativity):AI在面对需要新颖思路或多种策略组合的问题时,表现出惊人的“固执”。它们往往会反复尝试同一种(通常是错误的)解题路径,即使多次运行也无法跳出思维定式。论文附录C.1.2指出,在USAMO 2025年第3题那个复杂的博弈问题上,O3-MINI从一开始就选择了一个错误的方向,并且在后续所有尝试中都未能进行有效的策略调整。唯一的例外是FLASH-THINKING,它会尝试在一次运行中生成多种解题思路,但每种思路都浅尝辄止,同样无法达成有效证明(见附录C.2)。这与人类数学家在遇到困难时能够灵活转换视角、进行类比推理或构造反例的能力形成了鲜明对比,关于人机创造力对比可参考哈佛商业评论的研究[22]。
假设陷阱 (Unjustified Assumptions):AI在证明过程中常常会引入未经证实或完全错误的假设,并以此为基础进行推导,构建出看似严密实则基础崩塌的“空中楼阁”。一个典型的例子是,在USAMO 2025年第4题的几何证明中,O3-MINI错误地假设了某个点位于特定圆的外部(见附录C.1.3),而实际上该点位于圆内,导致后续基于切线性质的论证完全失效。同样,过度泛化小样本观察结果也是常见问题,比如FLASH-THINKING在测试了几个具体多项式后,便轻率地将其结论推广到所有多项式(见附录C.4)。
优化陷阱:AI被“训”出来的坏习惯 (Training Artifacts):当前AI模型的训练方法,尤其是基于强化学习的优化策略(如GRPO[23]),也无意中塑造了一些不利于严谨数学思维的“坏习惯”。最典型的就是“答案框选”(Answer Boxing)现象。研究发现,即使在USAMO这类根本不需要提供最终数值答案的证明题中,像QWQ这样的模型也常常会“画蛇添足”地在结尾处用\boxed{}框出一个(通常是无关紧要或错误的)数值(见附录C.3)。这很可能是因为模型在训练中习惯了那些需要框出最终答案才能获得奖励的任务,从而错误地将这种行为泛化到了所有数学问题上。这种为了迎合训练目标而产生的行为偏差,恰恰说明模型并未真正“理解”问题的本质,关于GRPO的潜在问题可参考这篇技术博客[24]。
这四大缺陷相互交织,共同构成了当前AI在高级数学推理上的“阿喀琉斯之踵”。它们揭示了一个核心问题:AI或许擅长模仿(Mimicry),但距离真正的理解(Understanding)和创造(Creation)仍有遥远距离。
AI在USAMO上的失败,恰恰反衬出人类数学思维的独特光芒。究竟是什么让人类数学家能够驾驭抽象概念、构建严谨证明、实现创造性突破?认知科学和数学史的研究为我们提供了一些线索:
概念性思维 (Conceptual Thinking):人类并非仅仅在操作符号,我们能够真正理解抽象数学概念的内涵和外延,把握它们之间的深层联系。认知科学研究表明,这种能力源于我们通过具身经验(如物理互动、空间导航)和符号系统(语言、数学符号)的协同作用,逐步构建起从具体到抽象的认知阶梯,正如《认知杂志》的一项研究[25]所揭示的。我们能“看见”数学结构,比如黎曼“看见”弯曲空间,瑟斯顿“看见”三维流形的几何分解(关于数学可视化,可参考数学家对可视化体验的描述[26]或维基百科关于数学可视化的条目[27])。这种基于理解的“视觉洞察”,是当前AI基于模式匹配的“计算视觉”所无法比拟的。
直觉与创造力 (Intuition and Creativity):数学史上众多重大突破,如伽罗瓦创立群论、康托尔发现无穷集合的不同基数、高斯构想非欧几何,都源于超越当时形式逻辑框架的直觉闪光(数学直觉的案例[28])。神经科学研究发现,数学创造力与大脑中默认模式网络(DMN)和执行控制网络(ECN)的灵活切换有关,允许我们在发散思维和聚焦验证之间取得精妙平衡(见Frontiers in Psychology的研究[29])。这种源于生物神经网络复杂动态的创造性火花,是目前基于Transformer等相对静态结构的AI难以模拟的。
元认知与自我监控 (Metacognition and Self-Monitoring):人类数学家在解决问题时,能够进行高层次的元认知活动——监控自己的思考过程,评估策略的有效性,识别潜在的错误,并灵活调整方向(关于数学元认知的研究可参考这篇综述[30]或维基百科关于元认知的条目[31])。专业数学家在检查证明时,会系统性地运用反例检验、结构分解、依赖关系分析等方法,正如 [Rutgers大学的研究](https://sites.math.rutgers.edu/~jpmejia/files/Weber_(2008JRME "Rutgers大学的研究").pdf) 所描述的。这种“知道自己知道什么,知道自己不知道什么”的能力,与AI那高达20倍的评分误差和虚假自信形成了鲜明对比。
正是这些深植于生物基础和长期演化之上的认知能力,构成了人类在高级数学思维领域难以被轻易取代的核心优势。
USAMO测试的结果并非宣判AI数学能力的“死刑”,而是更清晰地指明了未来发展的方向和挑战。当前的困境,恰恰是通往更强大、更通用人工智能的必经之路。
短期内(未来1-3年),AI最现实的角色是增强型数学助手。它们可以在文献检索、模式发现、计算验证、形式化证明转换等方面极大提升人类数学家的工作效率。正如DeepMind与悉尼大学合作证明卡日丹-卢斯蒂格猜想(见Nature论文[32]),以及Lean4-Mathlib系统加速定理形式化(见专家观点[33])所展示的那样,AI可以成为强大的“副驾驶”,将研究者从繁琐的事务中解放出来,聚焦于更具创造性的核心问题。
中期来看(未来3-7年),神经符号系统(Neuro-Symbolic AI)被寄予厚望。这种架构试图将神经网络强大的模式识别、直觉启发能力与符号系统(如逻辑推理引擎、定理证明器)的严谨性、可解释性结合起来(了解神经符号AI[34])。AlphaProof和AlphaGeometry 2的成功已经初步验证了这条路径的潜力。未来,更成熟的神经符号系统有望克服纯粹基于Transformer架构的逻辑推理瓶颈,在更广泛的数学领域实现可靠的证明生成与验证。
长期而言(未来7年以上),真正的突破可能需要借鉴认知科学和神经科学的发现,构建更接近人脑工作原理的AI架构。模拟前额叶-顶叶网络的协同工作机制,实现概念抽象、直觉涌现和元认知监控,或许是通向通用人工智能(AGI)级数学能力的关键(相关讨论[35])。
与此同时,人机协作将是贯穿始终的主旋律。未来的数学研究很可能演变成一种全新的范式,如下图所示:
图注:未来数学研究可能形成人机协同的闭环,人类负责高层次创造性工作,AI负责规模化探索与验证。
这种协同将极大地加速数学知识的发现和应用(人机协作案例[36])。
AI在USAMO上的“惊人失败”,如同一声警钟,提醒我们在人工智能的浪潮中保持清醒和审慎。它揭示了当前AI能力的真实边界——在模式识别和计算任务上高歌猛进的同时,在需要深度理解、逻辑严谨和创造性思维的高阶认知领域,依然步履蹒跚。这种在逻辑证明上的“集体失败”,是否暗示了当前基于大数据的“暴力计算”范式在通往AGI道路上的根本性障碍?这对于AI产业的投资逻辑和技术路线选择,无疑提出了新的思考方向,值得每一位科技从业者和决策者深思。
这次“滑铁卢”并非否定AI的巨大潜力,而是为我们提供了一个宝贵的契机,去重新审视和理解智能的本质。数学,作为人类理性思维的巅峰,成为了检验机器智能深度和广度的终极试炼场。AI的挑战,反过来也促使我们更深刻地思考:什么是真正的数学理解?直觉和创造力在知识发现中扮演着怎样不可替代的角色?人类认知的独特性究竟体现在何处?(关于AI对数学哲学的启示,可参考相关研究[37])。AI的“数学幻觉”,或许也为我们理解人类意识、直觉和创造力的某种不可计算性,提供了新的侧面证据。
未来,数学与AI的关系,更可能是共同进化而非简单替代。AI将成为数学家探索未知世界的强大工具,拓展我们认知的边界;而人类的直觉、创造力和批判性思维,将继续引领数学发展的方向。正如Terence Tao[38]等顶尖数学家所预见的那样,我们正在进入一个“人机协同”的新数学时代。在这个时代,理解AI的局限与优势,发挥人类智能的独特价值,将是推动科学进步的关键。人机协作的未来,是否会催生一种全新的“数学物种”或研究范式,彻底改变知识生产的方式?这对我们的教育体系,尤其是旨在培养下一代创新者的STEM教育,又提出了哪些迫切的改革要求?数学之谜依然深邃,而探索这个谜题的旅程,将因为AI的加入而变得更加波澜壮阔。
参考资料
[1]
AlphaProof与AlphaGeometry 2组合系统:
[2]
卡日丹-卢斯蒂格多项式:
[3]
AlphaTensor发现超越人类已知最优解的矩阵乘法算法:
[4]
O3-MINI:
[5]
MathArena:
[6]
86.7%的惊人准确率:
[7]
《Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad》:
[8]
《Proof or Bluff?》Fig. 1:
[9]
MAA官网:
[10]
维基百科:
[11]
Art of Problem Solving网站上的USAMO介绍:
[12]
欧几里得《几何原本》: https://en.wikipedia.org/wiki/Euclid's_Elements
[13]
Lean:
[14]
Coq:
[15]
Tanya Khovanova的博客文章:
[16]
2025 USAMO 题目列表:
[17]
《Proof or Bluff?》Table 1:
[18]
Science AI Chat的相关文章:
[19]
这篇关于AI幻觉的综述: https://en.wikipedia.org/wiki/Hallucination_(artificial_intelligence)
[20]
《Proof or Bluff?》Table 2:
[21]
一篇分析Transformer推理能力局限的论文:
[22]
哈佛商业评论的研究:
[23]
GRPO:
[24]
这篇技术博客:
[25]
《认知杂志》的一项研究:
[26]
数学家对可视化体验的描述:
[27]
维基百科关于数学可视化的条目:
[28]
数学直觉的案例:
[29]
Frontiers in Psychology的研究:
[30]
这篇综述:
[31]
维基百科关于元认知的条目:
[32]
见Nature论文:
[33]
见专家观点:
[34]
[35]
相关讨论:
[36]
人机协作案例:
[37]
相关研究:
[38]
Terence Tao:
来源:人工智能学家