摘要:在数学这门抽象而深奥的学科中,真正的突破往往不是源于既有规则的精细演算,而是来自对未知世界的直觉探索与创造性思维。从古希腊数学家首次“发现”正二十面体的那一刻开始,数学就不仅仅是逻辑的堆砌,更是想象力的产物。
(图源:量子号)
在数学这门抽象而深奥的学科中,真正的突破往往不是源于既有规则的精细演算,而是来自对未知世界的直觉探索与创造性思维。从古希腊数学家首次“发现”正二十面体的那一刻开始,数学就不仅仅是逻辑的堆砌,更是想象力的产物。
目前,人工智能正以前所未有的速度进入这一领域,它能够推导、归纳、模仿,甚至解题能力已超越大多数人类。据《麻省理工技术评论》报道,过去一年,大型语言模型在应对高中及更高难度数学问题方面取得了迅猛进展。那么,人工智能是否正逐步逼近人类数学家的能力边界?
在新一代人工智能工具的协助下,我们或许正站在另一种数学创新方式的门槛前。然而,真正的突破仍然属于人类思维吗?这是当下最引人深思的问题之一。
根据美国国防高级研究计划局的说法,数学这门学科“仍停留在过去”。今年四月,美国国防高级研究计划局启动了一项名为“指数数学”(expMath,Exponentiating Mathematics)的新计划,旨在加快数学研究的进度。这一领域对现实世界至关重要,其成果广泛应用于计算机科学、医学乃至国家安全。
“数学影响巨大,但其工作方式几百年来几乎没有改变——人们仍然站在黑板前思考问题。”美国国防高级研究计划局项目经理帕特里克·沙夫托在一段介绍视频中如是说。
现代世界是建立在数学基础上的。数学让我们能够对复杂系统建模,例如飞机周围气流的分布、金融市场的波动、或心脏中血液的流动。而高级数学的突破也能催生全新技术,比如用于私密通讯和网上银行的密码学,或实现图像和视频传输的数据压缩技术。
然而,数学领域的突破往往需要多年酝酿。美国国防高级研究计划局希望加快这一过程。指数数学计划的目标,是促使数学家与人工智能研究者合作开发所谓的“人工智能合著者”工具,这种工具可以把庞大复杂的数学难题拆分成更小更容易理解的部分——从而加快解题进度。
几十年来,数学家一直使用计算机来加速计算或验证某些数学命题的正确性。而如今的愿景则是:人工智能或许能帮助人类破解那些曾被视为“无法攻克”的难题。
但高中数学题与专业数学研究之间仍存在巨大鸿沟。虽然最新一代语言模型已经可以应对高中水平的题目,但要让人工智能解决职业数学家耗费数年乃至一生研究的深层难题,仍有很长的路要走。
一方面,有些工具或许能自动化数学毕业生所做的日常任务;另一方面,则可能出现真正突破人类知识边界的工具。
我们可以从以下三个角度理解这一鸿沟:
1. 人工智能需要的不只是“巧妙的把戏”
大型语言模型一向不以擅长数学著称。它们常常胡编乱造,甚至可能被说服相信“2 + 2 = 5”。但新一代的“大型推理模型”(Large Reasoning Models,简称LRMs)如OpenAI的o3和Anthropic的Claude 4 Thinking,其能力显著增强,这也让许多数学家感到振奋。
今年,多款大型推理模型在美国高中数学精英5%才能参加的“美国数学邀请赛”(AIME)中取得了优异成绩。这些模型擅长逐步推理,而不是草率给出第一反应答案。
与此同时,结合大型语言模型与事实核查机制的新型混合模型也在不断取得突破。巴西圣保罗大学的数学家艾米莉·德·奥利维拉·桑托斯指出,谷歌DeepMind研发的“AlphaProof”是一个重要里程碑。该系统将大型语言模型与其游戏博弈系统“AlphaZero”相结合,去年成为第一个在国际数学奥林匹克竞赛中达到银牌水平的计算机程序。该赛事被认为是全球最顶尖的数学竞赛之一。
今年5月,谷歌DeepMind的另一个模型“AlphaEvolve”在50多个未被人类解决的数学谜题和多个实际计算机科学问题上取得了前所未有的结果。
这一波进展十分明显。“GPT-4的数学能力基本停留在本科阶段,”德·奥利维拉·桑托斯说。“我曾在它发布时用一个拓扑学问题测试它,它写了几行就完全迷失了。”但当她把同一个问题交给今年1月发布的OpenAI新一代推理模型o1时,它给出了精准解答。
这是否意味着这些模型已经具备了美国国防高级研究计划局设想中的“人工智能合著者”的能力?她并不这么认为:“奥数题往往依赖某些巧妙技巧,而研究型问题则更具探索性,涉及的因素远为复杂。解决一类问题的能力,并不代表能胜任另一类。”
其他专家也持类似看法。牛津大学数学家马丁·布里德森认为,人工智能在奥数上的表现虽令人印象深刻,却不具颠覆性。“这不是某种‘我原以为机器永远做不到’的范式转换。我原本就认为它迟早能做到。”
这正是因为奥数题、以及类似的美国数学邀请赛等高中和本科数学考试题目,尽管难度不低,却具有一定模式可循。“我们有专门的训练营教学生如何解这类题,”布里德森说,“如果能训练一群学生掌握这些题型,为什么不能训练一台机器做到?”
加州理工学院的数学家谢尔盖·古科夫长期担任数学奥林匹克竞赛教练。他指出,不同年份的竞赛题目虽然在表面形式上各不相同,但解题风格并无根本变化。尽管每年都会出新题,但解法大多沿用旧有套路。
“当然,这些具体题目以前从未出现过,”古科夫说,“但它们非常接近你已经见过的无数题目,只差一步。你马上就会意识到:‘天哪,这些题之间有太多相似之处——我可以用同样的方法来解。’” 尽管竞赛数学难度不低,但不论是学生还是机器,都可以通过训练掌握破解之道。
但对于大多数未解的数学难题而言,情况并非如此。马丁·布里德森是美国非营利研究机构“克雷数学研究所”现任主席,该机构最广为人知的成就是于2000年设立了“千禧年数学难题”(Millennium Prize Problems)——这是数学界七大未解之谜,每道题的首位解答者将获得100万美元奖金。(截至目前,仅有庞加莱猜想在2010年被解决,其他包括“P与NP问题”和“黎曼猜想”在内的难题仍悬而未决。)“人工智能距离在这些问题上提出有意义的看法还差得很远,”布里德森表示。
然而,我们也很难准确判断到底有多远。因为目前用于衡量人工智能数学能力的标准,大多已经达到上限。像美国数学邀请赛这类考试,最先进的大模型已普遍超越人类平均水平。
为更清晰地评估现有人工智能系统的能力与边界,一家名为Epoch AI的初创公司于去年12月推出了一项全新的测试——FrontierMath(前沿数学)。不同于沿用人类考试题目,FrontierMath是与全球60多位数学家共同合作,从零开始设计的题库。
FrontierMath旨在探索当代人工智能的能力极限。这些题目此前从未公开,其中大部分仍处于保密状态,以避免被纳入训练语料。每道题都需要专家级数学家花费数小时乃至更久的时间来尝试解答——即便他们最终也未必能解出,有些题甚至需要专门领域的深厚背景知识。
FrontierMath正逐步成为行业新标准。尽管目前还未达到美国数学邀请赛的普及程度,但题库开发者之一德·奥利维拉·桑托斯认为:“这种情况不会持续太久,因为现有测试基准几乎已经被模型‘刷满分’。”
在美国数学邀请赛测试中,最领先的大语言模型(包括Anthropic的Claude 4、OpenAI的o3和o4-mini、谷歌DeepMind的Gemini 2.5 Pro,以及X-AI的Grok 3)得分普遍在90%左右。而在FrontierMath上,o4-mini的得分为19%,Gemini 2.5 Pro为13%。虽然这些分数已经相当惊人,但也显然还有巨大提升空间。
FrontierMath为我们提供了迄今为止最清晰的窗口,观察人工智能在数学领域的进步速度。但它同样提醒我们:仍有相当一部分难题,是当前计算机尚无法应对的。
2. 人工智能必须能够处理极其漫长的推理链条
乍一看,所有数学问题似乎都大同小异:解题就是从起点出发,一步步走到终点。问题在于如何找到这些“步”。
“几乎所有数学问题都可以看作是路径搜索问题,”加州理工学院数学家谷科夫指出。决定问题难度高低的关键,在于这条路径的长度。“黎曼猜想和中学数学的区别在于,中学数学里我们要找的路径很短——10步、20步,最多也就40步。”而且这些路径在不同题目中常常重复出现。
“但要想解决黎曼猜想,我们手头根本没有这些‘步’,我们要寻找的路径极其漫长。”谷科夫估计,这可能是一百万行计算机证明的长度。
这种寻找超长推理序列的任务可以类比为一类复杂游戏。而这正是DeepMind的AlphaZero掌握的核心技能——在学习围棋和国际象棋的过程中,它学会了在庞大的可能序列中找到制胜之道。尽管一盘围棋可能只包含几百步,但人工智能需要从数量级为10¹⁰⁰的组合中选出最优解。
但即便如此,这个复杂度仍远不及某些艰深数学问题中可能存在的推理路径——“一个拥有上千甚至上百万步的证明路径,其组合数量是一个尾部带有上千或上百万个零的天文数字。”谷科夫说。
目前还没有任何人工智能系统能穷尽这样规模的可能路径。为了解决这个问题,谷科夫和同事开发了一种新方法:通过将多个操作组合成“超级步”(supermove),以缩短路径长度。就像穿上七里靴后,不再需要走2000步去完成一英里路程,只需20步就能完成。
难点在于识别哪些“步”可以压缩为超级步。他们设计了一个双模型系统:一个强化学习模型提出新步法,另一个模型评估这些步法是否有效。
他们利用这一方法,在一个名为“安德鲁斯–柯蒂斯猜想”(Andrews-Curtis conjecture)的数学难题上取得了突破——这是一个悬而未解了60年的问题。“每个专业数学家都听说过它。”谷科夫说。
(插一句,给数学爱好者的补充:安德鲁斯–柯蒂斯猜想指出,可以通过特定的步骤将一种对所谓“平凡群”(trivial group)的描述,转化为另一种等价描述。大多数数学家认为这条猜想是错的,但至今没有人能证明它。谷科夫自己也承认,这更像是一种智力好奇,而不是实用问题,但它在数学界仍有重要意义。)
谷科夫团队并未解决该猜想,但他们发现,40年前提出的一个反例本身是错的。“这是过去40年里被认为最有希望的一种思路。”谷科夫说。而人工智能帮助他们证明,这条思路其实是死路一条。
“排除某些反例是很有价值的,”牛津大学数学家布里德森补充道,“这能帮你避免浪费一年时间在一条死胡同上。”
虽然谷科夫只在一个极为小众的问题上清理了一个分支路径,但他相信,这种方法适用于所有需要寻找超长推理路径的问题。他的下一步,就是在其他问题上进一步尝试。
“也许这最终会反过来推动人工智能的发展,”他说,“因为这训练了强化学习模型在没有明确先例的情况下继续探索。对我来说,这基本就是跳出框架去思考——不是几英里,而是几百万秒差距。”
3. 人工智能能否带来真正的洞察?
跳出框架去思考,正是数学家攻克难题所必需的。虽然人们常把数学想象成一种机械、循规蹈矩的过程,但真正的高阶数学是一种实验性探索,需要反复试错和灵光乍现的顿悟。
这正是DeepMind推出的新模型“AlphaEvolve”希望参与的领域。它的工作流程是这样的:一个大型语言模型会生成一段解决特定数学问题的代码;第二个模型评估这些方案,挑选最优解后再交回大型语言模型进行改进。经过数百轮试错迭代,AlphaEvolve成功提出了多个数学难题的解法——而且优于人类此前提出的所有结果。
AlphaEvolve也可以作为协作工具使用:在人机对话的任意阶段,研究者都可以输入自己的洞见,对模型进行引导。
这种“探索性推理”是高等数学的灵魂。“我常常是在寻找有趣的现象,推动自己在某个方向深入下去。”悉尼大学数学家乔迪·威廉姆森表示。“比如:‘让我顺着这个小巷看一眼……哦!发现了点什么!’”
威廉姆森与Meta公司合作,开发了一款名为“PatternBoost”的人工智能工具,专门支持这种探索性研究。PatternBoost的能力是:从一个数学想法或陈述出发,生成一系列类似的变体。“它就像在说:‘给你一堆有趣的东西,我也不知道它们背后的机制,但你能不能生成更多类似的呢?’”
在数学研究中,这种“头脑风暴”式的思维探索至关重要,正是这样,新概念和新结构才得以诞生。威廉姆森举了一个例子:“正二十面体就是这种思维的完美体现,我在自己的研究中经常会回到它。”所谓正二十面体,是一种由20个全等三角形面构成的三维几何体(可以想象成20面骰)。它属于一种只有五个成员的几何形体家族:正四面体(四个面)、正六面体(立方体,六个面)、正八面体(八个面)、正十二面体(十二个面),以及正二十面体。
令人惊叹的是,这类形体仅有这五种这一事实,早在古希腊时期就已被数学家们证明。“当这个定理被发现时,正二十面体并不存在于现实世界中,”威廉姆森说,“你无法在采石场里挖出它——它是人们在头脑中‘看见’的。此后,正二十面体对数学产生了深远影响,直到今天,它依然以非常深刻的方式影响着我们的研究。”
对于威廉姆森来说,像PatternBoost这样的人工智能工具之所以令人激动,正是因为它们可能帮助人类发现类似正二十面体那样的未来数学对象——那些能够重塑数学研究方式的新结构。但我们尚未真正迈入这一步。“人工智能已经可以在某种程度上参与研究级问题的探索,”他说,“但我们目前还没看到它带来大量新定理。”
归根结底,问题在于机器仍然缺乏我们所谓的“直觉”或“创造性思维”。威廉姆森这样总结这一差距:我们现在确实拥有可以在人类已知规则下胜过人类的人工智能。“但让计算机超越人类去下围棋是一回事,让计算机去发明围棋是另一回事。”
“我认为这正适用于高等数学,”他说,“真正的突破来源于我们用一种全新的方式去看待问题,就像在游戏中发明出全新的走法。而我们目前其实并不理解,那些深邃而精妙的数学‘新走法’究竟是从哪里来的。”
也许,像AlphaEvolve和PatternBoost这样的人工智能工具,最适合作为人类直觉的“前哨侦察兵”。它们可以发现研究的新方向,指出无果的路径,为数学家节省数月甚至数年的工作时间。但真正意义上的数学突破,仍将来自人类头脑——正如几千年来一直如此。
至少目前如此。“当然,有很多科技公司宣称这不会持续太久,”威廉姆森补充说,“但你知道的——拭目以待吧。”🅠
资料来源:"What’s next for AI and math" by Will Douglas Heaven, Published on June 4, 2025 - MIT Technology Review
翻译和编辑:银河系搭车客
你可能还想看:
大脑研究新发现,或能让AI预见未来
“善良”的幻觉:我们真的驯服了AI吗?
AI正引发一场认知革命,人类正走向平庸?
来源:人工智能学家