摘要:本文译自科普杂志《Scientific American》6月6日刊发的文章《At Secret Math Meeting, Researchers Struggle to Outsmart AI》。作者:Lyndie Chiou 。翻译:智能超参数。
本文译自科普杂志《Scientific American》6月6日刊发的文章《At Secret Math Meeting, Researchers Struggle to Outsmart AI》。作者:Lyndie Chiou 。翻译:智能超参数。
五月中旬的一个周末,一场数学界的秘密顶级会议悄然召开。
三十位全球最知名的数学家齐聚加州伯克利,其中不乏从英国专程赶来的人。在这里,他们与一个“推理”机器人展开了一场巅峰对决。这个机器人的任务,是解决这些顶尖大脑专门为考验其数学实力而设计的难题。
经过两天高强度的教授级难题“轰炸”后,研究人员们震惊地发现,这个机器人竟然能够解答世界上最难的一批可解问题。
“我的同事中,有人毫不夸张地说,这些模型已经接近数学天才的水平了。”弗吉尼亚大学的数学家、本次会议的组织者兼评委之一小野健(Ken Ono)感叹道。
这款备受瞩目的聊天机器人,就是OpenAI的o4-mini 模型。与驱动早期版本 ChatGPT 的大语言模型一样,o4-mini 通过学习来预测序列中的下一个Token。
但不同之处在于,o4-mini 及其同类模型更为轻量、灵活,它们基于更专业的数据库进行训练,并接受了更强的强化学习。这种方法使得它能够比传统大语言模型更深入地钻研复杂的数学问题。
为了追踪 o4-mini 的进展,OpenAI 此前委托非营利性评测机构 Epoch AI 设计了 300 个答案尚未公开发表的数学问题。
当 Epoch AI 用这些新问题去测试传统的大语言模型时,表现最好的模型解题率也不到 2%。但是,o4-mini 表现则大不一样。
2024 年 9 月,Epoch AI 聘请了刚获得数学博士学位的埃利奥特·格拉泽(Elliot Glazer),加入了这个名为“前沿数学”(FrontierMath)的新合作基准测试项目。
该项目收集了不同难度等级的新问题,前三个等级分别涵盖了本科、研究生和研究级别的挑战。到了 2025 年 4 月,格拉泽发现 o4-mini 已经能解决大约 20% 的问题。
于是,他将难度提升至第四层级:一系列即使对专业学术数学家也极具挑战性的问题。放眼全球,能提出这类问题的人屈指可数,更不要说解答了。
参与出题的数学家们都签署了保密协议,要求他们只能通过加密通讯软件 Signal 交流。因为像传统电子邮件这样的其他联系方式,可能会被大语言模型扫描到,无意中成为其训练数据,从而污染整个测试集。
每当 o4-mini 无法解决一个问题,提出该题的数学家就能获得 7500 美元的奖金。
起初,团队在寻找难题方面进展缓慢而稳定。为了加快进度,格拉泽和 Epoch AI 在 5 月 17 日(周六)和 18 日(周日)主办了这次线下会议,让与会者在此敲定最后一批挑战题目。
30名与会者被分成6个小组,在两天时间里,这些顶尖学者们展开内部竞赛,绞尽脑汁地设计出自己能解、但又能难倒这个人工智能推理机器人的问题。
到了周六晚上,小野健感到非常沮丧,因为o4-mini 出乎意料的数学才能让整个团队的工作屡屡受挫。
“我提出了一个我们这个领域的专家都会认为是数论中一个开放性的问题——一个很好的博士级别难题,”他说。他让 o4-mini 解答此题。在接下来的十分钟里,小野健在令人窒息的沉默中,眼睁睁地看着o4-mini 实时地一步步展开解答过程,并清晰地展示其推理思路。
o4-mini 先花了两分钟查找并掌握了该领域的相关文献。然后,它在屏幕上写道,为了学习,它想先尝试解决一个更简单的“玩具版”问题。
几分钟后,它表示自己已准备好解决那个更难的原始问题。又过了五分钟,o4-mini 给出了一个正确无误、甚至带着几分俏皮的答案。
“它开始变得非常得意,”小野健说,“在结尾,它甚至写道:‘无需引用,因为这个神秘数字是我算出来的!’”
大受打击的小野健在周日清晨立刻登录 Signal,将情况告知了其他与会者。“我完全没料到要和这样的大语言模型交手,”他说,“我从未在模型中见过如此强大的推理能力。这完全是科学家的思维方式。太可怕了。”
尽管团队最终还是成功找到了 10 个难倒机器人的问题,但人工智能在短短一年内的飞速进步,着实让这些研究人员感到震惊。
伦敦数学科学研究所的数学家、最早利用人工智能进行数学研究的先驱之一何杨辉(Yang Hui He)表示:“这是一个非常、非常优秀的研究生会做的事——不,甚至有过之而无不及。”
此外,这个模型的解题速度也远超人类专业数学家,它只需短短几分钟就能完成人类专家需要数周甚至数月才能完成的工作。
与 o4-mini 的“过招”既刺激又惊心,但它的进步也令人警惕。小野健和何杨辉都表示,他们担心人们会过度信任 o4-mini 的结果。
“证明方法有归纳法、反证法,现在又多了一种‘恫吓式证明’,”何杨辉说,“当你用足够权威的口气说话时,人们会感到敬畏。我认为 o4-mini 已经掌握了‘恫吓式证明’的精髓;它以不容置疑的口吻说出一切。”
会议临近结束时,与会者们开始思考数学家的未来。讨论转向了那个不可避免的“第五层级”——即连最顶尖的数学家也无法解决的问题。如果人工智能达到那个水平,数学家的角色将发生根本性的转变。
例如,数学家可能会转变为仅仅提出问题,并与推理模型互动,引导它们发现新的数学真理,就像教授指导研究生一样。基于此,小野健预测,在高等教育中培养创造力,将是延续未来数学发展的关键。
“我一直告诉我的同事们,说通用人工智能永远不会到来,说‘那不过是台计算机而已’,是一个严重的错误,”小野健说,“我不想加剧恐慌,但在某些方面,这些大语言模型已经超越了我们世界上大多数最优秀的毕业生。”
来源:智能超参数一点号