摘要:就在刚刚,AIME 2025 I数学竞赛的大模型参赛结果出炉,o3-mini取得78%的最好成绩,DeepSeek R1拿到了65%,取得第四名。然而一位教授却发现,某些1.5B小模型竟也能拿到50%,莫非真的存在数据集污染?
【导读】 就在刚刚,AIME 2025 I数学竞赛的大模型参赛结果出炉,o3-mini取得78%的最好成绩,DeepSeek R1拿到了65%,取得第四名。然而一位教授却发现,某些1.5B小模型竟也能拿到50%,莫非真的存在数据集污染?
大语言模型,到底是学会了解决数学问题,还是只是背下了答案?
LLM的「Generalize VS Memorize」之争,迎来最新进展。
苏黎世联邦理工的研究员Mislav Balunović,在X上公布了一众顶级AI推理模型在AIME 2025 I比赛中的结果。
其中,o3-mini (high)令人印象非常深刻,以非常低的成本解决了78%的问题。
DeepSeek-R1,则解决了65%的问题,而且它的蒸馏变体也表现不错,不愧是领先的开源模型!
绿色表示问题的解答率超过75%,黄色表示解答率在25%-75%之间,红色表示解答率低于25%
然而,结果真的是这样吗?
AI做出奥数题,只因原题已在网上泄露?
威斯康星大学麦迪逊分校教授,目前在微软担任研究员的Dimitris Papailiopoulos,对这一测试的结果提出了质疑。
教授表示,自己对AI模型在数学题上取得的进步,非常惊讶。
原本他以为,一些较小的蒸馏模型遇到这些题就寄了,没想到它们却拿到了25%到50%的分数。
这可太令人意外了!
要知道,如果这些题完全是新的,模型在训练过程中从未见过,按理说小模型能拿0分以上的分数就很好了。
一个1.5B参数的模型连三位数的相乘都做不出,结果却能做出奥数题,这合理吗?
这就不由得让人怀疑,其中有什么问题了。
什么是MathArena?
MathArena是一个用于评估大模型在最新数学竞赛和奥林匹克竞赛中的表现的平台。 它的核心使命便是,对LLM在「未见过的数学问题」上的推理能力和泛化能力进行严格评估。 为了确保评估的公平性和数据的纯净性,研究人员仅在模型发布后进行竞赛测试,避免使用可能泄漏的或预先训练的材料进行回溯评估。来源:财富吹哨人
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!