2025美国最新奥数题,让大模型集体翻车,DeepSeek R1平均分也不到5%

B站影视 欧美电影 2025-04-03 17:14 1

摘要:定性讨论答案框选当前强化学习优化技术依赖从明确的最终答案中提取奖励,为此模型常被要求将最终答案放在 \boxed {} 环境中。然而,这在 USAMO 问题解答中产生了意外副作用:即使大多数评估问题不需要框选答案,模型仍习惯性地这样做。一个典型例子是问题 5

机器之心报道编辑:+0当 AI 翻开奥数题,CPU 也烧了!还记得那些被奥数题折磨得彻夜难眠的日子吗?当你在凌晨三点对着一道几何证明题抓耳挠腮、怀疑人生的时候,你可能会想:「要是有个超级大脑能帮我解决这些问题该多好啊!」定性讨论答案框选当前强化学习优化技术依赖从明确的最终答案中提取奖励,为此模型常被要求将最终答案放在 \boxed {} 环境中。然而,这在 USAMO 问题解答中产生了意外副作用:即使大多数评估问题不需要框选答案,模型仍习惯性地这样做。一个典型例子是问题 5 中,QWQ 模型错误地限制自己只寻找整数解,尽管题目没有这样的要求。它坚持最终答案是 2,虽然已经正确推导出所有偶数都满足条件。这表明像 GRPO 这样的对齐技术可能无意中让模型认为每个数学问题都需要一个明确的框选答案,从而损害了其整体推理能力。模式泛化模型常表现出将小数值案例中观察到的模式过度泛化到更大未测试案例的倾向。虽然这种启发式方法对仅需数值答案的问题可能有效,但对于需要严格证明的问题,这种方法本质上存在缺陷。模型经常在缺乏正式证明的情况下,错误地断言小案例中观察到的模式具有普遍适用性。解答结构与清晰度不同模型提供的解答在清晰度和结构连贯性上存在显著差异。O3-MINI 和 O1-PRO 等模型通常以清晰、逻辑化且易于理解的方式呈现解答。相反,FLASH-THINKING 和 QWQ 等模型经常产生混乱且难以理解的回答,有时在单个解答中混合多个不相关的概念。OpenAI 训练的模型在清晰度上的明显优势表明,专注于解答连贯性的额外训练显著提高了其可读性,这一特性在其他模型中明显受到较少重视。所以,当下次有人警告你「AI 即将统治世界」时,不妨淡定地递给他一张奥数试卷:「先让它们过了这一关再说吧。」© THE END转载请联系本公众号获得授权原标题:《2025美国最新奥数题,让大模型集体翻车,DeepSeek R1平均分也不到5%》

来源:用心教育

相关推荐