2025美国最新奥数题,让大模型集体翻车,DeepSeek R1平均分也不到5%
定性讨论答案框选当前强化学习优化技术依赖从明确的最终答案中提取奖励,为此模型常被要求将最终答案放在 \boxed {} 环境中。然而,这在 USAMO 问题解答中产生了意外副作用:即使大多数评估问题不需要框选答案,模型仍习惯性地这样做。一个典型例子是问题 5
模型 奥数 deepseekr1 deepsee r1平均分 2025-04-03 17:14 1
定性讨论答案框选当前强化学习优化技术依赖从明确的最终答案中提取奖励,为此模型常被要求将最终答案放在 \boxed {} 环境中。然而,这在 USAMO 问题解答中产生了意外副作用:即使大多数评估问题不需要框选答案,模型仍习惯性地这样做。一个典型例子是问题 5
模型 奥数 deepseekr1 deepsee r1平均分 2025-04-03 17:14 1
很多针对大型语言模型(LLMs)的数学基准测试已经表明,最先进的推理模型在美国数学邀请赛(AIME)等数学竞赛中表现出色,O3-MINI 模型甚至达到了与顶尖人类参赛者相当的水平。然而,这些测试仅仅评估了最终答案,而忽略了推理和证明过程。
模型 奥数 deepseekr1 deepsee r1平均分 2025-04-02 18:53 2