r1平均分

2025美国最新奥数题,让大模型集体翻车,DeepSeek R1平均分也不到5%

定性讨论答案框选当前强化学习优化技术依赖从明确的最终答案中提取奖励,为此模型常被要求将最终答案放在 \boxed {} 环境中。然而,这在 USAMO 问题解答中产生了意外副作用:即使大多数评估问题不需要框选答案,模型仍习惯性地这样做。一个典型例子是问题 5

模型 奥数 deepseekr1 deepsee r1平均分 2025-04-03 17:14  1