visualpuzzles

全球顶尖AI来考公，不会推理全翻车！致命缺陷曝光，被倒数5%人类

全球顶尖AI来考公，不会推理全翻车！致命缺陷曝光，被倒数5%人类

公考行测中的逻辑推理题，是不少考生的噩梦，这次，CMU团队就此为基础，打造了一套逻辑谜题挑战。实测后发现，o1、Gemini-2.5 Pro、Claude-3.7-Sonnet这些顶尖大模型全部惨败！最强的AI正确率也只有57.5%，而人类TOP选手却能接近满

模型模态推理 visualpuzzles mmmu 2025-04-19 19:27 2

顶尖AI来考公，不会推理全翻车！致命缺陷曝光，被倒数5%人类碾压

顶尖AI来考公，不会推理全翻车！致命缺陷曝光，被倒数5%人类碾压

公考行测中的逻辑推理题，是不少考生的噩梦，这次，CMU团队就此为基础，打造了一套逻辑谜题挑战。实测后发现，o1、Gemini-2.5 Pro、Claude-3.7-Sonnet这些顶尖大模型全部惨败！最强的AI正确率也只有57.5%，而人类TOP选手却能接近满

模型模态推理 cmu visualpuzzles 2025-04-18 14:22 1