棋盘变战场,大模型却呆了?普林斯顿、UT Austin新基准曝AI智商瓶颈 近日,来自普林斯顿和德州大学奥斯丁分校最新评测基准 SPIN-Bench,用一套 "组合拳" 暴击了大模型的软肋。研究显示,即便是 o1、o3-mini、DeepSeek R1、GPT-4o、Claude 3.5 等顶尖大模型,在涉及战略规划和社会推理的复杂任 模型 棋盘 普林斯顿 austin utaustin 2025-03-25 10:50 2