摘要:AI频频刷新基准测试纪录,却算不清「strawberry」里到底有几个字母r,在人类看来很简单的问题却频频出错。这种反差促使创意测评兴起,例如由一名高中生开发的MC-Bench,用Minecraft方块「竞技场」模式评价AI能力。这种新的测评范式,或许更贴合人
【新智元导读】 AI频频刷新基准测试纪录,却算不清「strawberry」里到底有几个字母r,在人类看来很简单的问题却频频出错。这种反差促使创意测评兴起,例如由一名高中生开发的MC-Bench,用Minecraft方块「竞技场」模式评价AI能力。这种新的测评范式,或许更贴合人类对AI直观、创造性能力的实际期待。
「strawberry中有多少个r」和「在LSAT法学考试中获得88分」哪个更难?
对于现如今的LMMs来说,通过各种人类「听着就头痛,看又看不懂」的基准测试似乎已是家常便饭。
比如DeepSeek-R1发布时在6大基准测试(包含AIME、MMLU、MATH-500等)中超过o1取得领先。
但是对于人类来说依靠直觉和下意识就能回答的问题,LLM们似乎集体有点「发懵」。
很难理解OpenAI的GPT-4能够在LSAT考试中获得第88百分位的成绩,但却无法数清楚「 strawberry 」中有多少r。
除了复杂的基准测试,另外一种评价模型好坏的方式就是「竞技场模式」。
比如可以在Chatbot Arena进行上提问,选出面对相同问题时的「最佳模型」。
但是这种依靠Chat模式的评测依然不太直观,于是各种各样的创意评测就诞生了。
创意评测的魅力
Minecraft Benchmark(或 MC-Bench)像一个竞技场,在一对一的挑战中针对相同提示生成Minecraft作品。
「对决双方」由用户选择哪个模型做得更好。
并且只有在后才能看到每个Minecraft建筑是由哪个AI制作的。
目前MC-Bench的榜单上,Claude3.7暂时领先,deepseek-r1位列第5,但是考虑到DeepSeek-R1的发布时间,Claude3.7、GPT-4.5和Gemini2.0都相当于是「新一代」的模型了,期待DeepSeek-R2出来后的榜单!
像MC-Bench这样的创意评测,优势非常明显:普通人也能轻松参与,像「选美」一样简单直接。
创造MC-Bench项目的仅仅是一名高中生Adi Singh,在将Minecraft用于AI评测这件事情上,Adi Singh觉得Minecraft的价值不在游戏本身。
而是作为有史以来最畅销的电子游戏,即使对于没玩过Minecraft游戏的人来说,仍然可以选择自己更喜欢的「方块样子」。
MC-Bench是合作开发的,除了Adi Singh外,贡献者还有7位,包括了「提示词创意官」、技术主管和开发者们。
并获得了Anthropic、Google和阿里巴巴等公司的技术支持。
传统LLM评测:严肃认真但未必管用
传统的AI基准测试技术被证明不足,主要体现在以下几个方面:主场优势 (Overfitting to benchmarks) :传统的 AI 基准测试往往基于特定类型的任务设计,这些任务对 AI 模型来说相对固定且简单,这种过拟合就像一名「只会背题」的学生。
测试任务过于狭窄 :传统的测试任务多集中于单一维度的能力评估,如语言理解、逻辑推理、数学计算。
缺乏真实环境与开放性 :传统的基准测试通常使用高度抽象化或理论化的环境,而这些环境往往不能反映现实世界中问题的开放性和不确定性。
难以衡量通用性与泛化能力 :传统 AI 基准测试往往无法有效衡量模型的通用性或泛化能力。
因此AI构建者正在转向更有创意的方法来评估Gen-AI模型的能力。
AI开发者们表示,我们也想玩点「新鲜的」。再比如,claude-3.7-sonnet有一个令人印象非常深刻的Minecraft模型,根据提示「 韩国友谊之钟 」生成。
审计数据的乐趣 (与其他所有基准测试都不同)
测试真正关心的功能 (代码、美学、意识)
甚至可以辨别顶级型号之间的性能差异
游戏测评AI似乎依然是「主流创意」
在Claude 3.7 Sonnet发布时说过,模型降低了在数学、竞赛和编程方面的特化程度,有「更好」的思考能力。那么如何评测新模型的「思考」能力呢?
答案就是游戏《宝可梦》,这不是开玩笑。
Claude通过配备了透过程序来操控游戏的特定「按钮」。 甚至还在Twitch上直播了Claude玩游戏的全过程,可以看到它如何学习、思考并采取行动。来源:东窗史谈一点号