实测揭秘!500 道人类未解难题考大模型,最佳仅 15% 通过验证

B站影视 港台电影 2025-09-16 18:13 3

摘要:ChatGPT、Claude、Gemini……这些名字如雷贯耳的语言模型,几乎每天都在刷新我们对AI能力的认知。它们能写诗、解题、生成代码、做翻译,甚至在不少考试中“吊打”人类。

ChatGPT、Claude、Gemini……这些名字如雷贯耳的语言模型,几乎每天都在刷新我们对AI能力的认知。它们能写诗、解题、生成代码、做翻译,甚至在不少考试中“吊打”人类。

然而,一个由斯坦福大学等机构发起的新实验,却给这场“AI奇迹”泼了一盆冷水。

这个测试名叫 UQ(Unsolved Questions),和我们平时见到的那种“背题考试”完全不一样。

他们没拿现成的题库去考模型,而是专门从现实世界里找来了500个——人类至今都还没解开的难题,把主流大模型拉出来,真正“同台竞技”了一把。

结果怎么样?表现最好的模型,叫o3 Pro,也只在15%的问题上通过了验证。

换句话说,剩下85%的题目,它连“可能正确”的边都没摸到。

所以这场测试不只是一次成绩放榜,更像是对“AI到底有多聪明”的一次灵魂拷问。

这500道题可不是研究人员自己编的,也不是从什么考试题里扒出来的——它们全部来自 Stack Exchange 这个开放社区,都是用户真实提出的、积压多年、没人能回答的问题。

这些问题覆盖数学、物理、计算机、历史甚至科幻等多个领域。

研究团队是从三百多万个问题里一轮一轮筛出来的:

第一轮,规则过滤:问题至少发布两年以上,要有足够的浏览量和点赞,还必须零回答——确保不是没人理的那种“僵尸问题”。

第二轮,大模型筛选:用 GPT-4o 尝试初步回答,再让另一个模型(比如 o4-mini)来判断这个问题是否合理、有没有可能被解决。太模糊、太主观、根本没法验证的,统统不要。

第三轮,人工复审:最后由一群博士背景的评审来做终审,确保每道题既有学术价值,又清晰可测。

最终这500题里,光科学类就占了395道,其中数学是绝对大头,其他则分布在技术、文化、艺术这些领域。

它们的共同特点就三个字:真、难、无答案。

这事儿研究团队早就想到了。

他们没采用“对/错”直接打分的方式,而是设计了一套叫 UQ Validators 的验证器系统——它的任务不是判断“答案对不对”,而是尽力找出答案中的明显错误。

说白了,它更像一个“错误过滤器”,帮人类专家先把次品筛掉。

实验中使用的验证器 pipeline

举个例子:Claude 3.7 Sonnet 在使用复合验证策略之后,通过率从21.6% 一下子升到了73.2%!验证器会多轮分析答案:逻辑是否自洽、事实有没有错误、到底有没有回应问题本身……而不是只看表面说得漂不漂亮。

团队还专门请人类专家复核了验证器的判断,结果发现:绝大多数情况下,验证器的分析是站得住脚的。

也就是说,不是验证器太苛刻,是它真的准。

模型没通过,多半不是因为题怪,而是自己没答好、甚至根本没理解题目。

结果显示,与原始基线相比,验证策略能够实质性地提高验证的准确率和精度。

团队做了组对比实验:让模型先试着解题,再让另一个模型去验答案。如果把生成准确率和验证准确率画成两条线,验证那条线爬得更快。

随着模型能力的提升,它们在验证准确率上的进步速度明显快于答题准确率。

这说明:就算一个模型自己解不出题,它却有可能判断出别人的答案靠不靠谱。生成器和验证器虽然是同一个模型,但能力特长完全不同。

这次测试中,像 o3、o4-mini 这类模型,在验证任务上的表现明显比生成更稳。

这也给了我们新启发:也许以后设计AI系统,不该逼着一个模型既当选手、又当裁判,“生成”和“验证”两个能力最好分开训练、各司其职。

来源:龙医生讲科普

相关推荐