编程神话破灭？GPT-5仅23.3%，AI编程智商测试全军覆没

摘要：最新出炉的SWE-Bench Pro基准测试，给了全球大语言模型一记响亮的耳光。OpenAI的GPT-5虽然“考了第一”，但成绩只有23.3%，其余模型更是纷纷折戟，无一过半。

曾经在IMO和ICPC大杀四方的AI模型，这次在“编程地狱”栽了一个大跟头。

最新出炉的SWE-Bench Pro基准测试，给了全球大语言模型一记响亮的耳光。OpenAI的GPT-5虽然“考了第一”，但成绩只有23.3%，其余模型更是纷纷折戟，无一过半。

这不是一次普通的测试，而是一场针对AI真实软件工程能力的终极大考。

过去一年，AI在编程领域风头无两。

从LeetCode刷题、修复Bug，到参与开发新功能，GPT-4、Claude、Gemini、Command R+等大型模型，仿佛无所不能，甚至在编程竞赛中击败人类顶尖选手。

然而，现实世界没有提示词、没有标准答案，只有复杂系统、混乱代码、模糊需求。

于是，SWE-Bench Pro来了。

它不是普通测试题，而是根据实际企业项目中的真实问题构建，目标只有一个：逼近现实开发环境，测试AI是否真能胜任工业级工作。

在这场“地狱级编程大考”中，所有模型表现都不尽如人意。

模型通过率（Pass@1）GPT-523.3%Claude Opus 4.122.7%Claude 企业版17.8%（商业集最高）GPT-4o3.9%Qwen-3 32B3.4%

这意味着，就连最强AI，在真实工业场景中，平均5道题只能做对1道。而过去在SWE-Bench Verified测试中，GPT-4一度突破70%通过率。

对比之下，前者像是课堂练习，后者才是真实战场。

SWE-Bench Pro设计团队并没有止步于“打分”，还深入分析了AI失败的原因：

Claude Opus 4.1：语义理解偏差最多，占失败的35.9%，其次是语法错误（24.2%）。GPT-5：整体策略较稳，但在工具调用上有差异，说明模型与外部插件协同仍不成熟。Gemini 2.5：工具使用（38.8%）和语法错误（30.5%）是主因。Qwen-3 32B：工具错误高达42%，暴露出LLM生态系统协同能力的短板。

此外，还有模型“无限读取文件”、上下文溢出等问题，说明AI在处理大型项目时的“导航能力”还远不如人类。