摘要:最新出炉的SWE-Bench Pro基准测试,给了全球大语言模型一记响亮的耳光。OpenAI的GPT-5虽然“考了第一”,但成绩只有23.3%,其余模型更是纷纷折戟,无一过半。
曾经在IMO和ICPC大杀四方的AI模型,这次在“编程地狱”栽了一个大跟头。
最新出炉的SWE-Bench Pro基准测试,给了全球大语言模型一记响亮的耳光。OpenAI的GPT-5虽然“考了第一”,但成绩只有23.3%,其余模型更是纷纷折戟,无一过半。
这不是一次普通的测试,而是一场针对AI真实软件工程能力的终极大考。
过去一年,AI在编程领域风头无两。
从LeetCode刷题、修复Bug,到参与开发新功能,GPT-4、Claude、Gemini、Command R+等大型模型,仿佛无所不能,甚至在编程竞赛中击败人类顶尖选手。
然而,现实世界没有提示词、没有标准答案,只有复杂系统、混乱代码、模糊需求。
于是,SWE-Bench Pro来了。
它不是普通测试题,而是根据实际企业项目中的真实问题构建,目标只有一个:逼近现实开发环境,测试AI是否真能胜任工业级工作。
在这场“地狱级编程大考”中,所有模型表现都不尽如人意。
模型通过率(Pass@1)GPT-523.3%Claude Opus 4.122.7%Claude 企业版17.8%(商业集最高)GPT-4o3.9%Qwen-3 32B3.4%这意味着,就连最强AI,在真实工业场景中,平均5道题只能做对1道。而过去在SWE-Bench Verified测试中,GPT-4一度突破70%通过率。
对比之下,前者像是课堂练习,后者才是真实战场。
SWE-Bench Pro设计团队并没有止步于“打分”,还深入分析了AI失败的原因:
Claude Opus 4.1:语义理解偏差最多,占失败的35.9%,其次是语法错误(24.2%)。GPT-5:整体策略较稳,但在工具调用上有差异,说明模型与外部插件协同仍不成熟。Gemini 2.5:工具使用(38.8%)和语法错误(30.5%)是主因。Qwen-3 32B:工具错误高达42%,暴露出LLM生态系统协同能力的短板。此外,还有模型“无限读取文件”、上下文溢出等问题,说明AI在处理大型项目时的“导航能力”还远不如人类。
这次集体挂科,不是AI退步了,而是人类终于给出了一个够硬核的试卷。
SWE-Bench Pro不仅填补了旧有测试“太简单、易污染”的缺陷,更提供了一个新标尺:AI是否真的具备工业级开发能力。
别再迷信模型在演示里“秒修Bug”的神迹了,现实世界代码千头万绪、需求模糊、协作复杂,AI还远未准备好独当一面。
但这不代表AI编程没有前途。相反,正因为这次滑铁卢,我们离看清它的真正边界和潜力更近了一步。
未来能否成为靠谱的开发助手,靠的不是演示炫技,而是真正过得了SWE-Bench Pro这道坎。
来源:老闫侃史