程序员不慌，大模型写代码依然“死记硬背”

摘要：谢赛宁推出测试集，o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模型，hard级别全都0分。LLM在难题上表现很差，其解题能力依然是“死记硬背”，依赖工具，并非真正的逻辑推理。

【总结】

谢赛宁推出测试集，o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模型，hard级别全都0分。LLM在难题上表现很差，其解题能力依然是“死记硬背”，依赖工具，并非真正的逻辑推理。

近期，大模型编程能力强的新闻，频频出现

【2025-5-22】Google 发布 Gemini 2.5 Pro，Deep Think模式下，编程能力突出，领先对手OpenAI o3和o4-mini，详见：2025谷歌I/O大会：大模型应用全面开花【2025-5-23】Claude 4发布，在结构化推理、软件工程和自主代理行为等领域进步显著，从写单一功能代码到独立完成项目。详见：Anthropic 发布最强代码模型 Claude 4【2025-5-29】DeepSeek R1-0528编程能力升级，以73.1分排名第四，接近OpenAI的o3-high（75.8分），性能“媲美o3”。【2025-6-17】DeepSeek R1-0528编程能力跻身第一梯队，LMArena公布最新代码排名，DeepSeek-R1（0528）冲进第一，详见：大模型编程榜更新：DeepSeek-R1晋升第一梯队，Kimi-Dev-72B突现

仿佛下一刻，程序员就要收拾铺盖，下岗了。

而实际体验上，并非如此。

大模型生成的代码基本功能还行，但运行结果总是偏差，调试起来，成本并不低，尤其是涉及多个文件的编程项目，往往需要先吃透代码逻辑，才能改到预期效果。

为什么？

以上各家的宣传都基于特定测试集，有的公开，有的静态不变，难以保证相同题目或类似题目不在大模型训练语料中。

Gemini 2.5 Pro建立在2025 年美国数学奥林匹克竞赛（USAMO）和LiveCodeBench（竞赛级编程的高难度基准测试）测试集上Claude 4 建立在SWE-bench 基准测试（解决真实 GitHub 问题）和TerminalBench 测试（多步骤终端代码生成任务）上DeepSeek R1-0528编程能力在代码测试平台LiveCodeBench上评测，以及WebDev Arena排行榜

LLM编程看起来，已超越人类专家了，真的吗？

谢赛宁团队实验发现，并非如此。

旧版LiveCodeBench数据集上，推理LLM代码能力普遍优于通用LLM（灰色区域），得分上，o4-mini-high＞Gemini 2.5 Pro＞o3-mini＞DeepSeek R1

论文提出全新测试集LiveCodeBench Pro

LiveCodeBench Pro 团队由奥林匹克竞赛得奖者组成，其中超半数成员为华人。

主要负责人：

郑子涵毕业于成都外国语学校，现于纽约大学本科在读，曾代表纽约大学参加ICPC世界总决赛，获得第二名。今年2月进入OpenAI实习柴文浩2023年在浙江大学完成本科学业，硕士就读于华盛顿大学，今年9月将前往普林斯顿大学计算机科学专业就读博士。曾于Pika Labs和微软亚洲研究院实习，先前研究主要涉及视频理解和生成模型。

该基准由奥林匹克获奖者构建，比赛结束后立即收集Codeforces、ICPC和IOI题目，在互联网上出现正确答案之前捕获每个问题，确保题目唯一性。

题库每日更新，减少数据污染，保证评估环境的真实性与挑战性。

目前收录了584道顶级竞赛题，团队手动标注问题，包括解题关键技能，并根据认知焦点将题目分为知识密集型、逻辑密集型和观察密集型三大类。