程序员不慌,大模型写代码依然“死记硬背”

B站影视 港台电影 2025-06-21 00:17 2

摘要:谢赛宁推出测试集,o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模型,hard级别全都0分。LLM在难题上表现很差,其解题能力依然是“死记硬背”,依赖工具,并非真正的逻辑推理。

【总结】

谢赛宁推出测试集,o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模型,hard级别全都0分。LLM在难题上表现很差,其解题能力依然是“死记硬背”,依赖工具,并非真正的逻辑推理。

近期,大模型编程能力强的新闻,频频出现

【2025-5-22】Google 发布 Gemini 2.5 Pro,Deep Think模式下,编程能力突出,领先对手OpenAI o3和o4-mini,详见:2025谷歌I/O大会:大模型应用全面开花【2025-5-23】Claude 4发布,在结构化推理、软件工程和自主代理行为等领域进步显著,从写单一功能代码到独立完成项目。详见:Anthropic 发布最强代码模型 Claude 4【2025-5-29】DeepSeek R1-0528编程能力升级,以73.1分排名第四,接近OpenAI的o3-high(75.8分),性能“媲美o3”。【2025-6-17】DeepSeek R1-0528编程能力跻身第一梯队,LMArena公布最新代码排名,DeepSeek-R1(0528)冲进第一,详见:大模型编程榜更新:DeepSeek-R1晋升第一梯队,Kimi-Dev-72B突现

仿佛下一刻,程序员就要收拾铺盖,下岗了。

而实际体验上,并非如此。

大模型生成的代码基本功能还行,但运行结果总是偏差,调试起来,成本并不低,尤其是涉及多个文件的编程项目,往往需要先吃透代码逻辑,才能改到预期效果。

为什么?

以上各家的宣传都基于特定测试集,有的公开,有的静态不变,难以保证相同题目或类似题目不在大模型训练语料中。

Gemini 2.5 Pro建立在2025 年美国数学奥林匹克竞赛(USAMO)和LiveCodeBench(竞赛级编程的高难度基准测试)测试集上Claude 4 建立在SWE-bench 基准测试(解决真实 GitHub 问题)和TerminalBench 测试(多步骤终端代码生成任务)上DeepSeek R1-0528编程能力在代码测试平台LiveCodeBench上评测,以及WebDev Arena排行榜

LLM编程看起来,已超越人类专家了,真的吗?

谢赛宁团队实验发现,并非如此。

旧版LiveCodeBench数据集上,推理LLM代码能力普遍优于通用LLM(灰色区域),得分上,o4-mini-high>Gemini 2.5 Pro>o3-mini>DeepSeek R1

论文提出全新测试集LiveCodeBench Pro

LiveCodeBench Pro 团队由奥林匹克竞赛得奖者组成,其中超半数成员为华人。

主要负责人:

郑子涵毕业于成都外国语学校,现于纽约大学本科在读,曾代表纽约大学参加ICPC世界总决赛,获得第二名。今年2月进入OpenAI实习柴文浩2023年在浙江大学完成本科学业,硕士就读于华盛顿大学,今年9月将前往普林斯顿大学计算机科学专业就读博士。曾于Pika Labs和微软亚洲研究院实习,先前研究主要涉及视频理解和生成模型。

该基准由奥林匹克获奖者构建,比赛结束后立即收集Codeforces、ICPC和IOI题目,在互联网上出现正确答案之前捕获每个问题,确保题目唯一性。

题库每日更新,减少数据污染,保证评估环境的真实性与挑战性。

目前收录了584道顶级竞赛题,团队手动标注问题,包括解题关键技能,并根据认知焦点将题目分为知识密集型逻辑密集型观察密集型三大类。

题目分三个难度级别,easy、medium和hard,通过正态分布自动选择,非人工挑选

22款模型测试结果

表现最好的模型o4-mini-high,在中等题目上一次通过率仅53%,难题通过率为0!一旦工具调用被屏蔽,Elo也只有2100,远低于真正大师级的2700传奇线。

实时榜单

分数最高的o3-mini-high,Easy题目上大部分正确,

Hard题目都错,Medium居中

再看看不同类型题目效果:

模型在知识密集型和逻辑密集型问题上表现更好,擅长 “死记硬背”(如数据结构模板),但在观察密集型问题或案例工作中表现较差,搞不定 “灵光一现” 的贪心、博弈题。

与人相比,o3-mini 等模型在精确、无错误上较好,但算法设计上逊色。

LLMs擅长实现类问题,但精细算法推理和复杂案例分析上欠佳,还常给出看似正确实则错误的解释。

LLMs经常忽略题目示例,对给定信息的利用不充分。

LLMs很大程度上依赖工具增强(如终端访问、网络搜索),而非自身推理能力。

增加做题次数(pass@k)可显著提升简单题正确率,但难题不行。

启用推理功能后,LLMs在组合数学等知识密集型题目中提升明显,但在观察密集型题目中提升有限。

谢赛宁表示:

击败这个基准就像AlphaGo击败李世石一样。

我们还没有达到那个水平——甚至对于有明确可验证结果的问题也是如此。

附录

参考

论文地址:https://arxiv.org/pdf/2506.11928项目地址:https://livecodebenchpro.com/量子位解读:https://zhuanlan.zhihu.com/p/1918971192515233230

来源:鹤啸九天blog

相关推荐