摘要:深夜的办公室里,只有键盘声作响——但敲击代码的并非人类程序员,而是一个持续工作了30小时的AI。这不是科幻电影,而是Anthropic公司最新发布的Claude Sonnet 4.5展现的现实能力。
深夜的办公室里,只有键盘声作响——但敲击代码的并非人类程序员,而是一个持续工作了30小时的AI。这不是科幻电影,而是Anthropic公司最新发布的Claude Sonnet 4.5展现的现实能力。
当人们还在讨论AI能否替代初级程序员时,Claude Sonnet 4.5已经悄然刷新了认知边界。这款被称为“世界上最好的编程模型”的AI,不仅能连续工作超过30小时,还能独立完成需要数周人类工时的大型项目。
就在几个月前,顶级AI模型的持续工作时间纪录还停留在7小时。而Claude Sonnet 4.5直接将这一标准提升了四倍多。在演示中,它从零开始构建了一个类似Slack的企业级聊天应用,一口气生成约1.1万行代码,涵盖数据库创建、安全审计等全流程。
这一突破的意义不仅在于时长,更在于其稳定性。就像马拉松选手需要同时具备耐力、速度和抗干扰能力,AI长时程工作面临的核心挑战是避免“跑偏”——早期的小错误可能在数小时后被放大成致命问题。
Claude Sonnet 4.5实现长时程工作的秘诀令人惊讶地“人性化”:它学会了像人类一样使用外部工具辅助记忆。
在实际任务中,这个AI会主动创建progress.txt文件记录进度,使用git进行版本控制,甚至编写测试脚本来验证自己的代码。这种将重要信息存储在外部的“做笔记”能力,让它克服了模型自身记忆容量的限制。
与此配套的新功能“检查点”就像游戏存档,允许在任务任何阶段保存进度,一旦出现问题可以快速回退到稳定状态。
在衡量编程能力的SWE-bench测试中,Claude Sonnet 4.5以82.0%的准确率排名第一,显著高于GPT-5的72.8%和Gemini 2.5 Pro的67.2%。
更令人印象深刻的是在OSWorld测试中的表现——这个测试评估AI操作计算机的实际能力,Sonnet 4.5得分从4个月前的42.2%跃升至61.4%。这意味着它不仅能写代码,还能像真正的人类员工一样操作软件、填写表格、浏览网页。
实际使用过Claude Sonnet 4.5的开发者给出了复杂评价。有用户分享道:“它在一轮调用中重构了我的整个代码库,生成了12个新文件、3000多行代码。结果完全跑不通,但整个过程真的很优雅。”
这种“又爱又恨”的反应揭示了当前AI编程的现状:能力惊人但远非完美。资深工程师认为它是“天堂来的礼物”,可以处理繁琐实现细节;而新手则可能因过度依赖而产生难以维护的代码。
Claude Sonnet 4.5的发布恰在OpenAI开发者大会前一周,被视为明显的市场卡位。但更重要的是,它标志着AI正从“工具”向“同事”转变。
研究表明,AI智能体的持续工作时间大约每7个月翻一番。如果这一趋势持续,能够处理以周计任务的AI可能在不久的将来出现。这将不仅改变编程工作,更会重塑所有知识工作的方式。
目前,Claude Sonnet 4.5已开放使用,价格与前一版本持平,每百万token输入3美元、输出15美元。对于开发者来说,这意味着可以用更低成本获得更强大的编程助手。
随着AI持续工作时间的不断延长,人类在知识工作中的角色正从“执行者”转向“监督者”。这场变革的速度,可能比大多数人想象的都要快。
来源:围炉笔谈123