摘要:OpenAI发布了一款名为GPT-5-Codex的语言模型,发布消息一出,不少关注AI行业的开发者第一反应是:终于来了。但很快,一句调侃在技术圈流传开来:“收手吧GPT-5-Codex,外面全是AI编程智能体了。”这句话的背后,藏着的是AI编程领域正在发生的一
OpenAI发布了一款名为GPT-5-Codex的语言模型,发布消息一出,不少关注AI行业的开发者第一反应是:终于来了。但很快,一句调侃在技术圈流传开来:“收手吧GPT-5-Codex,外面全是AI编程智能体了。”这句话的背后,藏着的是AI编程领域正在发生的一场重大转变。
GPT-5-Codex属于GPT-5的特殊版本,它专为智能体编程(agentic coding)重新设计。它具备两种核心能力:即时协作与独立执行。前者可以在开发者提出问题时实时响应,后者则能在无需干预的情况下,长时间推进复杂任务,比如跨文件调试和大规模代码改造。
官方数据显示,在 SWE-bench 验证和代码重构任务上,GPT-5-Codex 都超过了目前最先进的 GPT-5-high。尤其是在非常适合于真实世界任务的代码重构任务上,GPT-5-Codex 的准确率达到了 51.3%,相比GPT-5-high的33.9%有显著提升。同时,它在低复杂度请求中的平均token使用量排序的后 10% 用户请求中,GPT-5-Codex 的 token 消耗量比 GPT-5 减少 93.7%”,而在高复杂度任务中,推理与编辑耗时也增加了2倍,以此来提升深度理解和执行能力。
这些数据听起来很惊人,但问题在于,GPT-5-Codex并不是一个“从0到1”的突破。
当年OpenAI在发布Codex时,也为GitHub Copilot打下基础。但2025年再用“Codex”这个名称回归,面对的是一个已经完全不同的市场格局。
这也是为什么Cursor、Claude Code CLI、Gemini CLI这些名字频频出现在开发者讨论中。
以Cursor为例,它不是单纯的AI代码助手,而是一个深度嵌入IDE的智能体系统。它可以读取本地项目结构,跨文件理解上下文,执行项目级别的重构任务。Claude Code CLI也不只是调用Claude模型,而是在命令行环境中实现代码diff、工具集成、快速实验等功能。
用OpenAI总裁Greg 的话说,光有智能是不够的,必须要和开发环境、终端接口、代码上下文深度整合,才能变成真正可用的智能体。
GPT-5-Codex的发布背后,其实也暴露出了OpenAI对“智能体”理解的深化。
在OpenAI Podcast第6集中,Greg公开了几个内部使用的工具。其中最核心的之一是Agents.md。这不是模型,而是一个写在代码库里的文档,类似于为AI准备的README文件,记录团队的开发偏好、测试规范、代码结构。这种方式可以显著减少模型在理解代码时的上下文负担,提高执行精度。
另一个工具是10x,一款内部原型,最初在终端运行。它支持长时间异步执行任务,开发者甚至可以在任务运行时合上电脑等待结果。虽然还没有公开,但它在内部已经实现了“十倍开发效率”的目标。
还有一个是Code Review Agent,这是一个用于审查Pull Request的智能体,能对PR的意图和实现进行一致性检查,查找人类容易忽略的bug。在多个内部项目上线前夕,这个Agent承担了审查几十个PR的任务,几乎实现了零bug上线。
这些工具共同构成了一个事实:GPT-5-Codex不是一个单点模型,而是OpenAI构建AI编程系统的核心部件之一。
如果说2021年Codex是一个“概念验证”,那么2025年已是智能体落地全面开花的时间点。
国外方面,Claude Code CLI主打命令行集成,Gemini CLI则依托超大上下文窗口,处理大型项目能力突出。Cursor更是通过项目级别代码理解和跨文件重构,赢得大量开发者青睐。
在国内,腾讯的CodeBuddy、阿里通义千问的Qwen3-Coder、字节的TRAE、百度的文心智能体平台,以及DeepSeek的V3.1系列,也都在编程智能体领域进行深入布局。尤其是DeepSeek V3.1官方指出,该模型在命令行环境下完成复杂开发任务的能力已经显著增强。
从市场格局来看,智能体已不再是实验室技术,而是实打实的产品竞争。
来源:晓霞医生健康科普