摘要:2025年9月16日,OpenAI 正式推出一款为程序员打造的新工具GPT-5-Codex,这是 GPT-5 系列中的专用版本,专为代码生成、调试、审查等复杂开发任务设计。Codex 明确走出了一条“代理式协作”的路线,它能真正参与到完整的软件工程流程中。
AI 能连续编程 7 小时,还不出错,这是真的吗?
2025年9月16日,OpenAI 正式推出一款为程序员打造的新工具GPT-5-Codex,这是 GPT-5 系列中的专用版本,专为代码生成、调试、审查等复杂开发任务设计。Codex 明确走出了一条“代理式协作”的路线,它能真正参与到完整的软件工程流程中。
这款模型能产生很大影响,是因为它在内部测试中完成了长达 7 小时的连续重构任务,打破了现有 AI 编码模型“浅层次调用”“短时记忆” 的瓶颈。
过去的 AI 编程助手,更多是模仿、补全、翻译片段代码。在跨模块重构、全局迁移、大规模逻辑更新,AI 容易出现输出错误或被迫重置。
GPT-5-Codex 引入了一个关键能力:韧劲。官方工程师 Thibault Sottiaux 透露,在多次内部试验中,这一模型可以连续7小时处理高度依赖上下文的代码,完成的不是简单的查错和函数补全,是数百行逻辑关联代码的结构重构与功能替换。
GPT-5-Codex的推出,开发者不再需要分步骤引导 AI,可以像对待“虚拟实习生”一样,将任务整体交给 Codex 执行,逐步查看与反馈。
2021年,OpenAI 发布了最早版本的 Codex,嵌入 GitHub Copilot。这次的 GPT-5-Codex,明确强调“整合式开发体验”。这是一整套接口覆盖方案:终端 Codex CLI、IDE 插件、ChatGPT 集成、GitHub 审查助手,还有名为“10X”的内部原型,能帮助工程师在终端高效调试。
OpenAI 的联合创始人 Greg Brockman 透露,Codex 团队年初确立的目标是“年底前打造一位代理式软件工程师”,Codex 被赋予了“看见上下文、主动运行、代码审查、任务拆解”的多重能力。这些功能是通过名为 harness(交互外壳)的机制统一调用,构成一个能够在真实开发流程中“理解并执行”的系统。
GPT-5-Codex 在拥有“更聪明”的大脑的同时还拥有一套高效的“身体”。
在发布 IDE 扩展前夕,OpenAI 的核心工程师提交了 25 个 PR(合并请求)。Codex 自动完成了全部审查任务,发现多个结构性问题,帮助团队在正式上线前规避风险。
工程师们反馈,当 Codex 审查工具宕机时,开发效率明显下降,有人表示失去了“最后一道防线”,Codex 审查已经成为一种“可信协作者”,不是过去那种让人反感的“AI 邮件提示工具”。
Greg Brockman 强调:“能力低于某个阈值的 AI 是负担,一旦超越,它就是刚需。”GPT-5-Codex 正在进入这个临界点。
Codex它在任务执行中强调重构、审查、清理,目标是帮助团队精简逻辑、发现 bug、优化架构。工程团队引入 Codex 后,最明显的变化是代码结构更加清晰,团队间协作更顺畅。
在使用中,Codex 会参考项目中的 agents.md 文件,该文件不包含代码,只是记录开发者偏好、架构说明、审查原则等“隐性知识”。这一设计,让 Codex 能理解开发者的风格,减少不必要的“上下文训练”,提升效率。
GPT-5-Codex 的强项,在于“写得正确”“改得彻底”“逻辑能自洽”。
7 小时连续运行这个数字,在开发者眼里非常重要。它代表着某些原本只能靠人类工程师“盯死干”的高强度任务,现在终于能交由 AI 初步完成。这是反应真实工作中的“反复改、重构难、维护疲惫”等老问题。
GPT-5-Codex 真正改变了开发流程中的“人机边界”。从一个只能被动补全的小工具,变成能够主动理解任务、持续执行计划、辅助团队协作的智能代理,Codex 的推出让AI 编程助手从“输入工具”变为“并肩战友”。
算力资源日益紧张、任务日益复杂,像 GPT-5-Codex 这样能“7 小时爆肝不抱怨”的实习生型 AI,正是现代软件工程最需要的伙伴。
来源:内科医生小红姐一点号