Codex的OpenAI官方发布会看了几乎等于没看,没有太多实质性信息。基本就是Codex能干很多,很好,用了端到端RL训练。(不少嘉宾感觉说话都有点不顺溜。不过以PR级别要求开发者和研究员还是太难了,毕竟熟练需要排练,这个时间还是让他们去干活吧。)摘要:Codex的OpenAI官方发布会看了几乎等于没看,没有太多实质性信息。基本就是Codex能干很多,很好,用了端到端RL训练。(不少嘉宾感觉说话都有点不顺溜。不过以PR级别要求开发者和研究员还是太难了,毕竟熟练需要排练,这个时间还是让他们去干活吧。)
Codex是一个云端的AI coding agent,这点看起来很像是Devin的一个基本版本,不包含渲染前端页面并进行理解、浏览网页之类的,但对于纯代码方面的功能就很符合我对Devin的期待。但它的workspace不能在一个对话session中持久化。而且Codex可以在手机端上访问,享受云端执行的好处。
Codex的整个工作流都是依赖于Github的,包括git repo托管,PR等。
在对话过程中,Codex可以输出对于原始代码的参考引用标记。
Latent Space在一同放了一个Codex的播客,标题叫做《ChatGPT Codex: The Missing Manual》,讲了一些内部设计上的考量。不过对于能力边界什么的感觉也没有提及太多。
在一些小任务上感觉Codex很符合的我的期待,感觉比Cursor Agent模式好一些。不过整个流程似乎仍然有些environment的不稳定导致的问题。
但一个限制是,Codex一个任务只能处理一个分支,我研究了半天环境配置,也不能手工指定让它拉取多个分支,不知道是故意为之,还是什么理由。环境配置方面总体感觉做得不太好。智能体运行时 互联网访问会被切断 ,只能在前面环境初始化时访问。理由是出于安全考虑。而我在测试时在初始化时也无法访问,不知道是不是bug。
但总体来说,基于RFT和o3加成的Codex产品让我很有使用它的兴趣。我现在缺的是足够智能的产品。
最近新的Code工具不少,Anthropic发了Claude Code,OpenAI发了Codex CLI和Codex(云端)。
而这些工具中,可能唯一使用了RFT/端到端RL的就是Codex。OpenAI的第一个RFT产品Deep Research已经一战成名,所以这次的Codex也很让我期待。
目前体感是,Codex执行挺快的。目前官方限制运行时长是1h,官方在Latent Space播客上同步说经验上困难任务的时间是30min。目前任务并发限制是每小时60个。
说回来,现在OpenAI的Deep Research产品线已经有了三个版本:满血的Deep Research、Deep Research Lite版、o3+Search。最后的o3+Search已经是一个轻量级的Deep Research了,很好用。搜索轮次和探索时间也不少,实际成本应该也明显贵于更简化的方案。
一些技术Codex会大量的使用grep、nl、sed等传统Linux生态的工具,这可能与很多人想象的不同。结合Claude Code团队的发声,AI Coding Agent大量使用已有的coding工具是一种更合适的路径(ROI更高)。
来源:晚晚的星河日记一点号