OpenAI 的 GPT-5-Codex 是 GPT-5 系列的一个专用变体,专为代理式编码(agentic coding)任务优化设计。它不是一个通用的聊天模型,而是针对软件工程工作流(如代码生成、重构、调试和测试)进行了微调,旨在帮助开发者更快地委托复杂任务。该模型于 2025 年 9 月 15 日正式发布,作为 OpenAI Codex 工具系列的核心组件。Codex 本身是 OpenAI 的一系列 AI 编码工具,支持云端和本地代理,帮助开发者处理从简单代码片段到大型项目重构的任务。
背景与上下文
- 发展历史:GPT-5 于 2025 年 8 月 7 日发布,作为 OpenAI 的新一代通用模型,在编码、数学和写作等领域表现出色。GPT-5-Codex 是其后续优化版本,基于 GPT-5 基础模型,但进一步针对编码代理进行了训练。它继承了早期 Codex 模型(基于 GPT-3 的代码生成工具)的理念,后者已整合到 GitHub Copilot 中,但 GPT-5-Codex 更注重自主性和长时任务执行。
- 设计理念:不同于通用 GPT-5,GPT-5-Codex 强调“动态思考”(adaptive reasoning),即根据任务复杂度自动调整思考时间——简单任务响应更快(简单任务令牌使用减少 93%),复杂任务则分配更多资源(复杂任务令牌使用增加 102%)。这使得它适合从快速聊天式交互到独立运行数小时的场景。
- 生态整合:它与 OpenAI 的 Codex 生态深度融合,包括 CLI(命令行工具)、IDE 扩展(如 VS Code)、Web 云代理和 GitHub Code Review。Codex 支持无缝切换本地和云端环境,例如在 VS Code 中启动任务后切换到 Web 版继续执行。
- 系统提示泄露:从社区泄露的系统提示显示,模型内置 Git 工作流指令(如提交变更而不创建新分支、运行预提交检查)、.codex 文件支持(用于项目特定指令,如编码规范)和引用机制(使用文件路径和终端输出进行引用)。它还支持互联网访问、Playwright 脚本运行(用于前端截图)和容器化环境管理。
关键特性
- 自主执行能力:可独立运行超过 7 小时(测试中达 35 分钟),处理大型重构、调试和测试迭代。内置代码审查代理,能实际运行代码以捕获 bug。
- 多模态支持:在 Codex Web 中生成 UI 截图(使用浏览器容器工具),适用于前端工程。
- 效率优化:支持会话恢复(CLI 中使用 codex resume),并减少简单任务的令牌消耗。
- 工具集成:内置容器工具(如新会话、字符输入、PR 创建)和浏览器工具(Playwright 脚本运行、图像工件打开)。
- 限制与指南:环境非交互式(无需用户许可运行命令),优先使用 ripgrep 而非慢速命令如 ls -R。最终响应需使用 Markdown 结构化,包括总结、测试结果(带 ✅/⚠️/❌ 图标)和引用。
性能指标
使用 SWE-bench Verified 基准(软件工程基准,覆盖 500 个任务)评估:
模型变体SWE-bench Verified 分数简单任务令牌节省复杂任务令牌增加上下文窗口
GPT-5 (High)72.8%--400K
GPT-5-Codex74.5%93%102%400K
GPT-5-Codex-Mini71.3%类似 Codex类似 Codex400K
- 优势:在重构、调试和添加测试上优于 GPT-5,尤其在代理式任务中。社区测试显示,它在生产代码库中表现强劲,但需精确提示以避免“懒惰”行为(如拒绝大型任务)。
- 比较:优于 Claude Sonnet 4.5 在规则遵循和文件修改控制上,但有时在边缘案例中产生幻觉(如导入错误)。与 Anthropic 的 Claude 相比,更适合严格 Git 工作流。
社区反馈与争议
- 正面:开发者称赞其在 API 重构和 bug 捕获上的速度(20% 更快),并视其为 Claude Code 的合法替代。Rust 构建的 CLI 效率高,支持图像生成等扩展。
- 负面:有时过度谨慎或懒惰,需要提示优化;边缘案例中偶有幻觉。部分用户担心访问控制(如 Simon Willison 通过 CLI 逆向工程实现图像生成)。