GP

GPT-5 Codex

GPT-5 Codex

发布时间: 2025-09-15144
模型参数
未披露
上下文长度
400K
中文支持
支持
推理能力

模型基本信息

推理过程
支持
上下文长度
400K tokens
最大输出长度
128000 tokens
模型类型
暂无数据
发布时间
2025-09-15
模型文件大小
暂无数据
MoE架构
总参数 / 激活参数
0.0 亿 / 不涉及
知识截止
暂无数据
推理模式
常规模式(Non-Thinking Mode)思考模式(Thinking Mode)

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源- 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址

官方介绍与博客

DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
3/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
模态输入输出
文本$1.25$10
图片$1.25--
缓存计费Cache
模态输入 Cache输出 Cache
文本$0.125--
图片$0.125--

评测得分

编程与软件工程

共 1 项评测
评测名称 / 模式
得分
排名/总数
74.50
11 / 72

综合评估

共 1 项评测
评测名称 / 模式
得分
排名/总数
LiveBenchthinking
78.24
5 / 52

发布机构

模型解读

OpenAI 的 GPT-5-Codex 是 GPT-5 系列的一个专用变体,专为代理式编码(agentic coding)任务优化设计。它不是一个通用的聊天模型,而是针对软件工程工作流(如代码生成、重构、调试和测试)进行了微调,旨在帮助开发者更快地委托复杂任务。该模型于 2025 年 9 月 15 日正式发布,作为 OpenAI Codex 工具系列的核心组件。Codex 本身是 OpenAI 的一系列 AI 编码工具,支持云端和本地代理,帮助开发者处理从简单代码片段到大型项目重构的任务。

背景与上下文

  • 发展历史:GPT-5 于 2025 年 8 月 7 日发布,作为 OpenAI 的新一代通用模型,在编码、数学和写作等领域表现出色。GPT-5-Codex 是其后续优化版本,基于 GPT-5 基础模型,但进一步针对编码代理进行了训练。它继承了早期 Codex 模型(基于 GPT-3 的代码生成工具)的理念,后者已整合到 GitHub Copilot 中,但 GPT-5-Codex 更注重自主性和长时任务执行。
  • 设计理念:不同于通用 GPT-5,GPT-5-Codex 强调“动态思考”(adaptive reasoning),即根据任务复杂度自动调整思考时间——简单任务响应更快(简单任务令牌使用减少 93%),复杂任务则分配更多资源(复杂任务令牌使用增加 102%)。这使得它适合从快速聊天式交互到独立运行数小时的场景。
  • 生态整合:它与 OpenAI 的 Codex 生态深度融合,包括 CLI(命令行工具)、IDE 扩展(如 VS Code)、Web 云代理和 GitHub Code Review。Codex 支持无缝切换本地和云端环境,例如在 VS Code 中启动任务后切换到 Web 版继续执行。
  • 系统提示泄露:从社区泄露的系统提示显示,模型内置 Git 工作流指令(如提交变更而不创建新分支、运行预提交检查)、.codex 文件支持(用于项目特定指令,如编码规范)和引用机制(使用文件路径和终端输出进行引用)。它还支持互联网访问、Playwright 脚本运行(用于前端截图)和容器化环境管理。

关键特性

  • 自主执行能力:可独立运行超过 7 小时(测试中达 35 分钟),处理大型重构、调试和测试迭代。内置代码审查代理,能实际运行代码以捕获 bug。
  • 多模态支持:在 Codex Web 中生成 UI 截图(使用浏览器容器工具),适用于前端工程。
  • 效率优化:支持会话恢复(CLI 中使用 codex resume),并减少简单任务的令牌消耗。
  • 工具集成:内置容器工具(如新会话、字符输入、PR 创建)和浏览器工具(Playwright 脚本运行、图像工件打开)。
  • 限制与指南:环境非交互式(无需用户许可运行命令),优先使用 ripgrep 而非慢速命令如 ls -R。最终响应需使用 Markdown 结构化,包括总结、测试结果(带 ✅/⚠️/❌ 图标)和引用。

性能指标

使用 SWE-bench Verified 基准(软件工程基准,覆盖 500 个任务)评估:

模型变体SWE-bench Verified 分数简单任务令牌节省复杂任务令牌增加上下文窗口

GPT-5 (High)72.8%--400K

GPT-5-Codex74.5%93%102%400K

GPT-5-Codex-Mini71.3%类似 Codex类似 Codex400K

  • 优势:在重构、调试和添加测试上优于 GPT-5,尤其在代理式任务中。社区测试显示,它在生产代码库中表现强劲,但需精确提示以避免“懒惰”行为(如拒绝大型任务)。
  • 比较:优于 Claude Sonnet 4.5 在规则遵循和文件修改控制上,但有时在边缘案例中产生幻觉(如导入错误)。与 Anthropic 的 Claude 相比,更适合严格 Git 工作流。

社区反馈与争议

  • 正面:开发者称赞其在 API 重构和 bug 捕获上的速度(20% 更快),并视其为 Claude Code 的合法替代。Rust 构建的 CLI 效率高,支持图像生成等扩展。
  • 负面:有时过度谨慎或懒惰,需要提示优化;边缘案例中偶有幻觉。部分用户担心访问控制(如 Simon Willison 通过 CLI 逆向工程实现图像生成)。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码