GP

GPT-5 Codex

编程大模型

GPT-5 Codex

发布时间: 2025-09-15

52
模型参数(Parameters)
未披露
最高上下文长度(Context Length)
400K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

支持

最高上下文输入长度

400K tokens

最长输出结果

128000 tokens

模型类型

编程大模型

发布时间

2025-09-15

模型预文件大小
暂无数据
推理模式
常规模式(Non-Thinking Mode) 思考模式(Thinking Mode)

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源 - 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
接口价格

默认单位:$/100万 tokens;若计费单位不同,则以供应商公开的原始标注为准。

标准计费 Standard
模态 输入 输出
文本 1.25 美元/100 万tokens 10 美元/100 万tokens
图片 1.25 美元/100 万tokens --
缓存计费 Cache
模态 输入 Cache 输出 Cache
文本 0.125 美元/100 万tokens --
图片 0.125 美元/100 万tokens --

GPT-5 Codex模型在各大评测榜单的评分

编程与软件工程

共 1 项评测
74.50
9 / 66

综合评估

共 1 项评测
LiveBench thinking
78.24
6 / 48

发布机构

GPT-5 Codex模型解读

OpenAI 的 GPT-5-Codex 是 GPT-5 系列的一个专用变体,专为代理式编码(agentic coding)任务优化设计。它不是一个通用的聊天模型,而是针对软件工程工作流(如代码生成、重构、调试和测试)进行了微调,旨在帮助开发者更快地委托复杂任务。该模型于 2025 年 9 月 15 日正式发布,作为 OpenAI Codex 工具系列的核心组件。Codex 本身是 OpenAI 的一系列 AI 编码工具,支持云端和本地代理,帮助开发者处理从简单代码片段到大型项目重构的任务。

背景与上下文

  • 发展历史:GPT-5 于 2025 年 8 月 7 日发布,作为 OpenAI 的新一代通用模型,在编码、数学和写作等领域表现出色。GPT-5-Codex 是其后续优化版本,基于 GPT-5 基础模型,但进一步针对编码代理进行了训练。它继承了早期 Codex 模型(基于 GPT-3 的代码生成工具)的理念,后者已整合到 GitHub Copilot 中,但 GPT-5-Codex 更注重自主性和长时任务执行。
  • 设计理念:不同于通用 GPT-5,GPT-5-Codex 强调“动态思考”(adaptive reasoning),即根据任务复杂度自动调整思考时间——简单任务响应更快(简单任务令牌使用减少 93%),复杂任务则分配更多资源(复杂任务令牌使用增加 102%)。这使得它适合从快速聊天式交互到独立运行数小时的场景。
  • 生态整合:它与 OpenAI 的 Codex 生态深度融合,包括 CLI(命令行工具)、IDE 扩展(如 VS Code)、Web 云代理和 GitHub Code Review。Codex 支持无缝切换本地和云端环境,例如在 VS Code 中启动任务后切换到 Web 版继续执行。
  • 系统提示泄露:从社区泄露的系统提示显示,模型内置 Git 工作流指令(如提交变更而不创建新分支、运行预提交检查)、.codex 文件支持(用于项目特定指令,如编码规范)和引用机制(使用文件路径和终端输出进行引用)。它还支持互联网访问、Playwright 脚本运行(用于前端截图)和容器化环境管理。

关键特性

  • 自主执行能力:可独立运行超过 7 小时(测试中达 35 分钟),处理大型重构、调试和测试迭代。内置代码审查代理,能实际运行代码以捕获 bug。
  • 多模态支持:在 Codex Web 中生成 UI 截图(使用浏览器容器工具),适用于前端工程。
  • 效率优化:支持会话恢复(CLI 中使用 codex resume),并减少简单任务的令牌消耗。
  • 工具集成:内置容器工具(如新会话、字符输入、PR 创建)和浏览器工具(Playwright 脚本运行、图像工件打开)。
  • 限制与指南:环境非交互式(无需用户许可运行命令),优先使用 ripgrep 而非慢速命令如 ls -R。最终响应需使用 Markdown 结构化,包括总结、测试结果(带 ✅/⚠️/❌ 图标)和引用。

性能指标

使用 SWE-bench Verified 基准(软件工程基准,覆盖 500 个任务)评估:

模型变体SWE-bench Verified 分数简单任务令牌节省复杂任务令牌增加上下文窗口

GPT-5 (High)72.8%--400K

GPT-5-Codex74.5%93%102%400K

GPT-5-Codex-Mini71.3%类似 Codex类似 Codex400K

  • 优势:在重构、调试和添加测试上优于 GPT-5,尤其在代理式任务中。社区测试显示,它在生产代码库中表现强劲,但需精确提示以避免“懒惰”行为(如拒绝大型任务)。
  • 比较:优于 Claude Sonnet 4.5 在规则遵循和文件修改控制上,但有时在边缘案例中产生幻觉(如导入错误)。与 Anthropic 的 Claude 相比,更适合严格 Git 工作流。

社区反馈与争议

  • 正面:开发者称赞其在 API 重构和 bug 捕获上的速度(20% 更快),并视其为 Claude Code 的合法替代。Rust 构建的 CLI 效率高,支持图像生成等扩展。
  • 负面:有时过度谨慎或懒惰,需要提示优化;边缘案例中偶有幻觉。部分用户担心访问控制(如 Simon Willison 通过 CLI 逆向工程实现图像生成)。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat