GPT-5 Codex

编程大模型

GPT-5 Codex

发布时间: 2025-09-15

GitHub Hugging Face 在线体验

模型参数（Parameters）

未披露

最高上下文长度（Context Length）

400K

是否支持中文

支持

推理能力（Reasoning）

模型基本信息

是否支持推理过程

支持

最高上下文输入长度

400K tokens

最长输出结果

128000 tokens

模型类型

编程大模型

发布时间

2025-09-15

模型预文件大小

暂无数据

推理模式

常规模式（Non-Thinking Mode）思考模式（Thinking Mode）

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源 - 不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://chatgpt.com/codex

官方介绍与博客

官方论文

Introducing upgrades to Codex

DataLearnerAI博客

暂无介绍博客

API接口信息

接口速度（满分5分）

接口价格

默认单位：$/100万 tokens；若计费单位不同，则以供应商公开的原始标注为准。

标准计费 Standard

模态	输入	输出
文本	1.25 美元/100 万tokens	10 美元/100 万tokens
图片	1.25 美元/100 万tokens	--

缓存计费 Cache

模态	输入 Cache	输出 Cache
文本	0.125 美元/100 万tokens	--
图片	0.125 美元/100 万tokens	--

GPT-5 Codex模型在各大评测榜单的评分

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

SWE-bench Verified high

74.50

9 / 66

综合评估

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

LiveBench thinking

78.24

6 / 48

发布机构

OpenAI

查看发布机构详情

GPT-5 Codex模型解读

OpenAI 的 GPT-5-Codex 是 GPT-5 系列的一个专用变体，专为代理式编码（agentic coding）任务优化设计。它不是一个通用的聊天模型，而是针对软件工程工作流（如代码生成、重构、调试和测试）进行了微调，旨在帮助开发者更快地委托复杂任务。该模型于 2025 年 9 月 15 日正式发布，作为 OpenAI Codex 工具系列的核心组件。Codex 本身是 OpenAI 的一系列 AI 编码工具，支持云端和本地代理，帮助开发者处理从简单代码片段到大型项目重构的任务。

背景与上下文

发展历史：GPT-5 于 2025 年 8 月 7 日发布，作为 OpenAI 的新一代通用模型，在编码、数学和写作等领域表现出色。GPT-5-Codex 是其后续优化版本，基于 GPT-5 基础模型，但进一步针对编码代理进行了训练。它继承了早期 Codex 模型（基于 GPT-3 的代码生成工具）的理念，后者已整合到 GitHub Copilot 中，但 GPT-5-Codex 更注重自主性和长时任务执行。
设计理念：不同于通用 GPT-5，GPT-5-Codex 强调“动态思考”（adaptive reasoning），即根据任务复杂度自动调整思考时间——简单任务响应更快（简单任务令牌使用减少 93%），复杂任务则分配更多资源（复杂任务令牌使用增加 102%）。这使得它适合从快速聊天式交互到独立运行数小时的场景。
生态整合：它与 OpenAI 的 Codex 生态深度融合，包括 CLI（命令行工具）、IDE 扩展（如 VS Code）、Web 云代理和 GitHub Code Review。Codex 支持无缝切换本地和云端环境，例如在 VS Code 中启动任务后切换到 Web 版继续执行。
系统提示泄露：从社区泄露的系统提示显示，模型内置 Git 工作流指令（如提交变更而不创建新分支、运行预提交检查）、.codex 文件支持（用于项目特定指令，如编码规范）和引用机制（使用文件路径和终端输出进行引用）。它还支持互联网访问、Playwright 脚本运行（用于前端截图）和容器化环境管理。

关键特性

自主执行能力：可独立运行超过 7 小时（测试中达 35 分钟），处理大型重构、调试和测试迭代。内置代码审查代理，能实际运行代码以捕获 bug。
多模态支持：在 Codex Web 中生成 UI 截图（使用浏览器容器工具），适用于前端工程。
效率优化：支持会话恢复（CLI 中使用 codex resume），并减少简单任务的令牌消耗。
工具集成：内置容器工具（如新会话、字符输入、PR 创建）和浏览器工具（Playwright 脚本运行、图像工件打开）。
限制与指南：环境非交互式（无需用户许可运行命令），优先使用 ripgrep 而非慢速命令如 ls -R。最终响应需使用 Markdown 结构化，包括总结、测试结果（带 ✅/⚠️/❌ 图标）和引用。

性能指标

使用 SWE-bench Verified 基准（软件工程基准，覆盖 500 个任务）评估：

模型变体SWE-bench Verified 分数简单任务令牌节省复杂任务令牌增加上下文窗口

GPT-5 (High)72.8%--400K

GPT-5-Codex74.5%93%102%400K

GPT-5-Codex-Mini71.3%类似 Codex类似 Codex400K

优势：在重构、调试和添加测试上优于 GPT-5，尤其在代理式任务中。社区测试显示，它在生产代码库中表现强劲，但需精确提示以避免“懒惰”行为（如拒绝大型任务）。
比较：优于 Claude Sonnet 4.5 在规则遵循和文件修改控制上，但有时在边缘案例中产生幻觉（如导入错误）。与 Anthropic 的 Claude 相比，更适合严格 Git 工作流。

社区反馈与争议

正面：开发者称赞其在 API 重构和 bug 捕获上的速度（20% 更快），并视其为 Claude Code 的合法替代。Rust 构建的 CLI 效率高，支持图像生成等扩展。
负面：有时过度谨慎或懒惰，需要提示优化；边缘案例中偶有幻觉。部分用户担心访问控制（如 Simon Willison 通过 CLI 逆向工程实现图像生成）。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号，接受最新大模型资讯