GP

GPT-5.3 Codex

编程大模型CodexGPT-5.3

GPT-5.3 Codex

发布时间: 2026-02-05更新于: 2026-06-14 23:13:17.8652,303

在线体验GitHubHugging FaceCompare

模型参数

未披露

上下文长度

400K

中文支持

支持

推理能力

GPT-5.3 Codex 是由 OpenAI 发布的 AI 模型，发布时间为 2026-02-05，定位为编程大模型，上下文长度为 400K，采用不开源许可，在 IC SWE-Lancer(Diamond) 上取得 81.40 分。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

GPT-5.3 Codex

模型基本信息

推理过程

支持

思考模式

思考水平 · 中 (Medium) (默认)思考水平 · 低 (Low)思考水平 · 高 (High)思考水平 · 极高 (Extra-High)

上下文长度

400K tokens

最大输出长度

125K tokens

模型类型

编程大模型

输入/输出模态

文本、图像 → 文本

发布时间

2026-02-05

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

暂无数据 / 不涉及

知识截止

暂无数据

GPT-5.3 Codex

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://chatgpt.com

GPT-5.3 Codex

官方介绍与博客

官方论文

Introducing GPT-5.3-Codex

DataLearnerAI博客

暂无介绍博客

GPT-5.3 Codex

API接口信息

接口速度

4/5

暂无公开的 API 定价信息。

GPT-5.3 Codex

评测结果

GPT-5.3 Codex 当前已收录的代表性评测结果包括 Terminal Bench 2.0（3 / 46，得分 77.30）、IC SWE-Lancer(Diamond)（1 / 8，得分 81.40）、LiveBench（25 / 115，得分 72.76）。本页还汇总了参数规模、上下文长度与 API 价格，便于结合评测结果与部署约束一起判断模型适配度。

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

IC SWE-Lancer(Diamond)

81.40

1 / 8

SWE-Bench Pro - Public

56.80

13 / 44

综合评估

共 2 项评测

评测名称 / 模式

得分

排名/总数

高

72.76

25 / 115

深度

71.64

32 / 115

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

77.30

3 / 46

查看评测深度分析与其他模型对比

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

GPT-5.3 Codex

发布机构

OpenAI

查看发布机构详情

GPT-5.3 Codex

模型解读

2026年2月5日,OpenAI发布了GPT-5.3-Codex,这是其最新的代理式编程模型。该模型不仅在多项行业基准测试中取得领先成绩,更值得关注的是,它成为OpenAI首个在自身开发过程中发挥实质性作用的模型。

核心技术参数

GPT-5.3-Codex整合了GPT-5.2-Codex的前沿编程能力与GPT-5.2的推理和专业知识能力,并实现了25%的速度提升。模型具备以下技术特性:

上下文窗口: 400,000 tokens
输出限制: 128,000 tokens
推理模式: 支持xhigh reasoning effort配置
硬件基础: 在NVIDIA GB200 NVL72系统上训练和部署

基准测试表现

SWE-Bench Pro (Public)

GPT-5.3-Codex: 56.8%
GPT-5.2-Codex: 56.4%
GPT-5.2: 55.6%

SWE-Bench Pro是针对真实软件工程场景的严格评估,覆盖四种编程语言,具有更强的抗污染性和行业相关性。GPT-5.3-Codex在实现最高准确率的同时,使用的token数量少于所有前代模型。

Terminal-Bench 2.0

GPT-5.3-Codex: 77.3%
GPT-5.2-Codex: 64.0%
GPT-5.2: 62.2%
Claude Opus 4.6: 65.4%

该基准测试衡量编程代理所需的终端技能。GPT-5.3-Codex在这一指标上取得了13个百分点的单代跨越,显著领先于同期发布的竞品。

OSWorld-Verified

GPT-5.3-Codex: 64.7%
GPT-5.2-Codex: 38.2%
GPT-5.2: 37.9%
人类基准: ~72%

OSWorld评估代理在视觉桌面环境中完成生产力任务的能力。GPT-5.3-Codex的表现几乎是前代模型的两倍,接近人类水平。

GDPval

70.9% 胜率或平局

GDPval是OpenAI于2025年发布的评估体系,衡量模型在44种职业中执行明确知识工作任务的能力,包括制作演示文稿、电子表格等工作产品。

网络安全CTF挑战

77.6% 准确率

这是OpenAI首个被归类为网络安全领域"高能力"的模型,也是首个直接训练用于识别软件漏洞的模型。

自我迭代开发

GPT-5.3-Codex的一个突破性特征是它在自身创建过程中发挥的作用:

研究团队应用场景:

监控和调试训练运行
跟踪训练过程中的模式
分析交互质量并提出修复方案

工程团队应用场景:

优化模型的harness配置
识别上下文渲染bug
定位低缓存命中率的根本原因
动态扩展GPU集群以应对流量高峰

数据团队应用场景:

创建新的数据管道和可视化工具
在三分钟内对数千个数据点进行关键洞察总结

CEO Sam Altman在发布后表示:"看到我们通过使用5.3-Codex本身来加速5.3-Codex的发布速度,这真是令人惊叹,这无疑是未来趋势的标志。"

实际应用能力

除了基准测试,OpenAI通过让GPT-5.3-Codex自主构建复杂游戏来验证其长周期开发能力:

赛车游戏: 包含不同角色、8张地图和道具系统
潜水游戏: 具有多个珊瑚礁、鱼类收集机制,以及氧气和压力等资源管理系统

这些演示涉及数百万tokens的迭代,证明模型能够在跨越多天的项目中维持上下文并持续推进。

在日常网站开发方面,当收到简单或不完整的提示时,GPT-5.3-Codex现在能够默认生成更具功能性的设计。例如,在创建落地页时,它会自动:

将年度计划显示为折扣后的月度价格
创建包含三段不同用户评价的自动轮播
提供更完整、更接近生产就绪的默认布局

扩展的工作范围

GPT-5.3-Codex的定位已从纯编程代理扩展为能够执行开发者和专业人员在计算机上几乎所有工作的通用代理,包括:

编写产品需求文档(PRD)
文案编辑
用户研究
构建演示文稿
电子表格数据分析
部署和监控
调试和评估

交互方式改进

GPT-5.3-Codex在工作过程中提供更频繁的进度更新,用户可以:

实时提问
讨论方法论
在不丢失上下文的情况下引导解决方案
追踪关键决策并提前干预

这种设计使其更像一个可以持续互动的同事,而非等待最终输出的工具。

网络安全考量

鉴于GPT-5.3-Codex被归类为网络安全领域的"高能力"模型,OpenAI部署了最全面的安全防护措施:

双重用途安全训练
自动化监控系统
高级功能的可信访问控制
整合威胁情报的执行管道

配套安全举措包括:

Trusted Access for Cyber: 专注于防御性研究的试点项目
Aardvark扩展私测: OpenAI的安全研究代理
免费漏洞扫描: 面向主要开源项目
1000万美元API额度: 通过网络安全资助计划支持诚信安全研究

OpenAI表示,虽然没有确凿证据表明该模型能够端到端自动化网络攻击,但出于预防考虑,采取了这些措施。

可用性与定价

当前可用渠道:

ChatGPT Plus、Pro、Business和Enterprise订阅用户
Codex应用(macOS)
命令行界面(CLI)
IDE扩展
Web界面
Free和Go用户也获得了限时访问权限

API访问: 计划推出,具体时间待定

性能优化: 付费计划的速率限制翻倍,以鼓励密集测试

基础设施和推理栈的改进使所有Codex用户都能获得25%的速度提升,这一提升来自于技术优化而非用户端配置。

竞争格局

GPT-5.3-Codex的发布时间与Anthropic发布Claude Opus 4.6完全同步,行业观察者将这一现象称为"AI编程战争"的开端。两家公司还计划在超级碗期间播放竞争性广告,显示出市场竞争的激烈程度。

根据Every.to的独立测试,Opus 4.6在原始基准分数、首次尝试可靠性和构建成功一致性方面具有优势,但GPT-5.3-Codex在任务完成速度上更快,且具有更友好和富有创造力的交互风格。

总结

GPT-5.3-Codex代表了从专用编程助手向通用专业代理的转变。其56.8%的SWE-Bench Pro准确率、77.3%的Terminal-Bench 2.0得分,以及在自身开发过程中发挥的作用,标志着AI模型自我改进能力的新阶段。

对于开发团队而言,400K上下文窗口、128K输出限制,以及在长周期任务中维持一致性的能力,使其成为处理复杂软件工程工作流的可行工具。网络安全领域的"高能力"分类虽然带来了额外的部署限制,但也反映了模型在漏洞识别方面的实际能力。

该模型现已通过ChatGPT付费计划向用户开放,API访问即将推出。随着竞争对手同步发布类似产品,AI辅助编程市场正进入一个新的发展阶段。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码