DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
工具
语言中文

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表GPT-5.3 Codex
GP

GPT-5.3 Codex

GPT-5.3 Codex

发布时间: 2026-02-05更新于: 2026-03-08 21:06:201,282
在线体验GitHubHugging FaceCompare
模型参数
未披露
上下文长度
400K
中文支持
支持
推理能力

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

GPT-5.3 Codex

模型基本信息

推理过程
支持
思考模式
思考水平 · 中 (Medium) (默认)思考水平 · 低 (Low)思考水平 · 高 (High)思考水平 · 极高 (Extra-High)
上下文长度
400K tokens
最大输出长度
128000 tokens
模型类型
编程大模型
发布时间
2026-02-05
模型文件大小
暂无数据
MoE架构
否
总参数 / 激活参数
0.0 亿 / 不涉及
知识截止
暂无数据
GPT-5.3 Codex

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源- 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
https://chatgpt.com
GPT-5.3 Codex

官方介绍与博客

官方论文
Introducing GPT-5.3-Codex
DataLearnerAI博客
暂无介绍博客
GPT-5.3 Codex

API接口信息

接口速度
4/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
模态输入输出
文本$1.75$14
缓存计费Cache
模态输入 Cache输出 Cache
文本$0.175--
GPT-5.3 Codex

评测结果

GPT-5.3 Codex 当前已收录的代表性评测结果包括 Terminal Bench 2.0(1 / 27,得分 77.30)、SWE-Bench Pro - Public(2 / 19,得分 56.80)、IC SWE-Lancer(Diamond)(1 / 8,得分 81.40)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。

思考模式
全部思考
思考模式细分 (2)
全部默认 (中)极高
工具使用
全部使用工具不使用工具

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数
Terminal Bench 2.0
极高工具
77.30
1 / 27
查看评测深度分析与其他模型对比
GPT-5.3 Codex

发布机构

OpenAI
OpenAI
查看发布机构详情
GPT-5.3 Codex

模型解读

2026年2月5日,OpenAI发布了GPT-5.3-Codex,这是其最新的代理式编程模型。该模型不仅在多项行业基准测试中取得领先成绩,更值得关注的是,它成为OpenAI首个在自身开发过程中发挥实质性作用的模型。

核心技术参数

GPT-5.3-Codex整合了GPT-5.2-Codex的前沿编程能力与GPT-5.2的推理和专业知识能力,并实现了25%的速度提升。模型具备以下技术特性:

  • 上下文窗口: 400,000 tokens
  • 输出限制: 128,000 tokens
  • 推理模式: 支持xhigh reasoning effort配置
  • 硬件基础: 在NVIDIA GB200 NVL72系统上训练和部署

基准测试表现

SWE-Bench Pro (Public)

  • GPT-5.3-Codex: 56.8%
  • GPT-5.2-Codex: 56.4%
  • GPT-5.2: 55.6%

SWE-Bench Pro是针对真实软件工程场景的严格评估,覆盖四种编程语言,具有更强的抗污染性和行业相关性。GPT-5.3-Codex在实现最高准确率的同时,使用的token数量少于所有前代模型。

Terminal-Bench 2.0

  • GPT-5.3-Codex: 77.3%
  • GPT-5.2-Codex: 64.0%
  • GPT-5.2: 62.2%
  • Claude Opus 4.6: 65.4%

该基准测试衡量编程代理所需的终端技能。GPT-5.3-Codex在这一指标上取得了13个百分点的单代跨越,显著领先于同期发布的竞品。

OSWorld-Verified

  • GPT-5.3-Codex: 64.7%
  • GPT-5.2-Codex: 38.2%
  • GPT-5.2: 37.9%
  • 人类基准: ~72%

OSWorld评估代理在视觉桌面环境中完成生产力任务的能力。GPT-5.3-Codex的表现几乎是前代模型的两倍,接近人类水平。

GDPval

  • 70.9% 胜率或平局

GDPval是OpenAI于2025年发布的评估体系,衡量模型在44种职业中执行明确知识工作任务的能力,包括制作演示文稿、电子表格等工作产品。

网络安全CTF挑战

  • 77.6% 准确率

这是OpenAI首个被归类为网络安全领域"高能力"的模型,也是首个直接训练用于识别软件漏洞的模型。

自我迭代开发

GPT-5.3-Codex的一个突破性特征是它在自身创建过程中发挥的作用:

研究团队应用场景:

  • 监控和调试训练运行
  • 跟踪训练过程中的模式
  • 分析交互质量并提出修复方案

工程团队应用场景:

  • 优化模型的harness配置
  • 识别上下文渲染bug
  • 定位低缓存命中率的根本原因
  • 动态扩展GPU集群以应对流量高峰

数据团队应用场景:

  • 创建新的数据管道和可视化工具
  • 在三分钟内对数千个数据点进行关键洞察总结

CEO Sam Altman在发布后表示:"看到我们通过使用5.3-Codex本身来加速5.3-Codex的发布速度,这真是令人惊叹,这无疑是未来趋势的标志。"

实际应用能力

除了基准测试,OpenAI通过让GPT-5.3-Codex自主构建复杂游戏来验证其长周期开发能力:

  1. 赛车游戏: 包含不同角色、8张地图和道具系统
  2. 潜水游戏: 具有多个珊瑚礁、鱼类收集机制,以及氧气和压力等资源管理系统

这些演示涉及数百万tokens的迭代,证明模型能够在跨越多天的项目中维持上下文并持续推进。

在日常网站开发方面,当收到简单或不完整的提示时,GPT-5.3-Codex现在能够默认生成更具功能性的设计。例如,在创建落地页时,它会自动:

  • 将年度计划显示为折扣后的月度价格
  • 创建包含三段不同用户评价的自动轮播
  • 提供更完整、更接近生产就绪的默认布局

扩展的工作范围

GPT-5.3-Codex的定位已从纯编程代理扩展为能够执行开发者和专业人员在计算机上几乎所有工作的通用代理,包括:

  • 编写产品需求文档(PRD)
  • 文案编辑
  • 用户研究
  • 构建演示文稿
  • 电子表格数据分析
  • 部署和监控
  • 调试和评估

交互方式改进

GPT-5.3-Codex在工作过程中提供更频繁的进度更新,用户可以:

  • 实时提问
  • 讨论方法论
  • 在不丢失上下文的情况下引导解决方案
  • 追踪关键决策并提前干预

这种设计使其更像一个可以持续互动的同事,而非等待最终输出的工具。

网络安全考量

鉴于GPT-5.3-Codex被归类为网络安全领域的"高能力"模型,OpenAI部署了最全面的安全防护措施:

  • 双重用途安全训练
  • 自动化监控系统
  • 高级功能的可信访问控制
  • 整合威胁情报的执行管道

配套安全举措包括:

  • Trusted Access for Cyber: 专注于防御性研究的试点项目
  • Aardvark扩展私测: OpenAI的安全研究代理
  • 免费漏洞扫描: 面向主要开源项目
  • 1000万美元API额度: 通过网络安全资助计划支持诚信安全研究

OpenAI表示,虽然没有确凿证据表明该模型能够端到端自动化网络攻击,但出于预防考虑,采取了这些措施。

可用性与定价

当前可用渠道:

  • ChatGPT Plus、Pro、Business和Enterprise订阅用户
  • Codex应用(macOS)
  • 命令行界面(CLI)
  • IDE扩展
  • Web界面
  • Free和Go用户也获得了限时访问权限

API访问: 计划推出,具体时间待定

性能优化: 付费计划的速率限制翻倍,以鼓励密集测试

基础设施和推理栈的改进使所有Codex用户都能获得25%的速度提升,这一提升来自于技术优化而非用户端配置。

竞争格局

GPT-5.3-Codex的发布时间与Anthropic发布Claude Opus 4.6完全同步,行业观察者将这一现象称为"AI编程战争"的开端。两家公司还计划在超级碗期间播放竞争性广告,显示出市场竞争的激烈程度。

根据Every.to的独立测试,Opus 4.6在原始基准分数、首次尝试可靠性和构建成功一致性方面具有优势,但GPT-5.3-Codex在任务完成速度上更快,且具有更友好和富有创造力的交互风格。

总结

GPT-5.3-Codex代表了从专用编程助手向通用专业代理的转变。其56.8%的SWE-Bench Pro准确率、77.3%的Terminal-Bench 2.0得分,以及在自身开发过程中发挥的作用,标志着AI模型自我改进能力的新阶段。

对于开发团队而言,400K上下文窗口、128K输出限制,以及在长周期任务中维持一致性的能力,使其成为处理复杂软件工程工作流的可行工具。网络安全领域的"高能力"分类虽然带来了额外的部署限制,但也反映了模型在漏洞识别方面的实际能力。

该模型现已通过ChatGPT付费计划向用户开放,API访问即将推出。随着竞争对手同步发布类似产品,AI辅助编程市场正进入一个新的发展阶段。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码