OpenAI GPT-5.2
OpenAI GPT-5.2 是由 OpenAI 发布的 AI 模型,发布时间为 2025-12-11,定位为 聊天大模型,上下文长度为 400K,采用 不开源 许可,在 AIME2025 上取得 100.00 分。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
模型基本信息
开源和体验地址
官方介绍与博客
API接口信息
| 类型 | 适用条件 | 输入 | 输出 |
|---|---|---|---|
| 文本 | - | $1.75/ 1M | $14.00/ 1M |
| 类型 | 适用条件 | 输入 | 输出 |
|---|---|---|---|
| 文本 | - | $0.875/ 1M | $7.00/ 1M |
| 类型 | 有效期 | 写入 | 读取 |
|---|---|---|---|
| 文本 | 5m | $1.75/ 1M | $0.175/ 1M |
评测结果
GPT-5.2 当前已收录的代表性评测结果包括 AIME2025(1 / 106,得分 100)、MMMU(1 / 28,得分 85.90)、GPQA Diamond(8 / 178,得分 93.20)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。
综合评估
共 15 项评测编程与软件工程
共 3 项评测数学推理
共 7 项评测和其他模型对比
发布机构
模型解读
OpenAI 于 2025 年 12 月发布 GPT-5.2,并同步在 ChatGPT 与 API 中上线该模型系列。GPT-5.2 属于 GPT-5 系列的最新迭代版本,延续了 Instant / Thinking / Pro 的多形态设计,并在上下文规模、推理配置与多项基准评测中给出了新的官方数据。
一、模型形态与接口命名
GPT-5.2 在 ChatGPT 与 API 中采用统一但区分形态的命名方式。
在 API 层面,GPT-5.2 提供以下主要模型标识:
- gpt-5.2-chat-latest
- gpt-5.2
- gpt-5.2-pro
其中,gpt-5.2 与 gpt-5.2-pro 支持显式配置推理强度(reasoning effort),并包含比前一代更高的推理档位。OpenAI 未公开该推理档位对应的具体计算步数或内部参数。
截至发布时,OpenAI 未披露 GPT-5.2 的模型参数量、网络层数、宽度、MoE 结构或训练 token 数规模。
二、上下文窗口、输出上限与知识截止
根据 OpenAI API 官方规格页面,GPT-5.2 的核心输入输出限制如下:
GPT-5.2 支持 400,000 tokens 的上下文窗口,最大单次输出为 128,000 tokens。
模型的知识截止时间为 2025 年 8 月 31 日。
该规格适用于 gpt-5.2 与 gpt-5.2-pro。Instant / chat 版本在 ChatGPT 中使用相同的上下文上限,但具体输出长度受产品侧限制。
三、价格信息(与 GPT-5.1 对比)
在标准计费档位下,GPT-5.2 的 API 定价如下:
- 输入:$1.75 / 1M tokens
- 输出:$14.00 / 1M tokens
- Cached input:约 $0.175 / 1M tokens
作为对比,GPT-5.1 的标准档位输入与输出单价均低于 GPT-5.2。GPT-5.2 是 GPT-5 系列中首次在官方价格表中体现出明确的代际单价变化。
GPT-5.2 同时提供 Flex 与 Priority 等计费档位,价格与吞吐、延迟配置相关,OpenAI 未在发布说明中给出统一数值。
四、专业知识工作评测(GDPval)
OpenAI 在发布材料中公布了 GPT-5.2 在其内部 **GDPval(General Domain Professional Validation)**评测上的结果。
该评测覆盖 44 类职业知识工作任务,包括分析、建模、跨文档推理与多约束决策。
在该评测中:
- GPT-5.2 Thinking:70.9%(wins or ties)
这是 OpenAI 首次在该评测中给出“wins or ties”形式的汇总指标。
五、软件工程相关评测
在软件工程领域,OpenAI 公布了 GPT-5.2 在 SWE-Bench 系列评测中的结果:
- SWE-Bench Pro:55.6%(GPT-5.2 Thinking)
- SWE-Bench Verified:80.0%(GPT-5.2 Thinking)
SWE-Bench Pro 与 Verified 均要求模型在真实代码仓库中完成修改,并通过完整测试套件。
六、长上下文与多检索推理(MRCRv2)
在长上下文推理评测 MRCRv2 中,OpenAI 给出了 GPT-5.2 Thinking 的多段结果。
在 8-needle 设置下,不同上下文长度区间的官方数据包括:
- 128K–256K tokens 区间:77.0%(GPT-5.2 Thinking)
- 同一区间下,GPT-5.1 Thinking 为 29.6%
OpenAI 同时披露,在 4-needle、最高 256K tokens 的设置中,GPT-5.2 Thinking 的得分接近满分。
七、数学与科学类评测
在数学与科学推理评测中,OpenAI 公布了多项 GPT-5.2 的成绩:
在 AIME 2025(不使用工具)评测中:
- GPT-5.2 Thinking:100%
- GPT-5.2 Pro:100%
在 GPQA Diamond(博士级科学问答,不使用工具)中:
- GPT-5.2 Thinking:92.4%
- GPT-5.2 Pro:93.2%
在 FrontierMath Tier 1–3(允许 Python 工具)中:
- GPT-5.2 Thinking:40.3%
- GPT-5.1 Thinking:31.0%
八、抽象与通用推理评测(ARC-AGI-2)
在 ARC-AGI-2 Verified 评测中,OpenAI 公布的数据为:
- GPT-5.2 Thinking:52.9%
- GPT-5.2 Pro:54.2%
- GPT-5.1 Thinking(high):17.6%
该评测强调跨规则迁移与抽象推理能力。
九、工具与多步任务评测
在工具使用与多步规划相关评测中,OpenAI 公布了以下 GPT-5.2 Thinking 成绩:
- Tau2-bench(Telecom):98.7%
- BrowseComp:65.8%
- Scale MCP-Atlas:60.6%
- Toolathlon:46.3%
对应的 GPT-5.1 Thinking 在上述评测中的得分均低于 GPT-5.2。
十、补充说明
截至发布时:
- OpenAI 未公布 GPT-5.2 的训练数据规模、参数量或模型结构细节
- 未给出 GPT-5.2 与 GPT-5.1 在相同推理强度下的完整逐项消融对比
- 所有评测数据均来自 OpenAI 官方发布或其公开基准页面同步信息
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
