Name: OpenAI GPT-5.2
Price: 0.875 USD
Availability: InStock
Author: OpenAI

GPT-5.2

Benchmark Results

GPT-5.2 currently shows benchmark results led by AIME2025 (1 / 106, score 100), MMMU (1 / 28, score 85.90), GPQA Diamond (7 / 169, score 93.20). This page also consolidates core specs, context limits, and API pricing so you can evaluate the model from benchmark results and deployment constraints together.

综合评估

6 evaluations

Benchmark / mode

Score

Rank/total

GPQA Diamond

Extra-High

92.40

10 / 169

ARC-AGI

Extra-High

86.20

10 / 56

MMLU

Extra-High

89.60

11 / 65

ARC-AGI-2

Extra-High

52.90

13 / 49

HLE

Extra-High

34.50

48 / 136

HLE

Extra-HighToolsInternet

45.50

24 / 136

编程与软件工程

3 evaluations

Benchmark / mode

Score

Rank/total

SWE-bench Verified

Extra-HighTools

11 / 97

IC SWE-Lancer(Diamond)

Extra-HighTools

74.60

2 / 8

SWE-Bench Pro - Public

Extra-HighTools

55.60

12 / 30

数学推理

3 evaluations

Benchmark / mode

Score

Rank/total

AIME2025

Extra-High

100

1 / 106

FrontierMath

Extra-HighTools

40.30

6 / 56

FrontierMath - Tier 4

Extra-HighTools

14.60

8 / 37

多模态理解

2 evaluations

Benchmark / mode

Score

Rank/total

MMMU

Extra-High

85.90

1 / 28

MMMU

Extra-HighTools

80.40

12 / 28

Agent能力评测

2 evaluations

Benchmark / mode

Score

Rank/total

τ²-Bench - Telecom

Extra-HighTools

98.70

4 / 35

τ²-Bench

Extra-HighTools

12 / 40

AI Agent - 信息收集

2 evaluations

Benchmark / mode

Score

Rank/total

BrowseComp

Extra-HighTools

65.80

18 / 38

BrowseComp

Extra-HighToolsInternet

65.80

18 / 38

生产力知识

1 evaluations

Benchmark / mode

Score

Rank/total

GDPval-AA

Extra-HighTools

6 / 17

View benchmark analysis Compare with other models

OpenAI GPT-5.2

Model Overview

OpenAI 于 2025 年 12 月发布 GPT-5.2，并同步在 ChatGPT 与 API 中上线该模型系列。GPT-5.2 属于 GPT-5 系列的最新迭代版本，延续了 Instant / Thinking / Pro 的多形态设计，并在上下文规模、推理配置与多项基准评测中给出了新的官方数据。

一、模型形态与接口命名

GPT-5.2 在 ChatGPT 与 API 中采用统一但区分形态的命名方式。

在 API 层面，GPT-5.2 提供以下主要模型标识：

gpt-5.2-chat-latest
gpt-5.2
gpt-5.2-pro

其中，gpt-5.2 与 gpt-5.2-pro 支持显式配置推理强度（reasoning effort），并包含比前一代更高的推理档位。OpenAI 未公开该推理档位对应的具体计算步数或内部参数。

截至发布时，OpenAI 未披露 GPT-5.2 的模型参数量、网络层数、宽度、MoE 结构或训练 token 数规模。

二、上下文窗口、输出上限与知识截止

根据 OpenAI API 官方规格页面，GPT-5.2 的核心输入输出限制如下：

GPT-5.2 支持 400,000 tokens 的上下文窗口，最大单次输出为 128,000 tokens。

模型的知识截止时间为 2025 年 8 月 31 日。

该规格适用于 gpt-5.2 与 gpt-5.2-pro。Instant / chat 版本在 ChatGPT 中使用相同的上下文上限，但具体输出长度受产品侧限制。

三、价格信息（与 GPT-5.1 对比）

在标准计费档位下，GPT-5.2 的 API 定价如下：

输入：$1.75 / 1M tokens
输出：$14.00 / 1M tokens
Cached input：约 $0.175 / 1M tokens

作为对比，GPT-5.1 的标准档位输入与输出单价均低于 GPT-5.2。GPT-5.2 是 GPT-5 系列中首次在官方价格表中体现出明确的代际单价变化。

GPT-5.2 同时提供 Flex 与 Priority 等计费档位，价格与吞吐、延迟配置相关，OpenAI 未在发布说明中给出统一数值。

四、专业知识工作评测（GDPval）

OpenAI 在发布材料中公布了 GPT-5.2 在其内部 **GDPval（General Domain Professional Validation）**评测上的结果。

该评测覆盖 44 类职业知识工作任务，包括分析、建模、跨文档推理与多约束决策。

在该评测中：

GPT-5.2 Thinking：70.9%（wins or ties）

这是 OpenAI 首次在该评测中给出“wins or ties”形式的汇总指标。

五、软件工程相关评测

在软件工程领域，OpenAI 公布了 GPT-5.2 在 SWE-Bench 系列评测中的结果：

SWE-Bench Pro：55.6%（GPT-5.2 Thinking）
SWE-Bench Verified：80.0%（GPT-5.2 Thinking）

SWE-Bench Pro 与 Verified 均要求模型在真实代码仓库中完成修改，并通过完整测试套件。

六、长上下文与多检索推理（MRCRv2）

在长上下文推理评测 MRCRv2 中，OpenAI 给出了 GPT-5.2 Thinking 的多段结果。

在 8-needle 设置下，不同上下文长度区间的官方数据包括：

128K–256K tokens 区间：77.0%（GPT-5.2 Thinking）
同一区间下，GPT-5.1 Thinking 为 29.6%

OpenAI 同时披露，在 4-needle、最高 256K tokens 的设置中，GPT-5.2 Thinking 的得分接近满分。

七、数学与科学类评测

在数学与科学推理评测中，OpenAI 公布了多项 GPT-5.2 的成绩：

在 AIME 2025（不使用工具）评测中：

GPT-5.2 Thinking：100%
GPT-5.2 Pro：100%

在 GPQA Diamond（博士级科学问答，不使用工具）中：

GPT-5.2 Thinking：92.4%
GPT-5.2 Pro：93.2%

在 FrontierMath Tier 1–3（允许 Python 工具）中：

GPT-5.2 Thinking：40.3%
GPT-5.1 Thinking：31.0%

八、抽象与通用推理评测（ARC-AGI-2）

在 ARC-AGI-2 Verified 评测中，OpenAI 公布的数据为：

GPT-5.2 Thinking：52.9%
GPT-5.2 Pro：54.2%
GPT-5.1 Thinking（high）：17.6%

该评测强调跨规则迁移与抽象推理能力。

九、工具与多步任务评测

在工具使用与多步规划相关评测中，OpenAI 公布了以下 GPT-5.2 Thinking 成绩：

Tau2-bench（Telecom）：98.7%
BrowseComp：65.8%
Scale MCP-Atlas：60.6%
Toolathlon：46.3%

对应的 GPT-5.1 Thinking 在上述评测中的得分均低于 GPT-5.2。

十、补充说明

截至发布时：

OpenAI 未公布 GPT-5.2 的训练数据规模、参数量或模型结构细节
未给出 GPT-5.2 与 GPT-5.1 在相同推理强度下的完整逐项消融对比
所有评测数据均来自 OpenAI 官方发布或其公开基准页面同步信息

GPT-5.2

Model basics

Open source & experience

Official resources

API details

Benchmark Results

综合评估

编程与软件工程

数学推理

多模态理解

Agent能力评测

AI Agent - 信息收集

生产力知识

Publisher

Model Overview

一、模型形态与接口命名

二、上下文窗口、输出上限与知识截止

三、价格信息（与 GPT-5.1 对比）

四、专业知识工作评测（GDPval）

五、软件工程相关评测

六、长上下文与多检索推理（MRCRv2）

七、数学与科学类评测

八、抽象与通用推理评测（ARC-AGI-2）

九、工具与多步任务评测

十、补充说明

DataLearner 官方微信