加载中...

GPT-5.2

Name: OpenAI GPT-5.2
Author: OpenAI

OpenAI GPT-5.2

发布时间: 2025-12-11更新于: 2026-03-12 13:07:271,283

在线体验GitHubHugging FaceCompare

模型参数

未披露

上下文长度

400K

中文支持

支持

推理能力

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

GPT-5.2

模型基本信息

推理过程

支持

思考模式

思考水平 · 极高 (Extra-High) (默认)思考水平 · 低 (Low)思考水平 · 中 (Medium)思考水平 · 高 (High)

上下文长度

400K tokens

最大输出长度

暂无数据

模型类型

聊天大模型

发布时间

2025-12-11

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

0.0 亿 / 不涉及

知识截止

暂无数据

GPT-5.2

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源- 不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://openai.com/

GPT-5.2

官方介绍与博客

官方论文

Introducing GPT-5.2

DataLearnerAI博客

暂无介绍博客

GPT-5.2

API接口信息

接口速度

3/5

💡默认单位：$/100万 tokens。若计费单位不同，则以供应商公开的原始标注为准。

了解不同定价模式详解

标准模式

类型	适用条件	输入	输出
文本	-	$1.75/ 1M	$14.00/ 1M

批量模式

类型	适用条件	输入	输出
文本	-	$0.875/ 1M	$7.00/ 1M

缓存定价Prompt缓存

类型	有效期	写入	读取
文本	5m	$1.75/ 1M	$0.175/ 1M

GPT-5.2

评测结果

综合评估

共 6 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

思考水平 · 极高

92.40

7 / 158

ARC-AGI

思考水平 · 极高

86.20

8 / 48

MMLU

思考水平 · 极高

89.60

9 / 61

ARC-AGI-2

思考水平 · 极高

52.90

12 / 41

HLE

思考水平 · 极高

34.50

34 / 111

HLE

思考水平 · 极高使用工具可联网

45.50

14 / 111

编程与软件工程

共 3 项评测

评测名称 / 模式

得分

排名/总数

SWE-bench Verified

思考水平 · 极高使用工具

8 / 90

IC SWE-Lancer(Diamond)

思考水平 · 极高使用工具

74.60

2 / 8

SWE-Bench Pro - Public

思考水平 · 极高使用工具

55.60

3 / 16

数学推理

共 3 项评测

评测名称 / 模式

得分

排名/总数

AIME2025

思考水平 · 极高

100

1 / 106

FrontierMath

思考水平 · 极高使用工具

40.30

4 / 55

FrontierMath - Tier 4

思考水平 · 极高使用工具

14.60

6 / 34

多模态理解

共 2 项评测

评测名称 / 模式

得分

排名/总数

MMMU

思考水平 · 极高

85.90

1 / 25

MMMU

思考水平 · 极高使用工具

80.40

12 / 25

Agent能力评测

共 2 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

思考水平 · 极高使用工具

98.70

4 / 31

τ²-Bench

思考水平 · 极高使用工具

13 / 39

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

思考水平 · 极高使用工具可联网

65.80

15 / 33

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

GDPval-AA

思考水平 · 极高使用工具

5 / 14

查看评测深度分析与其他模型对比

GPT-5.2

发布机构

OpenAI

查看发布机构详情

OpenAI GPT-5.2

模型解读

OpenAI 于 2025 年 12 月发布 GPT-5.2，并同步在 ChatGPT 与 API 中上线该模型系列。GPT-5.2 属于 GPT-5 系列的最新迭代版本，延续了 Instant / Thinking / Pro 的多形态设计，并在上下文规模、推理配置与多项基准评测中给出了新的官方数据。

一、模型形态与接口命名

GPT-5.2 在 ChatGPT 与 API 中采用统一但区分形态的命名方式。

在 API 层面，GPT-5.2 提供以下主要模型标识：

gpt-5.2-chat-latest
gpt-5.2
gpt-5.2-pro

其中，gpt-5.2 与 gpt-5.2-pro 支持显式配置推理强度（reasoning effort），并包含比前一代更高的推理档位。OpenAI 未公开该推理档位对应的具体计算步数或内部参数。

截至发布时，OpenAI 未披露 GPT-5.2 的模型参数量、网络层数、宽度、MoE 结构或训练 token 数规模。

二、上下文窗口、输出上限与知识截止

根据 OpenAI API 官方规格页面，GPT-5.2 的核心输入输出限制如下：

GPT-5.2 支持 400,000 tokens 的上下文窗口，最大单次输出为 128,000 tokens。

模型的知识截止时间为 2025 年 8 月 31 日。

该规格适用于 gpt-5.2 与 gpt-5.2-pro。Instant / chat 版本在 ChatGPT 中使用相同的上下文上限，但具体输出长度受产品侧限制。

三、价格信息（与 GPT-5.1 对比）

在标准计费档位下，GPT-5.2 的 API 定价如下：

输入：$1.75 / 1M tokens
输出：$14.00 / 1M tokens
Cached input：约 $0.175 / 1M tokens

作为对比，GPT-5.1 的标准档位输入与输出单价均低于 GPT-5.2。GPT-5.2 是 GPT-5 系列中首次在官方价格表中体现出明确的代际单价变化。

GPT-5.2 同时提供 Flex 与 Priority 等计费档位，价格与吞吐、延迟配置相关，OpenAI 未在发布说明中给出统一数值。

四、专业知识工作评测（GDPval）

OpenAI 在发布材料中公布了 GPT-5.2 在其内部 **GDPval（General Domain Professional Validation）**评测上的结果。

该评测覆盖 44 类职业知识工作任务，包括分析、建模、跨文档推理与多约束决策。

在该评测中：

GPT-5.2 Thinking：70.9%（wins or ties）

这是 OpenAI 首次在该评测中给出“wins or ties”形式的汇总指标。

五、软件工程相关评测

在软件工程领域，OpenAI 公布了 GPT-5.2 在 SWE-Bench 系列评测中的结果：

SWE-Bench Pro：55.6%（GPT-5.2 Thinking）
SWE-Bench Verified：80.0%（GPT-5.2 Thinking）

SWE-Bench Pro 与 Verified 均要求模型在真实代码仓库中完成修改，并通过完整测试套件。

六、长上下文与多检索推理（MRCRv2）

在长上下文推理评测 MRCRv2 中，OpenAI 给出了 GPT-5.2 Thinking 的多段结果。

在 8-needle 设置下，不同上下文长度区间的官方数据包括：

128K–256K tokens 区间：77.0%（GPT-5.2 Thinking）
同一区间下，GPT-5.1 Thinking 为 29.6%

OpenAI 同时披露，在 4-needle、最高 256K tokens 的设置中，GPT-5.2 Thinking 的得分接近满分。

七、数学与科学类评测

在数学与科学推理评测中，OpenAI 公布了多项 GPT-5.2 的成绩：

在 AIME 2025（不使用工具）评测中：

GPT-5.2 Thinking：100%
GPT-5.2 Pro：100%

在 GPQA Diamond（博士级科学问答，不使用工具）中：

GPT-5.2 Thinking：92.4%
GPT-5.2 Pro：93.2%

在 FrontierMath Tier 1–3（允许 Python 工具）中：

GPT-5.2 Thinking：40.3%
GPT-5.1 Thinking：31.0%

八、抽象与通用推理评测（ARC-AGI-2）

在 ARC-AGI-2 Verified 评测中，OpenAI 公布的数据为：

GPT-5.2 Thinking：52.9%
GPT-5.2 Pro：54.2%
GPT-5.1 Thinking（high）：17.6%

该评测强调跨规则迁移与抽象推理能力。

九、工具与多步任务评测

在工具使用与多步规划相关评测中，OpenAI 公布了以下 GPT-5.2 Thinking 成绩：

Tau2-bench（Telecom）：98.7%
BrowseComp：65.8%
Scale MCP-Atlas：60.6%
Toolathlon：46.3%

对应的 GPT-5.1 Thinking 在上述评测中的得分均低于 GPT-5.2。

十、补充说明

截至发布时：

OpenAI 未公布 GPT-5.2 的训练数据规模、参数量或模型结构细节
未给出 GPT-5.2 与 GPT-5.1 在相同推理强度下的完整逐项消融对比
所有评测数据均来自 OpenAI 官方发布或其公开基准页面同步信息

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

加载中...

GPT-5.2

OpenAI GPT-5.2

发布时间: 2025-12-11更新于: 2026-03-12 13:07:271,283

在线体验GitHubHugging FaceCompare

模型参数

未披露

上下文长度

400K

中文支持

支持

推理能力

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

GPT-5.2

模型基本信息

推理过程

支持

思考模式

思考水平 · 极高 (Extra-High) (默认)思考水平 · 低 (Low)思考水平 · 中 (Medium)思考水平 · 高 (High)

上下文长度

400K tokens

最大输出长度

暂无数据

模型类型

聊天大模型

发布时间

2025-12-11

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

0.0 亿 / 不涉及

知识截止

暂无数据

GPT-5.2

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源- 不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://openai.com/

GPT-5.2

官方介绍与博客

官方论文

Introducing GPT-5.2

DataLearnerAI博客

暂无介绍博客

GPT-5.2

API接口信息

接口速度

3/5

💡默认单位：$/100万 tokens。若计费单位不同，则以供应商公开的原始标注为准。

了解不同定价模式详解

标准模式

类型	适用条件	输入	输出
文本	-	$1.75/ 1M	$14.00/ 1M

批量模式

类型	适用条件	输入	输出
文本	-	$0.875/ 1M	$7.00/ 1M

缓存定价Prompt缓存

类型	有效期	写入	读取
文本	5m	$1.75/ 1M	$0.175/ 1M

GPT-5.2

评测结果

综合评估

共 6 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

思考水平 · 极高

92.40

7 / 158

ARC-AGI

思考水平 · 极高

86.20

8 / 48

MMLU

思考水平 · 极高

89.60

9 / 61

ARC-AGI-2

思考水平 · 极高

52.90

12 / 41

HLE

思考水平 · 极高

34.50

34 / 111

HLE

思考水平 · 极高使用工具可联网

45.50

14 / 111

编程与软件工程

共 3 项评测

评测名称 / 模式

得分

排名/总数

SWE-bench Verified

思考水平 · 极高使用工具

8 / 90

IC SWE-Lancer(Diamond)

思考水平 · 极高使用工具

74.60

2 / 8

SWE-Bench Pro - Public

思考水平 · 极高使用工具

55.60

3 / 16

数学推理

共 3 项评测

评测名称 / 模式

得分

排名/总数

AIME2025

思考水平 · 极高

100

1 / 106

FrontierMath

思考水平 · 极高使用工具

40.30

4 / 55

FrontierMath - Tier 4

思考水平 · 极高使用工具

14.60

6 / 34

多模态理解

共 2 项评测

评测名称 / 模式

得分

排名/总数

MMMU

思考水平 · 极高

85.90

1 / 25

MMMU

思考水平 · 极高使用工具

80.40

12 / 25

Agent能力评测

共 2 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

思考水平 · 极高使用工具

98.70

4 / 31

τ²-Bench

思考水平 · 极高使用工具

13 / 39

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

思考水平 · 极高使用工具可联网

65.80

15 / 33

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

GDPval-AA

思考水平 · 极高使用工具

5 / 14

查看评测深度分析与其他模型对比

GPT-5.2

发布机构

OpenAI

查看发布机构详情

OpenAI GPT-5.2

模型解读

一、模型形态与接口命名

GPT-5.2 在 ChatGPT 与 API 中采用统一但区分形态的命名方式。

在 API 层面，GPT-5.2 提供以下主要模型标识：

gpt-5.2-chat-latest
gpt-5.2
gpt-5.2-pro

截至发布时，OpenAI 未披露 GPT-5.2 的模型参数量、网络层数、宽度、MoE 结构或训练 token 数规模。

二、上下文窗口、输出上限与知识截止

根据 OpenAI API 官方规格页面，GPT-5.2 的核心输入输出限制如下：

GPT-5.2 支持 400,000 tokens 的上下文窗口，最大单次输出为 128,000 tokens。

模型的知识截止时间为 2025 年 8 月 31 日。

该规格适用于 gpt-5.2 与 gpt-5.2-pro。Instant / chat 版本在 ChatGPT 中使用相同的上下文上限，但具体输出长度受产品侧限制。

三、价格信息（与 GPT-5.1 对比）

在标准计费档位下，GPT-5.2 的 API 定价如下：

输入：$1.75 / 1M tokens
输出：$14.00 / 1M tokens
Cached input：约 $0.175 / 1M tokens

作为对比，GPT-5.1 的标准档位输入与输出单价均低于 GPT-5.2。GPT-5.2 是 GPT-5 系列中首次在官方价格表中体现出明确的代际单价变化。

GPT-5.2 同时提供 Flex 与 Priority 等计费档位，价格与吞吐、延迟配置相关，OpenAI 未在发布说明中给出统一数值。

四、专业知识工作评测（GDPval）

OpenAI 在发布材料中公布了 GPT-5.2 在其内部 **GDPval（General Domain Professional Validation）**评测上的结果。

该评测覆盖 44 类职业知识工作任务，包括分析、建模、跨文档推理与多约束决策。

在该评测中：

GPT-5.2 Thinking：70.9%（wins or ties）

这是 OpenAI 首次在该评测中给出“wins or ties”形式的汇总指标。

五、软件工程相关评测

在软件工程领域，OpenAI 公布了 GPT-5.2 在 SWE-Bench 系列评测中的结果：

SWE-Bench Pro：55.6%（GPT-5.2 Thinking）
SWE-Bench Verified：80.0%（GPT-5.2 Thinking）

SWE-Bench Pro 与 Verified 均要求模型在真实代码仓库中完成修改，并通过完整测试套件。

六、长上下文与多检索推理（MRCRv2）

在长上下文推理评测 MRCRv2 中，OpenAI 给出了 GPT-5.2 Thinking 的多段结果。

在 8-needle 设置下，不同上下文长度区间的官方数据包括：

128K–256K tokens 区间：77.0%（GPT-5.2 Thinking）
同一区间下，GPT-5.1 Thinking 为 29.6%

OpenAI 同时披露，在 4-needle、最高 256K tokens 的设置中，GPT-5.2 Thinking 的得分接近满分。

七、数学与科学类评测

在数学与科学推理评测中，OpenAI 公布了多项 GPT-5.2 的成绩：

在 AIME 2025（不使用工具）评测中：

GPT-5.2 Thinking：100%
GPT-5.2 Pro：100%

在 GPQA Diamond（博士级科学问答，不使用工具）中：

GPT-5.2 Thinking：92.4%
GPT-5.2 Pro：93.2%

在 FrontierMath Tier 1–3（允许 Python 工具）中：

GPT-5.2 Thinking：40.3%
GPT-5.1 Thinking：31.0%

八、抽象与通用推理评测（ARC-AGI-2）

在 ARC-AGI-2 Verified 评测中，OpenAI 公布的数据为：

GPT-5.2 Thinking：52.9%
GPT-5.2 Pro：54.2%
GPT-5.1 Thinking（high）：17.6%

该评测强调跨规则迁移与抽象推理能力。

九、工具与多步任务评测

在工具使用与多步规划相关评测中，OpenAI 公布了以下 GPT-5.2 Thinking 成绩：

Tau2-bench（Telecom）：98.7%
BrowseComp：65.8%
Scale MCP-Atlas：60.6%
Toolathlon：46.3%

对应的 GPT-5.1 Thinking 在上述评测中的得分均低于 GPT-5.2。

十、补充说明

截至发布时：

OpenAI 未公布 GPT-5.2 的训练数据规模、参数量或模型结构细节
未给出 GPT-5.2 与 GPT-5.1 在相同推理强度下的完整逐项消融对比
所有评测数据均来自 OpenAI 官方发布或其公开基准页面同步信息

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送