DataLearner 标志DataLearnerAI
AI技术博客
大模型评测排行
大模型评测基准
AI大模型大全
AI资源仓库
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表GPT-5.2
GP

GPT-5.2

OpenAI GPT-5.2

发布时间: 2025-12-11更新于: 2025-12-12 11:20:23783
在线体验GitHubHugging Face
模型参数
未披露
上下文长度
400K
中文支持
支持
推理能力

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

模型基本信息

推理过程
支持
上下文长度
400K tokens
最大输出长度
暂无数据
模型类型
聊天大模型
发布时间
2025-12-11
模型文件大小
暂无数据
MoE架构
否
总参数 / 激活参数
0.0 亿 / 不涉及
知识截止
暂无数据
推理模式
常规模式(Non-Thinking Mode)思考模式(Thinking Mode)

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源- 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
https://openai.com/

官方介绍与博客

官方论文
Introducing GPT-5.2
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
3/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
模态输入输出
文本$1.75$14
缓存计费Cache
模态输入 Cache输出 Cache
文本$0.175--

评测得分

综合评估

共 6 项评测
评测名称 / 模式
得分
排名/总数
GPQA Diamondthinking
92.40
3 / 144
ARC-AGIthinking
86.20
3 / 36
LiveBenchthinking + 使用工具
73.67
11 / 52
ARC-AGI-2thinking
52.90
2 / 27
HLEthinking + 使用工具
45.50
5 / 88
HLEthinking
34.50
19 / 88

编程与软件工程

共 1 项评测
评测名称 / 模式
得分
排名/总数
SWE-bench Verifiedthinking
80
4 / 77

数学推理

共 6 项评测
评测名称 / 模式
得分
排名/总数
AIME2025thinking
100
1 / 102
FrontierMathhigh
40.30
1 / 52
FrontierMathmedium
36.90
3 / 52
FrontierMath - Tier 4high
18.80
2 / 32
FrontierMath - Tier 4xHigh
18.80
2 / 32
FrontierMath - Tier 4medium
16.70
5 / 32

Agent能力评测

共 1 项评测
评测名称 / 模式
得分
排名/总数
τ²-Bench - Telecomthinking + 使用工具
98.70
1 / 21

发布机构

OpenAI
OpenAI
查看发布机构详情

模型解读

OpenAI 于 2025 年 12 月发布 GPT-5.2,并同步在 ChatGPT 与 API 中上线该模型系列。GPT-5.2 属于 GPT-5 系列的最新迭代版本,延续了 Instant / Thinking / Pro 的多形态设计,并在上下文规模、推理配置与多项基准评测中给出了新的官方数据。


一、模型形态与接口命名

GPT-5.2 在 ChatGPT 与 API 中采用统一但区分形态的命名方式。

在 API 层面,GPT-5.2 提供以下主要模型标识:

  • gpt-5.2-chat-latest
  • gpt-5.2
  • gpt-5.2-pro

其中,gpt-5.2 与 gpt-5.2-pro 支持显式配置推理强度(reasoning effort),并包含比前一代更高的推理档位。OpenAI 未公开该推理档位对应的具体计算步数或内部参数。

截至发布时,OpenAI 未披露 GPT-5.2 的模型参数量、网络层数、宽度、MoE 结构或训练 token 数规模。


二、上下文窗口、输出上限与知识截止

根据 OpenAI API 官方规格页面,GPT-5.2 的核心输入输出限制如下:

GPT-5.2 支持 400,000 tokens 的上下文窗口,最大单次输出为 128,000 tokens。

模型的知识截止时间为 2025 年 8 月 31 日。

该规格适用于 gpt-5.2 与 gpt-5.2-pro。Instant / chat 版本在 ChatGPT 中使用相同的上下文上限,但具体输出长度受产品侧限制。


三、价格信息(与 GPT-5.1 对比)

在标准计费档位下,GPT-5.2 的 API 定价如下:

  • 输入:$1.75 / 1M tokens
  • 输出:$14.00 / 1M tokens
  • Cached input:约 $0.175 / 1M tokens

作为对比,GPT-5.1 的标准档位输入与输出单价均低于 GPT-5.2。GPT-5.2 是 GPT-5 系列中首次在官方价格表中体现出明确的代际单价变化。

GPT-5.2 同时提供 Flex 与 Priority 等计费档位,价格与吞吐、延迟配置相关,OpenAI 未在发布说明中给出统一数值。


四、专业知识工作评测(GDPval)

OpenAI 在发布材料中公布了 GPT-5.2 在其内部 **GDPval(General Domain Professional Validation)**评测上的结果。

该评测覆盖 44 类职业知识工作任务,包括分析、建模、跨文档推理与多约束决策。

在该评测中:

  • GPT-5.2 Thinking:70.9%(wins or ties)

这是 OpenAI 首次在该评测中给出“wins or ties”形式的汇总指标。


五、软件工程相关评测

在软件工程领域,OpenAI 公布了 GPT-5.2 在 SWE-Bench 系列评测中的结果:

  • SWE-Bench Pro:55.6%(GPT-5.2 Thinking)
  • SWE-Bench Verified:80.0%(GPT-5.2 Thinking)

SWE-Bench Pro 与 Verified 均要求模型在真实代码仓库中完成修改,并通过完整测试套件。


六、长上下文与多检索推理(MRCRv2)

在长上下文推理评测 MRCRv2 中,OpenAI 给出了 GPT-5.2 Thinking 的多段结果。

在 8-needle 设置下,不同上下文长度区间的官方数据包括:

  • 128K–256K tokens 区间:77.0%(GPT-5.2 Thinking)
  • 同一区间下,GPT-5.1 Thinking 为 29.6%

OpenAI 同时披露,在 4-needle、最高 256K tokens 的设置中,GPT-5.2 Thinking 的得分接近满分。


七、数学与科学类评测

在数学与科学推理评测中,OpenAI 公布了多项 GPT-5.2 的成绩:

在 AIME 2025(不使用工具)评测中:

  • GPT-5.2 Thinking:100%
  • GPT-5.2 Pro:100%

在 GPQA Diamond(博士级科学问答,不使用工具)中:

  • GPT-5.2 Thinking:92.4%
  • GPT-5.2 Pro:93.2%

在 FrontierMath Tier 1–3(允许 Python 工具)中:

  • GPT-5.2 Thinking:40.3%
  • GPT-5.1 Thinking:31.0%

八、抽象与通用推理评测(ARC-AGI-2)

在 ARC-AGI-2 Verified 评测中,OpenAI 公布的数据为:

  • GPT-5.2 Thinking:52.9%
  • GPT-5.2 Pro:54.2%
  • GPT-5.1 Thinking(high):17.6%

该评测强调跨规则迁移与抽象推理能力。


九、工具与多步任务评测

在工具使用与多步规划相关评测中,OpenAI 公布了以下 GPT-5.2 Thinking 成绩:

  • Tau2-bench(Telecom):98.7%
  • BrowseComp:65.8%
  • Scale MCP-Atlas:60.6%
  • Toolathlon:46.3%

对应的 GPT-5.1 Thinking 在上述评测中的得分均低于 GPT-5.2。


十、补充说明

截至发布时:

  • OpenAI 未公布 GPT-5.2 的训练数据规模、参数量或模型结构细节
  • 未给出 GPT-5.2 与 GPT-5.1 在相同推理强度下的完整逐项消融对比
  • 所有评测数据均来自 OpenAI 官方发布或其公开基准页面同步信息

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码