GPT-5.2 评测详情
GPT-5.2 当前已收录的代表性评测结果包括 AIME2025(1 / 106,得分 100)、MMMU(1 / 28,得分 85.90)、GPQA Diamond(7 / 175,得分 93.20)。本页还提供与 2 个竞品模型及 2 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。并附有 2 个数据来源链接供参考。
评测结果
GPT-5.2
评测结果
综合评估
共 6 项评测评测名称 / 模式
得分
排名/总数
编程与软件工程
共 3 项评测评测名称 / 模式
得分
排名/总数
数学推理
共 3 项评测评测名称 / 模式
得分
排名/总数
竞品对比
GPT-5.2 与同类主流模型的评测得分对比
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。
评测得分对比
12 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。
| 评测项 | GPT-5.2当前 | Gemini 3.0 Pro (Preview 11-2025) | Opus 4.5 |
|---|---|---|---|
ARC-AGI 综合评估 | 90.50深度思考模式 | 87.50开启思考 | 80.00扩展思考 |
ARC-AGI-2 综合评估 | 54.20深度思考模式 | 45.10开启思考 | 37.60扩展思考 |
GPQA Diamond 综合评估 | 93.20深度思考模式 | 93.80开启思考 | 87.00扩展思考 |
HLE 综合评估 | 45.50深度思考模式 | 工具 | 45.80思考水平·高 | 工具 | 43.20扩展思考 | 工具 |
SWE-bench Verified 编程与软件工程 | 80.00思考水平·极高 | 工具 | 76.20开启思考 | 80.90扩展思考 | 工具 |
AIME2025 数学推理 | 100.00思考水平·极高 | 95.00开启思考 | -- |
FrontierMath 数学推理 | 40.30思考水平·极高 | 工具 | 38.00开启思考 | 20.70扩展思考 |
14.60思考水平·极高 | 工具 | 18.80开启思考 | 4.20常规模式 | |
MMMU 多模态理解 | 85.90思考水平·极高 | -- | 80.70扩展思考 |
τ²-Bench Agent能力评测 | 82.00思考水平·极高 | 工具 | 85.40开启思考 | 工具 | 81.99扩展思考 | 工具 |
τ²-Bench - Telecom Agent能力评测 | 98.70思考水平·极高 | 工具 | 98.00思考水平·高 | 工具 | 90.70扩展思考 | 工具 |
BrowseComp AI Agent - 信息收集 | 65.80思考水平·极高 | 工具 | 59.20思考水平·高 | 工具 | -- |
其余 1 个 benchmark 仍可在上方图表中查看。
GPT-5.2 与同类模型的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens
若存在上下文阈值,图中标准价仅适用于以下范围:
Gemini 3.0 Pro (Preview 11-2025): 标准价适用于 <= 200K
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
GPT-5.2 | Facebook AI研究实验室 | $1.75 / 1M tokens | $14 / 1M tokens | — |
Gemini 3.0 Pro (Preview 11-2025) | — | 2 美元/100万 tokens | 12 美元/100万 tokens | <= 200K |
Opus 4.5 | Facebook AI研究实验室 | $5 / 1M tokens | $25 / 1M tokens | — |
历代版本对比
GPT-5.2 系列各版本的评测成绩纵向对比
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。
评测得分对比
12 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。· 点击任意行可切换下方趋势图。
| 评测项 | GPT-5.2当前 | GPT-5.1 | GPT-5 |
|---|---|---|---|
ARC-AGI 综合评估 | 90.50深度思考模式 | 72.80思考水平·高 | 65.70思考水平·高 |
ARC-AGI-2 综合评估 | 54.20深度思考模式 | 17.60思考水平·高 | 9.90思考水平·高 |
GPQA Diamond 综合评估 | 93.20深度思考模式 | 88.10开启思考 | 87.30开启思考 | 工具 |
HLE 综合评估 | 45.50深度思考模式 | 工具 | 42.70思考水平·高 | 工具 | 35.20开启思考 | 工具 |
IC SWE-Lancer(Diamond) 编程与软件工程 | 74.60思考水平·极高 | 工具 | 69.70思考水平·高 | -- |
SWE-Bench Pro - Public 编程与软件工程 | 55.60思考水平·极高 | 工具 | 50.80思考水平·高 | 36.30思考水平·高 |
SWE-bench Verified 编程与软件工程 | 80.00思考水平·极高 | 工具 | 76.30思考水平·高 | 72.80思考水平·高 |
AIME2025 数学推理 | 100.00思考水平·极高 | 94.00思考水平·高 | 99.60开启思考 | 工具 |
FrontierMath 数学推理 | 40.30思考水平·极高 | 工具 | 26.70思考水平·高 | 工具 | 26.30思考水平·高 | 工具 |
14.60思考水平·极高 | 工具 | 12.50思考水平·高 | 12.50思考水平·高 | |
MMMU 多模态理解 | 85.90思考水平·极高 | 85.40思考水平·高 | 84.20思考水平·高 |
τ²-Bench Agent能力评测 | 82.00思考水平·极高 | 工具 | -- | 80.00开启思考 | 工具 |
其余 2 个 benchmark 仍可在上方图表中查看。
单评测历史趋势图
当前查看:ARC-AGI · 综合评估
选择评测
GPT-5.2 所在系列的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
GPT-5.2 | Facebook AI研究实验室 | $1.75 / 1M tokens | $14 / 1M tokens | — |
GPT-5.1 | — | 1.25 美元/100万 tokens | 10 美元/100万 tokens | — |
GPT-5 | — | 1.25 美元/100 万tokens | 10 美元/100 万tokens | — |