GPT-5.2 评测详情

GPT-5.2 当前已收录的代表性评测结果包括 AIME2025（1 / 107，得分 100）、MMMU（1 / 29，得分 85.90）、GPQA Diamond（9 / 187，得分 93.20）。本页还提供与 2 个竞品模型及 2 个前代或同系列模型的对比，在有数据时会展示性能和价格视图。并附有 2 个数据来源链接供参考。

评测结果

GPT-5.2

评测结果

综合评估

共 19 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

极高

92.40

12 / 187

GPQA Diamond

深度思考模式

93.20

9 / 187

ARC-AGI

低

55.70

43 / 67

ARC-AGI

中

72.70

28 / 67

ARC-AGI

高

78.70

24 / 67

ARC-AGI

极高

86.20

20 / 67

ARC-AGI

深度思考模式

90.50

16 / 67

MMLU

极高

89.60

11 / 66

LiveBench

常规模式

48.91

94 / 115

LiveBench

低

65.33

53 / 115

LiveBench

中

71.84

31 / 115

LiveBench

高

74.84

19 / 115

ARC-AGI-2

低

9.70

40 / 61

ARC-AGI-2

中

26.70

33 / 61

ARC-AGI-2

高

43.30

26 / 61

ARC-AGI-2

极高

52.90

24 / 61

ARC-AGI-2

深度思考模式

54.20

22 / 61

HLE

极高

34.50

75 / 170

HLE

极高工具联网

45.50

39 / 170

编程与软件工程

共 3 项评测

评测名称 / 模式

得分

排名/总数

SWE-bench Verified

极高工具

16 / 111

IC SWE-Lancer(Diamond)

极高工具

74.60

2 / 8

SWE-Bench Pro - Public

极高工具

55.60

24 / 53

数学推理

共 7 项评测

评测名称 / 模式

得分

排名/总数

AIME2025

极高

100

1 / 107

FrontierMath

极高工具

40.30

8 / 60

FrontierMath - Tier 4

低

6.30

35 / 80

FrontierMath - Tier 4

中

16.70

20 / 80

FrontierMath - Tier 4

高

18.80

16 / 80

FrontierMath - Tier 4

极高

18.80

16 / 80

FrontierMath - Tier 4

极高工具

14.60

23 / 80

多模态理解

共 2 项评测

评测名称 / 模式

得分

排名/总数

MMMU

极高

85.90

1 / 29

MMMU

极高工具

80.40

13 / 29

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

Simple Bench

高

45.80

33 / 63

Agent能力评测

共 2 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

极高工具

98.70

4 / 35

τ²-Bench

极高工具

12 / 43

AI Agent - 信息收集

共 2 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

极高工具联网

65.80

30 / 52

BrowseComp

极高工具

65.80

30 / 52

生产力知识

共 2 项评测

评测名称 / 模式

得分

排名/总数

GDPval-AA

高工具

70.90

9 / 21

GDPval-AA

极高工具

10 / 21

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

MCP-Atlas

极高工具

67.60

18 / 27

与其他模型对比

竞品对比

GPT-5.2 与同类主流模型的评测得分对比

GPT-5.2Gemini 3.0 Pro (Preview 11-2025)Opus 4.5

评测类别:

柱状图按当前筛选范围内每个模型在各评测中的最高分展示；百分制评测使用原始高度，超出 0-100 的评测按该评测内相对比例缩放，标签仍保留原始分数。

12 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。

评测项	GPT-5.2当前	Gemini 3.0 Pro (Preview 11-2025)	Opus 4.5
ARC-AGI 综合评估	90.50深度思考模式	87.50开启思考	--
ARC-AGI-2 综合评估	54.20深度思考模式	45.10开启思考	--
GPQA Diamond 综合评估	93.20深度思考模式	93.80开启思考	--
HLE 综合评估	45.50深度思考模式｜工具	45.80思考水平·高｜工具	43.20扩展思考｜工具
LiveBench 综合评估	48.91常规模式	73.39思考水平·高	75.9664K
SWE-bench Verified 编程与软件工程	80.00思考水平·极高｜工具	76.20开启思考	80.90扩展思考｜工具
FrontierMath 数学推理	40.30思考水平·极高｜工具	38.00开启思考	--
FrontierMath - Tier 4 数学推理	18.80思考水平·极高	18.80开启思考	4.20常规模式
τ²-Bench Agent能力评测	82.00思考水平·极高｜工具	85.40开启思考｜工具	81.99扩展思考｜工具
τ²-Bench - Telecom Agent能力评测	98.70思考水平·极高｜工具	98.00思考水平·高｜工具	90.70扩展思考｜工具
BrowseComp AI Agent - 信息收集	65.80思考水平·极高｜工具	59.20思考水平·高｜工具	--
GDPval-AA 生产力知识	70.90思考水平·高｜工具	35.00思考水平·高	--

GPT-5.2 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

若存在上下文阈值，图中标准价仅适用于以下范围：

Gemini 3.0 Pro (Preview 11-2025): 标准价适用于 <= 200000

模型	供应商	标准输入	标准输出	标准价适用于
GPT-5.2	Facebook AI研究实验室	$1.75 / 1M tokens	$14 / 1M tokens	—
Gemini 3.0 Pro (Preview 11-2025)	Google Deep Mind	$2 / 1M tokens	$12 / 1M tokens	<= 200000
Opus 4.5	Facebook AI研究实验室	$5 / 1M tokens	$25 / 1M tokens	—

历代版本对比

GPT-5.2 系列各版本的评测成绩纵向对比

GPT-5.2GPT-5.1 GPT-5

评测类别:

12 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项	GPT-5.2当前	GPT-5.1	GPT-5
ARC-AGI 综合评估	90.50深度思考模式	72.80思考水平·高	65.70思考水平·高
ARC-AGI-2 综合评估	54.20深度思考模式	17.60思考水平·高	9.90思考水平·高
GPQA Diamond 综合评估	93.20深度思考模式	88.10开启思考	87.30开启思考｜工具
HLE 综合评估	45.50深度思考模式｜工具	42.70思考水平·高｜工具	35.20开启思考｜工具
LiveBench 综合评估	48.91常规模式	69.17思考水平·中	--
SWE-Bench Pro - Public 编程与软件工程	55.60思考水平·极高｜工具	--	36.30思考水平·高
SWE-bench Verified 编程与软件工程	80.00思考水平·极高｜工具	76.30思考水平·高	72.80思考水平·高
FrontierMath 数学推理	40.30思考水平·极高｜工具	26.70思考水平·高｜工具	26.30思考水平·高｜工具
FrontierMath - Tier 4 数学推理	18.80思考水平·极高	12.50思考水平·高｜工具	12.50思考水平·高
MMMU 多模态理解	80.40思考水平·极高｜工具	85.40思考水平·高	84.20思考水平·高
τ²-Bench Agent能力评测	82.00思考水平·极高｜工具	--	80.00开启思考｜工具
τ²-Bench - Telecom Agent能力评测	98.70思考水平·极高｜工具	95.60思考水平·高｜工具	96.70思考水平·高｜工具

其余 1 个 benchmark 仍可在上方图表中查看。

单评测历史趋势图

当前查看：ARC-AGI · 综合评估

选择评测

常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间，纵轴为分数；同一模式会用实线串起版本变化，同代不同模式继续用虚线辅助对齐。

GPT-5.2 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

模型	供应商	标准输入	标准输出	标准价适用于
GPT-5.2	Facebook AI研究实验室	$1.75 / 1M tokens	$14 / 1M tokens	—
GPT-5.1	OpenAI	$1.25 / 1M tokens	$10 / 1M tokens	—
GPT-5	OpenAI	$1.25 / 1M tokens	$10 / 1M tokens	—

数据来源

arcprize.orgarcprize.org openai.comopenai.com