GPT-5 评测详情

GPT-5 当前已收录的代表性评测结果包括 Aider-Polyglot（1 / 59，得分 88）、AIME2025（9 / 106，得分 99.60）、IMO-ProofBench（2 / 16，得分 59）。本页还提供与 2 个竞品模型及 3 个前代或同系列模型的对比，在有数据时会展示性能和价格视图。并附有 1 个数据来源链接供参考。

评测结果

GPT-5

评测结果

综合评估

共 14 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

87.30

38 / 179

GPQA Diamond

85.70

45 / 179

GPQA Diamond

77.80

85 / 179

ARC-AGI

65.70

30 / 65

ARC-AGI

56.20

40 / 65

ARC-AGI

45 / 65

ARC-AGI

61 / 65

HLE

35.20

62 / 159

HLE

24.80

90 / 159

HLE

6.30

148 / 159

ARC-AGI-2

9.90

37 / 59

ARC-AGI-2

7.50

40 / 59

ARC-AGI-2

1.90

50 / 59

ARC-AGI-2

57 / 59

编程与软件工程

共 3 项评测

评测名称 / 模式

得分

排名/总数

CodeClash

常规模式工具

1360

2 / 8

SWE-bench Verified

72.80

46 / 108

SWE-Bench Pro - Public

36.30

42 / 44

数学推理

共 12 项评测

评测名称 / 模式

得分

排名/总数

AIME2025

99.60

9 / 106

AIME2025

94.60

26 / 106

AIME2025

61.90

80 / 106

IMO-ProofBench

2 / 16

IMO 2025

2 / 9

FrontierMath

24.80

15 / 60

FrontierMath

24.80

15 / 60

FrontierMath

思考水平·高工具

26.30

14 / 60

IMO-ProofBench Advanced

2 / 8

FrontierMath - Tier 4

思考水平·中

6.30

35 / 80

FrontierMath - Tier 4

思考水平·高

12.50

29 / 80

IMO 2024

4 / 10

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

Terminal-Bench

43.80

8 / 35

多模态理解

共 1 项评测

评测名称 / 模式

得分

排名/总数

MMMU

84.20

5 / 28

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

Simple Bench

思考水平·高

56.70

20 / 63

Agent能力评测

共 6 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

95.80

13 / 35

τ²-Bench - Telecom

思考水平·高工具

96.70

11 / 35

Aider-Polyglot

思考水平·低

81.30

5 / 59

Aider-Polyglot

思考水平·中

86.70

2 / 59

Aider-Polyglot

思考水平·高

1 / 59

τ²-Bench

15 / 40

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

IF Bench

73.10

8 / 29

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

54.90

32 / 45

与其他模型对比

竞品对比

GPT-5 与同类主流模型的评测得分对比

GPT-5Claude Opus 4 Gemini 2.5-Pro

评测类别:

柱状图按当前筛选范围内每个模型在各评测中的最高分展示；百分制评测使用原始高度，超出 0-100 的评测按该评测内相对比例缩放，标签仍保留原始分数。

12 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。

评测项	GPT-5当前	Claude Opus 4	Gemini 2.5-Pro
ARC-AGI 综合评估	65.70思考水平·高	35.70常规模式	37.00开启思考
ARC-AGI-2 综合评估	9.90思考水平·高	8.60常规模式	4.90开启思考
GPQA Diamond 综合评估	87.30开启思考｜工具	79.60常规模式	86.40开启思考
HLE 综合评估	35.20开启思考｜工具	10.70常规模式	21.60开启思考
CodeClash 编程与软件工程	1360.00常规模式｜工具	--	1125.00常规模式｜工具
SWE-bench Verified 编程与软件工程	72.80思考水平·高	72.50常规模式	67.20开启思考
AIME2025 数学推理	99.60开启思考｜工具	75.50常规模式	88.00开启思考
FrontierMath 数学推理	26.30思考水平·高｜工具	4.50常规模式	11.00常规模式
IMO 2024 数学推理	11.00开启思考	--	19.00开启思考
IMO 2025 数学推理	29.00开启思考	--	15.20开启思考
IMO-ProofBench 数学推理	59.00开启思考	2.90开启思考	55.20开启思考
IMO-ProofBench Advanced 数学推理	20.00开启思考	--	17.60开启思考

其余 8 个 benchmark 仍可在上方图表中查看。

GPT-5 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。

这些模型暂未提供可比较的标准文本价格。

历代版本对比

GPT-5 系列各版本的评测成绩纵向对比

GPT-5GPT-4.5 GPT-4.1 GPT-4o(2025-03-27)

评测类别:

9 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项	GPT-5当前	GPT-4.5	GPT-4.1	GPT-4o(2025-03-27)
ARC-AGI 综合评估	65.70思考水平·高	--	--	8.80常规模式
GPQA Diamond 综合评估	87.30开启思考｜工具	71.40常规模式	66.30常规模式	66.90常规模式
HLE 综合评估	35.20开启思考｜工具	--	3.70常规模式	--
SWE-bench Verified 编程与软件工程	72.80思考水平·高	38.00常规模式	54.60常规模式	--
AIME2025 数学推理	99.60开启思考｜工具	--	36.70常规模式	26.70常规模式
FrontierMath 数学推理	26.30思考水平·高｜工具	--	5.50常规模式	--
Simple Bench 常识推理	56.70思考水平·高	34.50常规模式	27.00常规模式	--
Aider-Polyglot Agent能力评测	88.00思考水平·高	44.90常规模式	52.40常规模式	45.30常规模式
τ²-Bench Agent能力评测	80.00开启思考｜工具	--	54.70常规模式｜工具	--

单评测历史趋势图

当前查看：ARC-AGI · 综合评估

选择评测

常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间，纵轴为分数；同一模式会用实线串起版本变化，同代不同模式继续用虚线辅助对齐。

GPT-5 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。

这些模型暂未提供可比较的标准文本价格。

数据来源

openai.comopenai.com