GPT-5 评测详情

GPT-5 当前已收录的代表性评测结果包括 Aider-Polyglot(1 / 59,得分 88)、AIME2025(9 / 106,得分 99.60)、IMO-ProofBench(2 / 16,得分 59)。本页还提供与 2 个竞品模型及 3 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。并附有 1 个数据来源链接供参考。

评测结果

GPT-5

评测结果

思考模式
工具使用

综合评估

共 14 项评测
评测名称 / 模式
得分
排名/总数
87.30
38 / 179
85.70
45 / 179
77.80
85 / 179
65.70
30 / 65
56.20
40 / 65
44
45 / 65
6
61 / 65
35.20
62 / 159
24.80
90 / 159
6.30
148 / 159
9.90
37 / 59
7.50
40 / 59
1.90
50 / 59
0
57 / 59

编程与软件工程

共 3 项评测
评测名称 / 模式
得分
排名/总数
CodeClash
常规模式工具
1360
2 / 8
72.80
46 / 108

数学推理

共 12 项评测
评测名称 / 模式
得分
排名/总数
99.60
9 / 106
94.60
26 / 106
61.90
80 / 106
29
2 / 9
24.80
15 / 60
24.80
15 / 60
FrontierMath
思考水平·高工具
26.30
14 / 60
FrontierMath - Tier 4
思考水平·中
6.30
35 / 80
FrontierMath - Tier 4
思考水平·高
12.50
29 / 80
11
4 / 10

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数
43.80
8 / 35

多模态理解

共 1 项评测
评测名称 / 模式
得分
排名/总数
84.20
5 / 28

常识推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
Simple Bench
思考水平·高
56.70
20 / 63

Agent能力评测

共 6 项评测
评测名称 / 模式
得分
排名/总数
τ²-Bench - Telecom
思考水平·高工具
96.70
11 / 35
Aider-Polyglot
思考水平·低
81.30
5 / 59
Aider-Polyglot
思考水平·中
86.70
2 / 59
Aider-Polyglot
思考水平·高
88
1 / 59
80
15 / 40

指令跟随

共 1 项评测
评测名称 / 模式
得分
排名/总数
73.10
8 / 29

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
54.90
32 / 45

竞品对比

GPT-5 与同类主流模型的评测得分对比

评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;百分制评测使用原始高度,超出 0-100 的评测按该评测内相对比例缩放,标签仍保留原始分数。

12 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。

评测项GPT-5当前Claude Opus 4Gemini 2.5-Pro
ARC-AGI
综合评估
65.70思考水平·高
35.70常规模式
37.00开启思考
ARC-AGI-2
综合评估
9.90思考水平·高
8.60常规模式
4.90开启思考
GPQA Diamond
综合评估
87.30开启思考 | 工具
79.60常规模式
86.40开启思考
HLE
综合评估
35.20开启思考 | 工具
10.70常规模式
21.60开启思考
CodeClash
编程与软件工程
1360.00常规模式 | 工具
--
1125.00常规模式 | 工具
SWE-bench Verified
编程与软件工程
72.80思考水平·高
72.50常规模式
67.20开启思考
AIME2025
数学推理
99.60开启思考 | 工具
75.50常规模式
88.00开启思考
FrontierMath
数学推理
26.30思考水平·高 | 工具
4.50常规模式
11.00常规模式
IMO 2024
数学推理
11.00开启思考
--
19.00开启思考
IMO 2025
数学推理
29.00开启思考
--
15.20开启思考
IMO-ProofBench
数学推理
59.00开启思考
2.90开启思考
55.20开启思考
20.00开启思考
--
17.60开启思考
其余 8 个 benchmark 仍可在上方图表中查看。

GPT-5 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。

这些模型暂未提供可比较的标准文本价格。

历代版本对比

GPT-5 系列各版本的评测成绩纵向对比

评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;百分制评测使用原始高度,超出 0-100 的评测按该评测内相对比例缩放,标签仍保留原始分数。

9 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项GPT-5当前GPT-4.5GPT-4.1GPT-4o(2025-03-27)
ARC-AGI
综合评估
65.70思考水平·高
--
--
8.80常规模式
GPQA Diamond
综合评估
87.30开启思考 | 工具
71.40常规模式
66.30常规模式
66.90常规模式
HLE
综合评估
35.20开启思考 | 工具
--
3.70常规模式
--
SWE-bench Verified
编程与软件工程
72.80思考水平·高
38.00常规模式
54.60常规模式
--
AIME2025
数学推理
99.60开启思考 | 工具
--
36.70常规模式
26.70常规模式
FrontierMath
数学推理
26.30思考水平·高 | 工具
--
5.50常规模式
--
Simple Bench
常识推理
56.70思考水平·高
34.50常规模式
27.00常规模式
--
Aider-Polyglot
Agent能力评测
88.00思考水平·高
44.90常规模式
52.40常规模式
45.30常规模式
τ²-Bench
Agent能力评测
80.00开启思考 | 工具
--
54.70常规模式 | 工具
--

单评测历史趋势图

当前查看:ARC-AGI · 综合评估

选择评测
常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间,纵轴为分数;同一模式会用实线串起版本变化,同代不同模式继续用虚线辅助对齐。

GPT-5 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。

这些模型暂未提供可比较的标准文本价格。

数据来源