GPT-5 评测详情
GPT-5 当前已收录的代表性评测结果包括 Aider-Polyglot(1 / 59,得分 88)、AIME2025(9 / 106,得分 99.60)、IMO-ProofBench(2 / 16,得分 59)。本页还提供与 2 个竞品模型及 3 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。并附有 1 个数据来源链接供参考。
评测结果
GPT-5
评测结果
综合评估
共 14 项评测评测名称 / 模式
得分
排名/总数
编程与软件工程
共 3 项评测评测名称 / 模式
得分
排名/总数
数学推理
共 12 项评测评测名称 / 模式
得分
排名/总数
Agent能力评测
共 6 项评测评测名称 / 模式
得分
排名/总数
竞品对比
GPT-5 与同类主流模型的评测得分对比
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;百分制评测使用原始高度,超出 0-100 的评测按该评测内相对比例缩放,标签仍保留原始分数。
12 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。
| 评测项 | GPT-5当前 | Claude Opus 4 | Gemini 2.5-Pro |
|---|---|---|---|
ARC-AGI 综合评估 | 65.70思考水平·高 | 35.70常规模式 | 37.00开启思考 |
ARC-AGI-2 综合评估 | 9.90思考水平·高 | 8.60常规模式 | 4.90开启思考 |
GPQA Diamond 综合评估 | 87.30开启思考 | 工具 | 79.60常规模式 | 86.40开启思考 |
HLE 综合评估 | 35.20开启思考 | 工具 | 10.70常规模式 | 21.60开启思考 |
CodeClash 编程与软件工程 | 1360.00常规模式 | 工具 | -- | 1125.00常规模式 | 工具 |
SWE-bench Verified 编程与软件工程 | 72.80思考水平·高 | 72.50常规模式 | 67.20开启思考 |
AIME2025 数学推理 | 99.60开启思考 | 工具 | 75.50常规模式 | 88.00开启思考 |
FrontierMath 数学推理 | 26.30思考水平·高 | 工具 | 4.50常规模式 | 11.00常规模式 |
IMO 2024 数学推理 | 11.00开启思考 | -- | 19.00开启思考 |
IMO 2025 数学推理 | 29.00开启思考 | -- | 15.20开启思考 |
IMO-ProofBench 数学推理 | 59.00开启思考 | 2.90开启思考 | 55.20开启思考 |
20.00开启思考 | -- | 17.60开启思考 |
其余 8 个 benchmark 仍可在上方图表中查看。
GPT-5 与同类模型的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。
这些模型暂未提供可比较的标准文本价格。
历代版本对比
GPT-5 系列各版本的评测成绩纵向对比
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;百分制评测使用原始高度,超出 0-100 的评测按该评测内相对比例缩放,标签仍保留原始分数。
9 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。· 点击任意行可切换下方趋势图。
| 评测项 | GPT-5当前 | GPT-4.5 | GPT-4.1 | GPT-4o(2025-03-27) |
|---|---|---|---|---|
ARC-AGI 综合评估 | 65.70思考水平·高 | -- | -- | 8.80常规模式 |
GPQA Diamond 综合评估 | 87.30开启思考 | 工具 | 71.40常规模式 | 66.30常规模式 | 66.90常规模式 |
HLE 综合评估 | 35.20开启思考 | 工具 | -- | 3.70常规模式 | -- |
SWE-bench Verified 编程与软件工程 | 72.80思考水平·高 | 38.00常规模式 | 54.60常规模式 | -- |
AIME2025 数学推理 | 99.60开启思考 | 工具 | -- | 36.70常规模式 | 26.70常规模式 |
FrontierMath 数学推理 | 26.30思考水平·高 | 工具 | -- | 5.50常规模式 | -- |
Simple Bench 常识推理 | 56.70思考水平·高 | 34.50常规模式 | 27.00常规模式 | -- |
Aider-Polyglot Agent能力评测 | 88.00思考水平·高 | 44.90常规模式 | 52.40常规模式 | 45.30常规模式 |
τ²-Bench Agent能力评测 | 80.00开启思考 | 工具 | -- | 54.70常规模式 | 工具 | -- |
单评测历史趋势图
当前查看:ARC-AGI · 综合评估
选择评测
GPT-5 所在系列的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。
这些模型暂未提供可比较的标准文本价格。