GPT-5.4 Pro 评测详情
GPT-5.4 Pro 当前已收录的代表性评测结果包括 GPQA Diamond(2 / 165,得分 94.40)、HLE(2 / 125,得分 58.70)、FrontierMath(1 / 54,得分 50)。本页还提供与 2 个竞品模型及 3 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。并附有 1 个数据来源链接供参考。
评测结果
GPT-5.4 Pro
评测结果
综合评估
共 5 项评测评测名称 / 模式
得分
排名/总数
竞品对比
GPT-5.4 Pro 与同类主流模型的评测得分对比
评测类别:
GPT-5.4 Pro:
高 + 工具
高
Claude Opus 4.6:
扩展 + 工具
扩展
Gemini 3.1 Pro Preview:
高 + 工具
高 + 工具
高
评测得分对比
6 项可对比评测得分汇总
| 评测项 | GPT-5.4 Pro(本模型) | Claude Opus 4.6 | Gemini 3.1 Pro Preview |
|---|---|---|---|
ARC-AGI 综合评估 | 94.50 思考模式 High(无工具) | 92.00 扩展(无工具) | -- |
ARC-AGI-2 综合评估 | 83.30 常规模式(无工具) | 66.30 扩展(无工具) | 77.10 思考模式 High(无工具) |
GPQA Diamond 综合评估 | 94.40 思考模式 High(无工具) | 91.31 扩展(无工具) | 94.30 思考模式 High(无工具) |
HLE 综合评估 | 58.70 思考模式 High(工具) | 53.00 扩展(工具,联网) | 51.40 思考模式 High(工具) |
BrowseComp AI Agent - 信息收集 | 89.30 思考模式 High(工具) | 84.00 思考模式(工具+联网) | 85.90 思考模式 High(工具+联网) |
GDPval-AA 生产力知识 | 82.00 思考模式 High(工具) | 1606.00 扩展(工具,联网) | 1317.00 思考模式 High(工具) |
GPT-5.4 Pro 与同类模型的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens
若存在上下文阈值,图中标准价仅适用于以下范围:
GPT-5.4 Pro: 标准价适用于 <= 272K
Claude Opus 4.6: 标准价适用于 <= 200K
Gemini 3.1 Pro Preview: 标准价适用于 <= 200K
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
GPT-5.4 Pro 当前模型 | OpenAI | $30 / 1M tokens | $180 / 1M tokens | <= 272K |
Claude Opus 4.6 | Anthropic | $5 / 1M tokens | $25 / 1M tokens | <= 200K |
Gemini 3.1 Pro Preview | Google Deep Mind | $2 / 1M tokens | $12 / 1M tokens | <= 200K |
历代版本对比
GPT-5.4 Pro 系列各版本的评测成绩纵向对比
评测类别:
GPT-5.4 Pro:
高 + 工具
高
GPT-5.2 Pro:
中
GPT-5-Pro:
thinking
thinking + 使用工具 + 工具
评测得分对比
6 项可对比评测得分汇总
| 评测项 | GPT-5.4 Pro(本模型) | GPT-5.2 Pro | GPT-5-Pro |
|---|---|---|---|
ARC-AGI 综合评估 | 94.50 思考模式 High(无工具) | 90.50 thinking | 70.20 thinking |
ARC-AGI-2 综合评估 | 83.30 常规模式(无工具) | 54.20 thinking | 18.00 thinking |
GPQA Diamond 综合评估 | 94.40 思考模式 High(无工具) | 93.20 thinking | 89.40 thinking + 使用工具 |
HLE 综合评估 | 58.70 思考模式 High(工具) | 50.00 thinking + 使用工具 | 42.00 thinking + 使用工具 |
38.00 常规模式(无工具) | 31.30 thinking | 14.60 thinking | |
BrowseComp AI Agent - 信息收集 | 89.30 思考模式 High(工具) | 77.90 thinking + 使用工具 | -- |
GPT-5.4 Pro 所在系列的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens
若存在上下文阈值,图中标准价仅适用于以下范围:
GPT-5.4 Pro: 标准价适用于 <= 272K
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
GPT-5.4 Pro 当前模型 | OpenAI | $30 / 1M tokens | $180 / 1M tokens | <= 272K |
GPT-5.2 Pro | — | $21.00 / 1M tokens | $168.00 / 1M tokens | — |
GPT-5-Pro | — | 15 美元/100 万tokens | 120 美元/100 万tokens | — |
系列版本评测总览
查看 GPT-5.4 Pro 系列各版本在主要评测上的整体得分,点击任意评测行可查看各推理模式的细分结果。
提示:点击任意分数单元格可切换下方关系图。
| 评测项 | GPT-5-Pro2025/8/7 | GPT-5.2 Pro2025/12/11 | GPT-5.4 Pro2026/3/5 |
|---|---|---|---|
单评测模式关系图
当前查看:ARC-AGI · 综合评估
选择评测