加载中...
加载中...
GPT-5.4 当前已收录的代表性评测结果包括 HLE(3 / 113,得分 52.10)、GPQA Diamond(6 / 160,得分 92.80)、SWE-Bench Pro - Public(1 / 19,得分 57.70)。本页还提供与 2 个竞品模型及 2 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。并附有 1 个数据来源链接供参考。
将 GPT-5.4 与同类头部模型进行多维评测对比,直观展示各项得分差异
水平视图(数据较多时自动切换)
前 10 项可对比评测得分汇总
| 评测项 | GPT-5.4(当前) | Gemini 3.1 Pro Preview | Claude Opus 4.6 |
|---|---|---|---|
ARC-AGI 综合评估 | 93.70 极高强度思考(无工具) | -- | 94.00 扩展(无工具) |
ARC-AGI-2 综合评估 | 77.10 常规模式(无工具) | 77.10 思考模式 High(无工具) | 68.80 扩展(无工具) |
GPQA Diamond 综合评估 | 92.80 极高强度思考(无工具) | 94.30 思考模式 High(无工具) | 91.31 扩展(无工具) |
HLE 综合评估 | 52.10 极高强度思考(工具) | 51.40 思考模式 High(工具) | 53.00 扩展(工具,联网) |
SWE-Bench Pro - Public 编程与软件工程 | 57.70 极高强度思考(无工具) | 54.20 思考模式 High(工具) | -- |
Pinch Bench Agent能力评测 | 86.40 思考模式 High(工具) | -- | 86.30 扩展(工具) |
τ²-Bench - Telecom Agent能力评测 | 98.90 极高强度思考(工具) | 99.30 思考模式 High(工具) | 99.25 扩展(工具) |
BrowseComp AI Agent - 信息收集 | 82.70 极高强度思考(工具) | 85.90 思考模式 High(工具+联网) | 84.00 思考模式(工具+联网) |
OSWorld-Verified AI Agent - 工具使用 | 75.00 极高强度思考(工具) | -- | 72.70 扩展(工具) |
Terminal Bench 2.0 AI Agent - 工具使用 | 75.10 极高强度思考(工具) | 68.50 思考模式 High(工具) | 65.40 扩展(工具) |
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens
若存在上下文阈值,图中标准价仅适用于以下范围:
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
GPT-5.4 当前模型 | OpenAI | $2.5 / 1M tokens | $15 / 1M tokens | <= 272K |
Gemini 3.1 Pro Preview | Google Deep Mind | $2 / 1M tokens | $12 / 1M tokens | <= 200K |
Claude Opus 4.6 | Anthropic | $5 / 1M tokens | $25 / 1M tokens | <= 200K |
追踪 GPT-5.4 系列模型的迭代轨迹,直观展示代际性能变化
水平视图(数据较多时自动切换)
前 10 项可对比评测得分汇总
| 评测项 | GPT-5.4(当前) | GPT-5.2 | GPT-5.1 |
|---|---|---|---|
ARC-AGI 综合评估 | 93.70 极高强度思考(无工具) | 90.50 深度思考(无工具、并行) | 72.80 high |
ARC-AGI-2 综合评估 | 77.10 常规模式(无工具) | 54.20 深度思考(无工具、并行) | 17.60 high |
GPQA Diamond 综合评估 | 92.80 极高强度思考(无工具) | 93.20 深度思考(无工具、并行) | 88.10 thinking |
HLE 综合评估 | 52.10 极高强度思考(工具) | 45.50 深度思考模式(工具+联网) | 42.70 思考模式 High(工具+联网) |
FrontierMath 数学推理 | 47.60 极高强度思考(无工具) | 40.30 极高强度思考(工具) | 31.00 思考模式 High(工具) |
27.10 极高强度思考(无工具) | 14.60 极高强度思考(工具) | 12.50 high | |
SWE-Bench Pro - Public 编程与软件工程 | 57.70 极高强度思考(无工具) | 55.60 极高强度思考(工具) | 50.80 思考模式 High(无工具) |
τ²-Bench - Telecom Agent能力评测 | 98.90 极高强度思考(工具) | 98.70 极高强度思考(工具) | 95.60 high + 使用工具 |
BrowseComp AI Agent - 信息收集 | 82.70 极高强度思考(工具) | 65.80 深度思考模式(工具+联网) | 90.00 high + 使用工具 |
Terminal Bench 2.0 AI Agent - 工具使用 | 75.10 极高强度思考(工具) | -- | 47.60 high + 使用工具 |
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens
若存在上下文阈值,图中标准价仅适用于以下范围:
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
GPT-5.4 当前模型 | OpenAI | $2.5 / 1M tokens | $15 / 1M tokens | <= 272K |
GPT-5.2 | Facebook AI研究实验室 | $1.75 / 1M tokens | $14 / 1M tokens | — |
GPT-5.1 | — | 1.25 美元/100万 tokens | 10 美元/100万 tokens | — |
上半部分展示多评测全景,下半部分展示单个评测下同代不同模式(虚线连接)的结果。
提示:点击任意分数单元格可切换下方关系图。
当前查看:ARC-AGI · 综合评估