GPT-5.4 评测详情

GPT-5.4 当前已收录的代表性评测结果包括 LiveBench（2 / 115，得分 80.28）、Pinch Bench（1 / 37，得分 90.50）、GPQA Diamond（10 / 179，得分 92.80）。本页还提供与 2 个竞品模型及 2 个前代或同系列模型的对比，在有数据时会展示性能和价格视图。并附有 2 个数据来源链接供参考。

评测结果

GPT-5.4

评测结果

综合评估

共 14 项评测

评测名称 / 模式

得分

排名/总数

ARC-AGI

常规模式

93.70

7 / 65

ARC-AGI

低

68.20

28 / 65

ARC-AGI

中

86.20

18 / 65

ARC-AGI

极高

93.70

7 / 65

GPQA Diamond

极高

92.80

10 / 179

LiveBench

高

75.07

16 / 115

LiveBench

深度思考模式

80.28

2 / 115

ARC-AGI-2

常规模式

77.10

7 / 59

ARC-AGI-2

低

29.20

30 / 59

ARC-AGI-2

中

55.40

19 / 59

ARC-AGI-2

极高

10 / 59

HLE

极高

39.80

54 / 159

HLE

极高工具

52.10

15 / 159

ARC-AGI-3

高

4 / 6

数学推理

共 2 项评测

评测名称 / 模式

得分

排名/总数

FrontierMath

极高

47.60

5 / 60

FrontierMath - Tier 4

极高

27.10

11 / 80

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

SWE-Bench Pro - Public

极高

57.70

11 / 44

DeepSWE

极高工具

4 / 9

Agent能力评测

共 2 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

常规模式工具

64.30

30 / 35

τ²-Bench - Telecom

极高工具

98.90

3 / 35

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

极高工具

82.70

11 / 45

AI Agent - 工具使用

共 3 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

极高工具

75.10

4 / 46

OSWorld-Verified

极高工具

7 / 18

MCP-Atlas

极高工具

70.60

10 / 23

OpenClaw智能体能力综合测评

共 2 项评测

评测名称 / 模式

得分

排名/总数

Claw Bench

开启思考工具

92.70

3 / 29

Pinch Bench

开启思考工具

90.50

1 / 37

与其他模型对比

竞品对比

GPT-5.4 与同类主流模型的评测得分对比

GPT-5.4Gemini 3.1 Pro Preview Claude Opus 4.6

评测类别:

柱状图按当前筛选范围内每个模型在各评测中的最高分展示；百分制评测使用原始高度，超出 0-100 的评测按该评测内相对比例缩放，标签仍保留原始分数。

10 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。

评测项	GPT-5.4当前	Gemini 3.1 Pro Preview	Claude Opus 4.6
ARC-AGI 综合评估	93.70常规模式	--	92.00扩展思考
ARC-AGI-2 综合评估	77.10常规模式	77.10思考水平·高	66.30扩展思考
HLE 综合评估	52.10思考水平·极高｜工具	51.40思考水平·高｜工具	53.00扩展思考｜工具
FrontierMath - Tier 4 数学推理	27.10思考水平·极高	16.70思考水平·高	22.90思考水平·高
τ²-Bench - Telecom Agent能力评测	98.90思考水平·极高｜工具	99.30思考水平·高｜工具	99.25扩展思考｜工具
BrowseComp AI Agent - 信息收集	82.70思考水平·极高｜工具	85.90思考水平·高｜工具	84.00开启思考｜工具
MCP-Atlas AI Agent - 工具使用	70.60思考水平·极高｜工具	--	76.80深度思考模式｜工具
OSWorld-Verified AI Agent - 工具使用	75.00思考水平·极高｜工具	--	72.70扩展思考｜工具
Terminal Bench 2.0 AI Agent - 工具使用	75.10思考水平·极高｜工具	68.50思考水平·高｜工具	65.40扩展思考｜工具
Pinch Bench OpenClaw智能体能力综合测评	90.50开启思考｜工具	86.70开启思考｜工具	87.40开启思考｜工具

GPT-5.4 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

若存在上下文阈值，图中标准价仅适用于以下范围：

GPT-5.4: 标准价适用于 <= 272K

Gemini 3.1 Pro Preview: 标准价适用于 <= 200K

Claude Opus 4.6: 标准价适用于 <= 200K

模型	供应商	标准输入	标准输出	标准价适用于
GPT-5.4	OpenAI	$2.5 / 1M tokens	$15 / 1M tokens	<= 272K
Gemini 3.1 Pro Preview	Google Deep Mind	$2 / 1M tokens	$12 / 1M tokens	<= 200K
Claude Opus 4.6	Anthropic	$5 / 1M tokens	$25 / 1M tokens	<= 200K

历代版本对比

GPT-5.4 系列各版本的评测成绩纵向对比

GPT-5.4GPT-5.2 GPT-5.1

评测类别:

8 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项	GPT-5.4当前	GPT-5.2	GPT-5.1
ARC-AGI 综合评估	93.70常规模式	90.50深度思考模式	72.80思考水平·高
ARC-AGI-2 综合评估	77.10常规模式	54.20深度思考模式	17.60思考水平·高
HLE 综合评估	52.10思考水平·极高｜工具	45.50深度思考模式｜工具	42.70思考水平·高｜工具
LiveBench 综合评估	80.28深度思考模式	48.91常规模式	72.04思考水平·高
FrontierMath - Tier 4 数学推理	27.10思考水平·极高	18.80思考水平·极高	12.50思考水平·高｜工具
τ²-Bench - Telecom Agent能力评测	98.90思考水平·极高｜工具	98.70思考水平·极高｜工具	95.60思考水平·高｜工具
BrowseComp AI Agent - 信息收集	82.70思考水平·极高｜工具	65.80思考水平·极高｜工具	50.80思考水平·高
Terminal Bench 2.0 AI Agent - 工具使用	75.10思考水平·极高｜工具	--	47.60思考水平·高｜工具

单评测历史趋势图

当前查看：ARC-AGI · 综合评估

选择评测

常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间，纵轴为分数；同一模式会用实线串起版本变化，同代不同模式继续用虚线辅助对齐。

GPT-5.4 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

若存在上下文阈值，图中标准价仅适用于以下范围：

GPT-5.4: 标准价适用于 <= 272K

模型	供应商	标准输入	标准输出	标准价适用于
GPT-5.4	OpenAI	$2.5 / 1M tokens	$15 / 1M tokens	<= 272K
GPT-5.2	Facebook AI研究实验室	$1.75 / 1M tokens	$14 / 1M tokens	—

数据来源

pinchbench.compinchbench.com arcprize.orgarcprize.org