GPT-5.4 mini 评测详情

GPT-5.4 mini 当前已收录的代表性评测结果包括 GPQA Diamond(33 / 179,得分 88)、Tool Decathlon(2 / 7,得分 42.90)、HLE(47 / 159,得分 41.50)。本页还提供与 2 个竞品模型及 1 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。

评测结果

GPT-5.4 mini

评测结果

思考模式
工具使用

综合评估

共 8 项评测
评测名称 / 模式
得分
排名/总数
88
33 / 179
LiveBench
常规模式
36.95
112 / 115
49.54
93 / 115
58.33
76 / 115
63.57
55 / 115
LiveBench
深度思考模式
67.54
48 / 115
HLE
极高
28.20
83 / 159
HLE
极高工具
41.50
47 / 159

数学推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
2.10
56 / 80

编程与软件工程

共 1 项评测
评测名称 / 模式
得分
排名/总数
54.40
22 / 44

Agent能力评测

共 1 项评测
评测名称 / 模式
得分
排名/总数
93.40
17 / 35

AI Agent - 工具使用

共 4 项评测
评测名称 / 模式
得分
排名/总数
OSWorld-Verified
极高工具
72.10
11 / 18
Terminal Bench 2.0
极高工具
60
19 / 46
MCP-Atlas
极高工具
56.70
20 / 23
Tool Decathlon
极高工具
42.90
2 / 7

OpenClaw智能体能力综合测评

共 1 项评测
评测名称 / 模式
得分
排名/总数
Claw Bench
开启思考工具
75.30
25 / 29

竞品对比

GPT-5.4 mini 与同类主流模型的评测得分对比

评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;百分制评测使用原始高度,超出 0-100 的评测按该评测内相对比例缩放,标签仍保留原始分数。

8 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。

评测项GPT-5.4 mini当前Haiku 4.5Gemini 3.0 Flash
GPQA Diamond
综合评估
88.00思考水平·极高
73.30扩展思考
90.40开启思考
HLE
综合评估
41.50思考水平·极高 | 工具
9.70扩展思考
43.50开启思考 | 工具
LiveBench
综合评估
67.54深度思考模式
61.3264K
72.40思考水平·高
2.10思考水平·高
2.1032K
4.20常规模式
SWE-Bench Pro - Public
编程与软件工程
54.40思考水平·极高 | 工具
39.45扩展思考 | 工具
49.60思考水平·高 | 工具
MCP-Atlas
AI Agent - 工具使用
56.70思考水平·极高 | 工具
--
62.00常规模式 | 工具
Terminal Bench 2.0
AI Agent - 工具使用
60.00思考水平·极高 | 工具
--
47.60开启思考 | 工具
Claw Bench
OpenClaw智能体能力综合测评
75.30开启思考 | 工具
89.40开启思考 | 工具
85.70开启思考 | 工具

GPT-5.4 mini 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

模型供应商标准输入标准输出标准价适用于
GPT-5.4 mini
OpenAI$0.75 / 1M tokens$4.5 / 1M tokens

历代版本对比

GPT-5.4 mini 系列各版本的评测成绩纵向对比

GPT-5.4 miniGPT-5-mini
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;百分制评测使用原始高度,超出 0-100 的评测按该评测内相对比例缩放,标签仍保留原始分数。

4 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项GPT-5.4 mini当前GPT-5-mini
GPQA Diamond
综合评估
88.00思考水平·极高
69.00开启思考
HLE
综合评估
41.50思考水平·极高 | 工具
5.00开启思考
LiveBench
综合评估
67.54深度思考模式
61.01常规模式
2.10思考水平·高
6.30思考水平·高

单评测历史趋势图

当前查看:GPQA Diamond · 综合评估

选择评测
常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间,纵轴为分数;同一模式会用实线串起版本变化,同代不同模式继续用虚线辅助对齐。

GPT-5.4 mini 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

模型供应商标准输入标准输出标准价适用于
GPT-5.4 mini
OpenAI$0.75 / 1M tokens$4.5 / 1M tokens