GPT-5.4 nano 评测详情

GPT-5.4 nano 当前已收录的代表性评测结果包括 LiveBench(38 / 115,得分 70.13)、Claw Bench(10 / 29,得分 89.70)、GPQA Diamond(63 / 179,得分 82.80)。

评测结果

GPT-5.4 nano

评测结果

思考模式
工具使用

综合评估

共 8 项评测
评测名称 / 模式
得分
排名/总数
82.80
63 / 179
LiveBench
常规模式
32.39
115 / 115
48.67
96 / 115
58.46
75 / 115
62.75
57 / 115
LiveBench
深度思考模式
70.13
38 / 115
HLE
极高
24.30
92 / 159
HLE
极高工具
37.70
57 / 159

多模态理解

共 2 项评测
评测名称 / 模式
得分
排名/总数
MMMU
极高
66.10
26 / 28
MMMU
极高工具
69.50
24 / 28

数学推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
6.30
35 / 80

编程与软件工程

共 1 项评测
评测名称 / 模式
得分
排名/总数
52.40
27 / 44

Agent能力评测

共 1 项评测
评测名称 / 模式
得分
排名/总数
92.50
19 / 35

AI Agent - 工具使用

共 3 项评测
评测名称 / 模式
得分
排名/总数
Terminal Bench 2.0
极高工具
46.30
40 / 46
OSWorld-Verified
极高工具
39
17 / 18
Tool Decathlon
极高工具
35.50
6 / 7

OpenClaw智能体能力综合测评

共 1 项评测
评测名称 / 模式
得分
排名/总数
Claw Bench
开启思考工具
89.70
10 / 29