Claude Sonnet 4 评测详情

Claude Sonnet 4 当前已收录的代表性评测结果包括 SWE-bench Verified(13 / 108,得分 80.20)、Terminal-Bench(10 / 35,得分 41.30)、MMLU Pro(37 / 126,得分 84)。并附有 1 个数据来源链接供参考。

评测结果

Claude Sonnet 4

评测结果

思考模式
工具使用

综合评估

共 12 项评测
评测名称 / 模式
得分
排名/总数
84
37 / 126
83.80
58 / 179
75.40
92 / 179
68
123 / 179
LiveBench
常规模式
50.98
89 / 115
61.27
65 / 115
40
46 / 65
23.80
53 / 65
9.60
136 / 159
5.52
150 / 159
5.90
43 / 59
1.30
52 / 59

编程与软件工程

共 6 项评测
评测名称 / 模式
得分
排名/总数
CodeClash
常规模式工具
1223
4 / 8
80.20
13 / 108
72.70
47 / 108
66
58 / 120
48.50
94 / 120

数学推理

共 12 项评测
评测名称 / 模式
得分
排名/总数
85
50 / 106
70.50
71 / 106
38
95 / 106
43.40
50 / 62
27.10
8 / 16
9.70
5 / 10
5.20
8 / 10
4.10
41 / 60
4
5 / 9
3.30
6 / 9
0
72 / 80

写作和创作

共 1 项评测
评测名称 / 模式
得分
排名/总数
83.05
14 / 23

AI Agent - 工具使用

共 4 项评测
评测名称 / 模式
得分
排名/总数
42.20
16 / 18
41.30
10 / 35
35.50
18 / 35

多模态理解

共 1 项评测
评测名称 / 模式
得分
排名/总数
76.50
16 / 28

常识推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
Simple Bench
开启思考
45.50
34 / 63

Agent能力评测

共 4 项评测
评测名称 / 模式
得分
排名/总数
Aider-Polyglot
常规模式
56.40
26 / 59
61.30
20 / 59
52
33 / 40

指令跟随

共 1 项评测
评测名称 / 模式
得分
排名/总数
55
22 / 29

生产力知识

共 1 项评测
评测名称 / 模式
得分
排名/总数
33
19 / 21

长上下文能力

共 1 项评测
评测名称 / 模式
得分
排名/总数
65
10 / 13

OpenClaw智能体能力综合测评

共 2 项评测
评测名称 / 模式
得分
排名/总数
Pinch Bench
开启思考工具
80.50
22 / 37
Claw Bench
开启思考工具
77.80
23 / 29

数据来源