Claude Opus 4 评测详情

Claude Opus 4 当前已收录的代表性评测结果包括 MATH-500(3 / 44,得分 98.20)、MMLU Pro(25 / 126,得分 85)、Aider-Polyglot(13 / 59,得分 72)。

评测结果

Claude Opus 4

评测结果

思考模式

综合评估

共 5 项评测
评测名称 / 模式
得分
排名/总数
85
25 / 126
79.60
80 / 179
35.70
48 / 65
10.70
131 / 159
8.60
39 / 59

编程与软件工程

共 2 项评测
评测名称 / 模式
得分
排名/总数
72.50
48 / 108
56.60
76 / 120

数学推理

共 9 项评测
评测名称 / 模式
得分
排名/总数
98.20
3 / 44
76
35 / 62
75.50
65 / 106
4.50
39 / 60
4.10
41 / 60
0
72 / 80
4.20
40 / 80
2.90
16 / 16

写作和创作

共 1 项评测
评测名称 / 模式
得分
排名/总数
83.75
13 / 23

常识推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
Simple Bench
开启思考
58.80
17 / 63

Agent能力评测

共 3 项评测
评测名称 / 模式
得分
排名/总数
72.50
22 / 40
Aider-Polyglot
常规模式
70.70
16 / 59
72
13 / 59