Claude Sonnet 3.7 评测详情

Claude Sonnet 3.7 当前已收录的代表性评测结果包括 Aider-Polyglot(18 / 59,得分 64.90)、Simple Bench(31 / 63,得分 46.40)、GPQA Diamond(89 / 179,得分 77)。并附有 1 个数据来源链接供参考。

评测结果

Claude Sonnet 3.7

评测结果

思考模式

综合评估

共 3 项评测
评测名称 / 模式
得分
排名/总数
77
89 / 179
68
123 / 179
10.30
135 / 161

编程与软件工程

共 2 项评测
评测名称 / 模式
得分
排名/总数
70.30
55 / 108
62.30
74 / 108

数学推理

共 5 项评测
评测名称 / 模式
得分
排名/总数
82.20
41 / 44
54.80
84 / 106
23.30
58 / 62
4.10
41 / 60
3.10
46 / 60

常识推理

共 2 项评测
评测名称 / 模式
得分
排名/总数
Simple Bench
常规模式
44.90
35 / 63
Simple Bench
开启思考
46.40
31 / 63

Agent能力评测

共 5 项评测
评测名称 / 模式
得分
排名/总数
Aider-Polyglot
常规模式
60.40
21 / 59
64.90
18 / 59
61.80
29 / 40

生产力知识

共 1 项评测
评测名称 / 模式
得分
排名/总数
28
20 / 21

长上下文能力

共 1 项评测
评测名称 / 模式
得分
排名/总数
61
13 / 13

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数

数据来源