Claude Sonnet 3.7 评测详情

Claude Sonnet 3.7 当前已收录的代表性评测结果包括 LiveBench(24 / 52,得分 68.64)、GPQA Diamond(89 / 179,得分 77)、SWE-bench Verified(55 / 108,得分 70.30)。并附有 1 个数据来源链接供参考。

评测结果

Claude Sonnet 3.7

评测结果

思考模式

综合评估

共 5 项评测
评测名称 / 模式
得分
排名/总数
77
89 / 179
68
123 / 179
68.64
24 / 52
60.40
43 / 52
10.30
133 / 159

编程与软件工程

共 2 项评测
评测名称 / 模式
得分
排名/总数
70.30
55 / 108
62.30
74 / 108

数学推理

共 5 项评测
评测名称 / 模式
得分
排名/总数
82.20
41 / 44
54.80
84 / 106
23.30
58 / 62
4.10
41 / 60
3.10
46 / 60

常识推理

共 2 项评测
评测名称 / 模式
得分
排名/总数
46.40
14 / 27
44.90
16 / 27

Agent能力评测

共 5 项评测
评测名称 / 模式
得分
排名/总数
64.90
15 / 26
60.40
18 / 26
61.80
29 / 40

生产力知识

共 1 项评测
评测名称 / 模式
得分
排名/总数
28
20 / 21

长上下文能力

共 1 项评测
评测名称 / 模式
得分
排名/总数
61
13 / 13

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数

数据来源