Claude Sonnet 4 评测详情

Claude Sonnet 4 当前已收录的代表性评测结果包括 SWE-bench Verified（13 / 108，得分 80.20）、Terminal-Bench（10 / 35，得分 41.30）、MMLU Pro（37 / 126，得分 84）。并附有 1 个数据来源链接供参考。

评测结果

Claude Sonnet 4

评测结果

综合评估

共 12 项评测

评测名称 / 模式

得分

排名/总数

84

37 / 126

83.80

58 / 179

75.40

92 / 179

68

123 / 179

常规模式

50.98

89 / 115

64K

61.27

65 / 115

40

46 / 65

23.80

53 / 65

9.60

136 / 159

5.52

150 / 159

5.90

43 / 59

1.30

52 / 59

编程与软件工程

共 6 项评测

评测名称 / 模式

得分

排名/总数

常规模式工具

1223

4 / 8

SWE-bench Verified

80.20

13 / 108

SWE-bench Verified

72.70

47 / 108

66

58 / 120

48.50

94 / 120

SWE-Bench Pro - Public

42.70

38 / 44

数学推理

共 12 项评测

评测名称 / 模式

得分

排名/总数

85

50 / 106

70.50

71 / 106

38

95 / 106

43.40

50 / 62

27.10

8 / 16

9.70

5 / 10

5.20

8 / 10

IMO-ProofBench Advanced

4.80

6 / 8

4.10

41 / 60

4

5 / 9

3.30

6 / 9

FrontierMath - Tier 4

常规模式

0

72 / 80

写作和创作

共 1 项评测

评测名称 / 模式

得分

排名/总数

Creative Writing

83.05

14 / 23

AI Agent - 工具使用

共 4 项评测

评测名称 / 模式

得分

排名/总数

OSWorld-Verified

42.20

16 / 18

41.30

10 / 35

35.50

18 / 35

26

26 / 35

多模态理解

共 1 项评测

评测名称 / 模式

得分

排名/总数

76.50

16 / 28

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

开启思考

45.50

34 / 63

Agent能力评测

共 4 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

65

29 / 35

常规模式

56.40

26 / 59

32K

61.30

20 / 59

52

33 / 40

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

55

22 / 29

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

33

19 / 21

长上下文能力

共 1 项评测

评测名称 / 模式

得分

排名/总数

65

10 / 13

OpenClaw智能体能力综合测评

共 2 项评测

评测名称 / 模式

得分

排名/总数

开启思考工具

80.50

22 / 37

开启思考工具

77.80

23 / 29

与其他模型对比

数据来源

artificialanalysis.aiartificialanalysis.ai