Claude Sonnet 3.7 Benchmark Details

Claude Sonnet 3.7 currently shows benchmark results led by Aider-Polyglot (18 / 59, score 64.90), Simple Bench (31 / 63, score 46.40), GPQA Diamond (89 / 179, score 77). 1 source link is attached for reference.

Benchmark Results

Claude Sonnet 3.7

Benchmark Results

General Knowledge

3 evaluations

Benchmark / mode

Score

Rank/total

GPQA Diamond

89 / 179

GPQA Diamond

123 / 179

HLE

10.30

135 / 161

Coding and Software Engineer

2 evaluations

Benchmark / mode

Score

Rank/total

SWE-bench Verified

70.30

55 / 108

SWE-bench Verified

62.30

74 / 108

Math and Reasoning

5 evaluations

Benchmark / mode

Score

Rank/total

MATH-500

82.20

41 / 44

AIME2025

54.80

84 / 106

AIME 2024

23.30

58 / 62

FrontierMath

4.10

41 / 60

FrontierMath

3.10

46 / 60

常识推理

2 evaluations

Benchmark / mode

Score

Rank/total

Simple Bench

Standard Mode

44.90

35 / 63

Simple Bench

Thinking Enabled

46.40

31 / 63

Agent Level Benchmark

5 evaluations

Benchmark / mode

Score

Rank/total

Aider-Polyglot

Standard Mode

60.40

21 / 59

Aider-Polyglot

32K

64.90

18 / 59

τ²-Bench

61.80

29 / 40

τ²-Bench - Telecom

31 / 35

Terminal Bench Hard

13 / 13

Productivity Knowledge

1 evaluations

Benchmark / mode

Score

Rank/total

GDPval-AA

20 / 21

Long Context

1 evaluations

Benchmark / mode

Score

Rank/total

AA-LCR

13 / 13

AI Agent - Tool Usage

1 evaluations

Benchmark / mode

Score

Rank/total

OSWorld-Verified

19 / 19

Compare with other models

Sources

anthropic.comanthropic.com