LLM Coding Benchmark Leaderboard

Anthropic

Parallel · Thinking EnabledTools

SWE-bench Verified82.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Opus 4.5

Anthropic

Extended ThinkingTools

SWE-bench Verified80.90

LiveCodeBench87.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Claude Opus 4.6

Anthropic

Extended ThinkingTools

SWE-bench Verified80.84

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual72.00

Proprietary

Gemini 3.1 Pro Preview

Google Deep Mind

Thinking Level · HighTools

SWE-bench Verified80.60

LiveCodeBench91.70

SWE-Bench Pro - Public54.20

SWE-bench Multilingual—

Proprietary

Anthropic

Parallel · Thinking EnabledTools

SWE-bench Verified80.20

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

GPT-5.2

OpenAI

Thinking Level · Extra HighTools

SWE-bench Verified80.00

LiveCodeBench—

SWE-Bench Pro - Public55.60

SWE-bench Multilingual—

Proprietary

Claude Sonnet 4.6

Anthropic

Thinking Enabled

SWE-bench Verified79.60

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Qwen 3.6 Plus Preview

阿里巴巴

Thinking EnabledTools

SWE-bench Verified78.80

LiveCodeBench—

SWE-Bench Pro - Public56.60

SWE-bench Multilingual—

Proprietary

Muse Spark

Facebook AI研究实验室

Thinking EnabledTools

SWE-bench Verified77.40

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Anthropic

Thinking EnabledTools

SWE-bench Verified77.20

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

GPT-5.1-Codex-Max

OpenAI

Thinking Level · HighTools

SWE-bench Verified76.80

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

OpenAI

Thinking Level · High

SWE-bench Verified76.30

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini 3.0 Pro (Preview 11-2025)

OpenAI

Thinking Level · HighTools

SWE-bench Verified76.30

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Google Deep Mind

Thinking Enabled

SWE-bench Verified76.20

LiveCodeBench92.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Qwen3-Max-Thinking

阿里巴巴

Thinking Enabled

SWE-bench Verified75.30

LiveCodeBench85.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

o3-pro

OpenAI

Thinking Level · High

SWE-bench Verified75.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Opus 4.1

Anthropic

Extended ThinkingTools

SWE-bench Verified74.50

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

GPT-5 Codex

OpenAI

Thinking Level · High

SWE-bench Verified74.50

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Grok 4 Heavy

xAI

Parallel · Thinking EnabledTools

SWE-bench Verified73.50

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Anthropic

Thinking EnabledTools

SWE-bench Verified73.30

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

GPT-5

OpenAI

Thinking Level · High

SWE-bench Verified72.80

LiveCodeBench—

SWE-Bench Pro - Public36.30

SWE-bench Multilingual—

Proprietary

Anthropic

Thinking EnabledTools

SWE-bench Verified72.70

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Claude Opus 4

Anthropic

SWE-bench Verified72.50

LiveCodeBench56.60

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Grok 4 Code

xAI

SWE-bench Verified72.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Grok Code Fast 1

xAI

Thinking Enabled

SWE-bench Verified70.80

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

GPT-5.1 Codex

OpenAI

Thinking Level · HighTools

SWE-bench Verified70.40

LiveCodeBench85.50

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini 2.5 Pro Experimental 03-25

Anthropic

Thinking EnabledTools

SWE-bench Verified70.30

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Qwen3 Max (Preview)

阿里巴巴

SWE-bench Verified69.60

LiveCodeBench57.50

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

OpenAI o3

OpenAI

Thinking Enabled

SWE-bench Verified69.10

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini 3.0 Flash

Google Deep Mind

Thinking Enabled

SWE-bench Verified68.70

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

OpenAI o4 - mini

OpenAI

Thinking Enabled

SWE-bench Verified68.10

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini 2.5-Pro

Google Deep Mind

Thinking Enabled

SWE-bench Verified67.20

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Google Deep Mind

SWE-bench Verified63.80

LiveCodeBench70.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini-2.5-Pro-Preview-05-06

Google Deep Mind

SWE-bench Verified63.20

LiveCodeBench77.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Anthropic

Standard ModeTools

SWE-bench Verified62.30

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Devstral Medium

MistralAI

SWE-bench Verified61.60

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Gemini 2.5 Flash-Preview-09-2025

Anthropic

Standard ModeTools

SWE-bench Verified60.60

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Grok 4

xAI

Thinking Enabled

SWE-bench Verified58.60

LiveCodeBench82.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

GPT-4.1

OpenAI

SWE-bench Verified54.60

LiveCodeBench40.50

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Grok 4.1

xAI

SWE-bench Verified54.60

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Google Deep Mind

Thinking Enabled

SWE-bench Verified54.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Google Deep Mind

SWE-bench Verified50.00

LiveCodeBench41.10

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

OpenAI o3-mini (high)

OpenAI

SWE-bench Verified49.30

LiveCodeBench69.50

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Claude 3.5 Sonnet New

Anthropic

SWE-bench Verified49.00

LiveCodeBench38.70

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

OpenAI

SWE-bench Verified48.90

LiveCodeBench71.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Google Deep Mind

Thinking Enabled

SWE-bench Verified48.90

LiveCodeBench55.40

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

OpenAI

Thinking Level · High

SWE-bench Verified41.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

Proprietary

Sort by:

Showing 50 of 95 modelsView SWE-bench Verified benchmark page

Reference: Composite Coding Rankings

Rank

Model

License

Claude Mythos Preview

Extended ThinkingTools

Anthropic

93.90

—

77.80

87.30

Proprietary

Opus 4.7

Extended ThinkingTools

Anthropic

87.60

—

64.30

—

Proprietary

Claude Sonnet 5

Parallel · Thinking Enabled

Anthropic

82.00

—

Proprietary

Parallel · Thinking EnabledTools

Anthropic

82.00

—

Proprietary

Opus 4.5

Extended ThinkingTools

Anthropic

80.90

87.00

—

Proprietary

Claude Opus 4.6

Extended ThinkingTools

Anthropic

80.84

—

72.00

Proprietary

Gemini 3.1 Pro Preview

Thinking Level · HighTools

Google Deep Mind

80.60

91.70

54.20

—

Proprietary

Parallel · Thinking EnabledTools

Anthropic

80.20

—

Proprietary

GPT-5.2

Thinking Level · Extra HighTools

OpenAI

80.00

—

55.60

—

Proprietary

Claude Sonnet 4.6

Thinking Enabled

Anthropic

79.60

—

Proprietary

Qwen 3.6 Plus Preview

Thinking EnabledTools

阿里巴巴

78.80

—

56.60

—

Proprietary

Muse Spark

Thinking EnabledTools

Facebook AI研究实验室

77.40

—

Proprietary

Thinking EnabledTools

Anthropic

77.20

—

Proprietary

GPT-5.1-Codex-Max

Thinking Level · HighTools

OpenAI

76.80

—

Proprietary

Thinking Level · High

OpenAI

76.30

—

Proprietary

Gemini 3.0 Pro (Preview 11-2025)

Thinking Level · HighTools

OpenAI

76.30

—

Proprietary

Thinking Enabled

Google Deep Mind

76.20

92.00

—

Proprietary

Qwen3-Max-Thinking

Thinking Enabled

阿里巴巴

75.30

85.90

—

Proprietary

o3-pro

Thinking Level · High

OpenAI

75.00

—

Proprietary

Opus 4.1

Extended ThinkingTools

Anthropic

74.50

—

Proprietary

GPT-5 Codex

Thinking Level · High

OpenAI

74.50

—

Proprietary

Grok 4 Heavy

Parallel · Thinking EnabledTools

xAI

73.50

—

Proprietary

Thinking EnabledTools

Anthropic

73.30

—

Proprietary

GPT-5

Thinking Level · High

OpenAI

72.80

—

36.30

—

Proprietary

Thinking EnabledTools

Anthropic

72.70

—

Proprietary

Claude Opus 4

Anthropic

72.50

56.60

—

Proprietary

Grok 4 Code

xAI

72.00

—

Proprietary

Grok Code Fast 1

Thinking Enabled

xAI

70.80

—

Proprietary

GPT-5.1 Codex

Thinking Level · HighTools

OpenAI

70.40

85.50

—

Proprietary

Gemini 2.5 Pro Experimental 03-25

Thinking EnabledTools

Anthropic

70.30

—

Proprietary

Qwen3 Max (Preview)

阿里巴巴

69.60

57.50

—

Proprietary

OpenAI o3

Thinking Enabled

OpenAI

69.10

—

Proprietary

Gemini 3.0 Flash

Thinking Enabled

Google Deep Mind

68.70

—

Proprietary

OpenAI o4 - mini

Thinking Enabled

OpenAI

68.10

—

Proprietary

Gemini 2.5-Pro

Thinking Enabled

Google Deep Mind

67.20

—

Proprietary

Google Deep Mind

63.80

70.40

—

Proprietary

Gemini-2.5-Pro-Preview-05-06

Google Deep Mind

63.20

77.10

—

Proprietary

Standard ModeTools

Anthropic

62.30

—

Proprietary

Devstral Medium

MistralAI

61.60

—

Proprietary

Gemini 2.5 Flash-Preview-09-2025

Standard ModeTools

Anthropic

60.60

—

Proprietary

Grok 4

Thinking Enabled

xAI

58.60

82.00

—

Proprietary

GPT-4.1

OpenAI

54.60

40.50

—

Proprietary

Grok 4.1

xAI

54.60

—

Proprietary

Thinking Enabled

Google Deep Mind

54.00

—

Proprietary

Google Deep Mind

50.00

41.10

—

Proprietary

OpenAI o3-mini (high)

OpenAI

49.30

69.50

—

Proprietary

Claude 3.5 Sonnet New

Anthropic

49.00

38.70

—

Proprietary

OpenAI

48.90

71.00

—

Proprietary

Thinking Enabled

Google Deep Mind

48.90

55.40

—

Proprietary