本页面提供大模型代码编程能力评测排行榜,涵盖 SWE-Bench、LiveCodeBench、HumanEval 等数据集,对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。
所有评测基准的详细介绍可见: LLM 评测基准列表与介绍
数据来源:DataLearnerAI
数据地址:https://www.datalearner.com/leaderboards/category/code
|
排名
|
模型
|
SWE-bench Verified
|
LiveCodeBench
|
HumanEval
|
|---|---|---|---|---|
| 1 |
Claude Sonnet 4.5
parallel_thinking + 使用工具
|
82.00 | 未公布 | 未公布 |
| 2 |
Claude Sonnet 4
parallel_thinking + 使用工具
|
80.20 | 未公布 | 未公布 |
| 3 |
Claude Opus 4.1
parallel_thinking + 使用工具
|
79.40 | 未公布 | 未公布 |
| 4 |
Claude Sonnet 4.5
thinking + 使用工具
|
77.20 | 未公布 | 未公布 |
| 5 |
GPT-5.1-Codex-Max
high + 使用工具
|
76.80 | 未公布 | 未公布 |
| 6 |
GPT-5.1 Thinking
high
|
76.30 | 未公布 | 未公布 |
| 7 |
Gemini 3.0 Pro (Preview 11-2025)
thinking
|
76.20 | 未公布 | 未公布 |
| 8 |
o3-pro
high
|
75.00 | 未公布 | 未公布 |
| 9 |
Claude Opus 4.1
thinking + 使用工具
|
74.50 | 未公布 | 未公布 |
| 10 |
Claude Opus 4.1
thinking
|
74.50 | 未公布 | 未公布 |
| 11 |
GPT-5 Codex
high
|
74.50 | 未公布 | 未公布 |
| 12 |
Grok 4 Heavy
parallel_thinking + 使用工具
|
73.50 | 未公布 | 未公布 |
| 13 |
Haiku 4.5
thinking + 使用工具
|
73.30 | 未公布 | 未公布 |
| 14 |
GPT-5
high
|
72.80 | 未公布 | 未公布 |
| 15 |
Claude Sonnet 4
thinking + 使用工具
|
72.70 | 未公布 | 未公布 |
| 16 |
|
72.50 | 56.60 | 未公布 |
| 17 |
|
72.00 | 未公布 | 未公布 |
| 18 |
Kimi K2 Thinking
thinking + 使用工具
|
71.30 | 未公布 | 未公布 |
| 19 |
Grok Code Fast 1
thinking
|
70.80 | 未公布 | 未公布 |
| 20 |
GPT-5.1 Codex
high + 使用工具
|
70.40 | 85.50 | 未公布 |
| 21 |
|
70.30 | 未公布 | 未公布 |
| 22 |
|
69.60 | 57.50 | 未公布 |
| 23 |
MiniMax M2
thinking + 使用工具
|
69.40 | 未公布 | 未公布 |
| 24 |
Kimi K2 0905
thinking + 使用工具
|
69.20 | 未公布 | 未公布 |
| 25 |
|
69.20 | 未公布 | 未公布 |
| 26 |
OpenAI o3
thinking
|
69.10 | 未公布 | 未公布 |
| 27 |
|
68.40 | 74.90 | 未公布 |
| 28 |
OpenAI o4 - mini
thinking
|
68.10 | 未公布 | 未公布 |
| 29 |
GLM-4.6
thinking + 使用工具
|
68.00 | 84.50 | 未公布 |
| 30 |
|
68.00 | 56.00 | 未公布 |
| 31 |
DeepSeek V3.2-Exp
thinking + 使用工具
|
67.80 | 未公布 | 未公布 |
| 32 |
Gemini 2.5-Pro
thinking
|
67.20 | 未公布 | 未公布 |
| 33 |
|
67.00 | 未公布 | 未公布 |
| 34 |
|
66.00 | 56.40 | 未公布 |
| 35 |
|
64.80 | 59.00 | 未公布 |
| 36 |
GLM-4.5
thinking
|
64.20 | 72.90 | 未公布 |
| 37 |
|
63.80 | 70.40 | 未公布 |
| 38 |
|
63.20 | 77.10 | 未公布 |
| 39 |
|
61.60 | 未公布 | 未公布 |
| 40 |
|
60.60 | 51.00 | 未公布 |
| 41 |
GPT OSS 120B
thinking
|
60.10 | 未公布 | 未公布 |
| 42 |
Grok 4
thinking
|
58.60 | 82.00 | 未公布 |
| 43 |
GLM-4.5-Air
thinking
|
57.60 | 70.70 | 未公布 |
| 44 |
DeepSeek-R1-0528
thinking
|
57.60 | 73.30 | 未公布 |
| 45 |
|
56.00 | 65.00 | 未公布 |
| 46 |
|
55.60 | 62.30 | 未公布 |
| 47 |
|
54.60 | 40.50 | 未公布 |
| 48 |
Gemini 2.5 Flash-Preview-09-2025
thinking
|
54.00 | 未公布 | 未公布 |
| 49 |
|
53.60 | 未公布 | 未公布 |
| 50 |
|
51.80 | 53.70 | 未公布 |
| 51 |
|
51.60 | 未公布 | 未公布 |
| 52 |
|
50.00 | 41.10 | 未公布 |
| 53 |
|
49.30 | 69.50 | 97.60 |
| 54 |
|
49.20 | 65.90 | 未公布 |
| 55 |
|
49.00 | 38.70 | 93.70 |
| 56 |
|
48.90 | 71.00 | 未公布 |
| 57 |
Gemini 2.5 Flash
thinking
|
48.90 | 55.40 | 未公布 |
| 58 |
|
46.80 | 未公布 | 未公布 |
| 59 |
OpenAI o3-mini
thinking
|
40.80 | 未公布 | 未公布 |
| 60 |
|
38.80 | 49.20 | 未公布 |
| 61 |
|
38.00 | 46.40 | 未公布 |
| 62 |
|
34.40 | 70.70 | 未公布 |
| 63 |
|
31.00 | 35.10 | 90.00 |
| 64 |
|
27.60 | 34.30 | 未公布 |
| 65 |
|
23.60 | 未公布 | 未公布 |
| 66 |
|
21.40 | 29.10 | 未公布 |
| 67 |
Qwen3-235B-A22B-Thinking
thinking
|
未公布 | 74.10 | 未公布 |
| 68 |
|
未公布 | 35.10 | 未公布 |
| 69 |
|
未公布 | 75.80 | 未公布 |
| 70 |
|
未公布 | 77.10 | 未公布 |
| 71 |
Qwen3-4B-Thinking-2507
thinking
|
未公布 | 55.20 | 未公布 |
| 72 |
ERNIE-4.5-VL-424B-A47B-Base
thinking
|
未公布 | 38.80 | 未公布 |
| 73 |
|
未公布 | 35.80 | 未公布 |
| 74 |
DeepSeek-V3.1
thinking
|
未公布 | 74.80 | 未公布 |
| 75 |
|
未公布 | 56.60 | 未公布 |
| 76 |
Grok 4 Fast
thinking
|
未公布 | 80.00 | 未公布 |
| 77 |
GPT-5-mini
thinking
|
未公布 | 55.00 | 未公布 |
| 78 |
|
未公布 | 48.50 | 未公布 |
| 79 |
Haiku 4.5
thinking
|
未公布 | 62.00 | 未公布 |
| 80 |
Claude Sonnet 4.5
thinking
|
未公布 | 71.00 | 未公布 |
| 81 |
DeepSeek-V3.1 Terminus
thinking
|
未公布 | 80.00 | 未公布 |
| 82 |
|
未公布 | 55.00 | 未公布 |
| 83 |
Kimi K2 Thinking
thinking
|
未公布 | 83.10 | 未公布 |
| 84 |
DeepSeek V3.2-Exp
thinking
|
未公布 | 74.10 | 未公布 |
| 85 |
GLM-4.6
thinking
|
未公布 | 82.80 | 未公布 |
| 86 |
MiniMax M2
thinking
|
未公布 | 83.00 | 未公布 |
| 87 |
Claude Sonnet 4
thinking
|
未公布 | 66.00 | 未公布 |
| 88 |
Grok 4.1 Fast
thinking
|
未公布 | 82.00 | 未公布 |
| 89 |
|
未公布 | 未公布 | 66.50 |
| 90 |
|
未公布 | 64.90 | 未公布 |
| 91 |
|
未公布 | 未公布 | 62.20 |
| 92 |
|
未公布 | 未公布 | 88.10 |
| 93 |
|
未公布 | 未公布 | 87.20 |
| 94 |
|
未公布 | 未公布 | 88.41 |
| 95 |
|
未公布 | 24.60 | 未公布 |
| 96 |
|
未公布 | 未公布 | 19.00 |
| 97 |
|
未公布 | 30.20 | 89.00 |
| 98 |
|
未公布 | 32.00 | 91.00 |
| 99 |
|
未公布 | 52.00 | 92.40 |
| 100 |
|
未公布 | 65.60 | 未公布 |
| 101 |
|
未公布 | 65.90 | 未公布 |
| 102 |
|
未公布 | 73.80 | 未公布 |
| 103 |
|
未公布 | 67.40 | 未公布 |
| 104 |
|
未公布 | 未公布 | 73.20 |
| 105 |
|
未公布 | 79.40 | 未公布 |
| 106 |
|
未公布 | 未公布 | 42.10 |
| 107 |
|
未公布 | 未公布 | 28.00 |
| 108 |
|
未公布 | 未公布 | 74.40 |
| 109 |
|
未公布 | 未公布 | 29.30 |
| 110 |
|
未公布 | 未公布 | 37.80 |
| 111 |
|
未公布 | 未公布 | 33.50 |
| 112 |
|
未公布 | 未公布 | 57.90 |
| 113 |
|
未公布 | 未公布 | 48.10 |
| 114 |
|
未公布 | 未公布 | 74.10 |
| 115 |
|
未公布 | 未公布 | 88.40 |
| 116 |
|
未公布 | 未公布 | 84.90 |
| 117 |
|
未公布 | 未公布 | 89.00 |
| 118 |
|
未公布 | 未公布 | 89.00 |
| 119 |
|
未公布 | 未公布 | 59.10 |
| 120 |
|
未公布 | 未公布 | 90.20 |
| 121 |
|
未公布 | 51.80 | 未公布 |
| 122 |
|
未公布 | 34.60 | 89.00 |
| 123 |
|
未公布 | 61.80 | 未公布 |
| 124 |
Qwen3-8B
thinking
|
未公布 | 57.50 | 未公布 |
| 125 |
|
未公布 | 57.00 | 未公布 |
| 126 |
Gemini 2.5 Deep Think
deeper_thinking
|
未公布 | 87.60 | 未公布 |
| 127 |
|
未公布 | 67.10 | 未公布 |
| 128 |
|
未公布 | 未公布 | 92.00 |
| 129 |
|
未公布 | 29.00 | 未公布 |
| 130 |
|
未公布 | 43.20 | 未公布 |
| 131 |
Qwen3-235B-A22B-Thinking-2507
thinking
|
未公布 | 74.10 | 未公布 |
| 132 |
|
未公布 | 51.80 | 未公布 |
| 133 |
|
未公布 | 31.50 | 81.10 |
| 134 |
|
未公布 | 37.90 | 86.60 |
| 135 |
|
未公布 | 29.70 | 87.80 |
| 136 |
|
未公布 | 65.70 | 未公布 |
| 137 |
Qwen3-235B-A22B
thinking
|
未公布 | 70.70 | 未公布 |
| 138 |
|
未公布 | 67.10 | 未公布 |
| 139 |
|
未公布 | 59.60 | 未公布 |
| 140 |
|
未公布 | 38.80 | 未公布 |
| 141 |
|
未公布 | 63.90 | 未公布 |
| 142 |
|
未公布 | 28.90 | 未公布 |
| 143 |
|
未公布 | 80.40 | 未公布 |
| 144 |
|
未公布 | 59.36 | 未公布 |
| 145 |
|
未公布 | 55.84 | 未公布 |
| 146 |
|
未公布 | 70.60 | 未公布 |
| 147 |
|
未公布 | 51.20 | 88.40 |
| 148 |
|
未公布 | 49.40 | 未公布 |
| 149 |
|
未公布 | 33.30 | 80.50 |
| 150 |
|
未公布 | 33.30 | 88.40 |
| 151 |
|
未公布 | 43.40 | 未公布 |
| 152 |
|
未公布 | 32.80 | 未公布 |