DataLearner 标志DataLearnerAI
AI技术博客
大模型评测排行
大模型评测基准
AI大模型大全
AI资源仓库
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜,涵盖 SWE-Bench、LiveCodeBench、HumanEval 等数据集,对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于: 2025/10/12 20:54:51

评测切换

在这里切换评测,图表和表格会同步更新

筛选条件

排名
模型
SWE-bench Verified
LiveCodeBench
HumanEval
参数(亿)
开源情况
1
Claude Sonnet 4.5parallel_thinking + 使用工具
82.000.000.00—闭源
2
Claude Opus 4.5thinking
80.900.000.00—闭源
3
Claude Sonnet 4parallel_thinking + 使用工具
80.200.000.00—闭源
4
GPT-5.2thinking
80.000.000.00—闭源
5
Claude Opus 4.1parallel_thinking + 使用工具
79.400.000.00—闭源
6
Claude Sonnet 4.5thinking + 使用工具
77.200.000.00—闭源
7
GPT-5.1-Codex-Maxhigh + 使用工具
76.800.000.00—闭源
8
Kimi K2.5thinking
76.8085.000.0010000B免费商用
9
GPT-5.1high
76.300.000.00—闭源
10
Gemini 3.0 Pro (Preview 11-2025)thinking
76.2092.000.00—闭源
11
Qwen3-Max-Thinkingthinking
75.3085.900.0010000B闭源
12
o3-prohigh
75.000.000.00—闭源
13
GPT-5 Codexhigh
74.500.000.00—闭源
14
Claude Opus 4.1thinking + 使用工具
74.5065.000.00—闭源
15
Claude Opus 4.1thinking
74.500.000.00—闭源
16
M2.1thinking
74.000.000.002300B免费商用
17
GLM-4.7thinking + 使用工具
73.800.000.003580B免费商用
18
Grok 4 Heavyparallel_thinking + 使用工具
73.500.000.00—闭源
19
Haiku 4.5thinking + 使用工具
73.300.000.00—闭源
20
DeepSeek V3.2thinking + 使用工具
73.100.000.006710B免费商用
21
GPT-5high
72.800.000.00—闭源
22
Claude Sonnet 4thinking + 使用工具
72.700.000.00—闭源
23
Claude Opus 4
72.5056.600.00—闭源
24
Grok 4 Code
72.000.000.00—闭源
25
Kimi K2 Thinkingthinking + 使用工具
71.300.000.0010400B免费商用
26
Grok Code Fast 1thinking
70.800.000.00—闭源
27
GPT-5.1 Codexhigh + 使用工具
70.4085.500.00—闭源
28
Claude Sonnet 3.7
70.300.000.00—闭源
29
Qwen3 Max (Preview)
69.6057.500.00—闭源
30
MiniMax M2thinking + 使用工具
69.400.000.002300B免费商用
31
Kimi K2 0905thinking + 使用工具
69.200.000.0010000B免费商用
32
Kimi K2 0905
69.200.000.0010000B免费商用
33
OpenAI o3thinking
69.100.000.00—闭源
34
Gemini 3.0 Flashthinking
68.700.000.00—闭源
35
DeepSeek-V3.1 Terminus
68.4074.900.006710B免费商用
36
OpenAI o4 - minithinking
68.100.000.00—闭源
37
GLM-4.6
68.0056.000.003550B免费商用
38
GLM-4.6thinking + 使用工具
68.0084.500.003550B免费商用
39
DeepSeek V3.2-Expthinking + 使用工具
67.800.000.006710B免费商用
40
Gemini 2.5-Prothinking
67.200.000.00—闭源
41
Qwen3-Coder-480B-A35B
67.000.000.004800B免费商用
42
DeepSeek-V3.1
66.0056.400.006710B免费商用
43
Claude Sonnet 4.5
64.8059.000.00—闭源
44
GLM-4.5thinking
64.2072.900.003550B免费商用
45
Gemini 2.5 Pro Experimental 03-25
63.8070.400.00—闭源
46
Gemini-2.5-Pro-Preview-05-06
63.2077.100.00—闭源
47
Devstral Medium
61.600.000.00—闭源
48
Haiku 4.5
60.6051.000.00—闭源
49
GPT OSS 120Bthinking
60.100.000.00117B免费商用
50
GLM-4.7-Flashthinking
59.200.000.00310B免费商用
51
Grok 4thinking
58.6082.000.00—闭源
52
DeepSeek-R1-0528thinking
57.6073.300.006710B免费商用
53
GLM-4.5-Airthinking
57.6070.700.001060B免费商用
54
MiniMax-M1-80k
56.0065.000.004560B免费商用
55
MiniMax-M1-40k
55.6062.300.004560B免费商用
56
GPT-4.1
54.6040.500.00—闭源
57
Gemini 2.5 Flash-Preview-09-2025thinking
54.000.000.00—闭源
58
Devstral Small 1.1
53.600.000.00240B免费商用
59
Kimi K2
51.8053.700.0010000B免费商用
60
Qwen3-Coder-Flash
51.600.000.00305B免费商用
61
Gemini 2.5 Flash
50.0041.100.00—闭源
62
OpenAI o3-mini (high)
49.3069.5097.60—闭源
63
DeepSeek-R1
49.2065.900.006710B免费商用
64
Claude 3.5 Sonnet New
49.0038.7093.70—闭源
65
OpenAI o1
48.9071.000.00—闭源
66
Gemini 2.5 Flashthinking
48.9055.400.00—闭源
67
Devstral Small 1.0
46.800.000.00240B免费商用
68
OpenAI o3-minithinking
40.800.000.00—闭源
69
DeepSeek-V3-0324
38.8049.200.006710B免费商用
70
GPT-4.5
38.0046.400.00—闭源
71
Qwen3-235B-A22B
34.4070.700.002350B免费商用
72
GPT OSS 20Bthinking
34.000.000.00210B免费商用
73
GPT-4o
31.0035.1090.00—闭源
74
Gemini 2.5 Flash-Lite
27.6034.300.00—闭源
75
GPT-4.1 mini
23.600.000.00—闭源
76
Qwen3-30B-A3B-2507thinking
22.000.000.00305B免费商用
77
Gemini 2.0 Flash Experimental
21.4029.100.00—闭源
78
DeepSeek V3.2-Expthinking
0.0074.100.006710B免费商用
79
MiniMax M2thinking
0.0083.000.002300B免费商用
80
Qwen3-32B
0.0065.700.00320B免费商用
81
Kimi-k1.6-IOI
0.0065.900.00—闭源
82
Claude Sonnet 4thinking
0.0066.000.00—闭源
83
Step3
0.0067.100.003210B免费商用
84
OpenAI o3
0.0075.800.00—闭源
85
DeepSeek-V3.1thinking
0.0074.800.006710B免费商用
86
Qwen3-235B-A22B-Thinking-2507thinking
0.0074.100.002350B免费商用
87
Qwen3-235B-A22B-Thinkingthinking
0.0074.100.00305B免费商用
88
OpenAI o3-mini (medium)
0.0067.400.00—闭源
89
Kimi-k1.6-IOI-high
0.0073.800.00—闭源
90
Claude Sonnet 4.5thinking
0.0071.000.00—闭源
91
Qwen3-235B-A22Bthinking
0.0070.700.002350B免费商用
92
Grok 3
0.0070.600.00—闭源
93
Gemini 2.5-Pro
0.0077.100.00—闭源
94
Pangu Embedded
0.0067.100.0070B免费商用
95
GLM-4-9B-Chat
0.0051.800.0090B免费商用
96
Gemma 3 - 12B (IT)
0.0024.600.00120B免费商用
97
Gemini 2.0 Flash-Lite
0.0028.900.00—闭源
98
Qwen3-30B-A3B
0.0029.000.00305B免费商用
99
Llama 4 Scout Instruct
0.0032.800.001090B免费商用
100
Qwen3-4B-2507
0.0035.100.0040B免费商用
101
GPT-4o(2025-03-27)
0.0035.800.00—闭源
102
ERNIE-4.5-300B-A47B
0.0038.800.003000B免费商用
103
ERNIE-4.5-VL-424B-A47B-Basethinking
0.0038.800.004240B免费商用
104
Qwen3-30B-A3B-2507
0.0043.200.00305B免费商用
105
Llama 4 Maverick Instruct
0.0043.400.004000B免费商用
106
Claude Sonnet 4
0.0048.500.00—闭源
107
Llama 4 Behemoth Instruct
0.0049.400.0020000B免费商用
108
Qwen3-235B-A22B-2507
0.0051.800.002350B免费商用
109
QwQ-Max-Preview
0.0065.600.00—免费商用
110
DeepSeek V3.2-Exp
0.0055.000.006710B免费商用
111
GPT-5-minithinking
0.0055.000.00—闭源
112
Qwen3-4B-Thinking-2507thinking
0.0055.200.0040B免费商用
113
Magistral-Small-2506
0.0055.840.00240B免费商用
114
Qwen3-Next
0.0056.600.00800B免费商用
115
Hunyuan-7B
0.0057.000.0070B免费商用
116
Qwen3-8Bthinking
0.0057.500.0080B免费商用
117
Magistral-Medium-2506
0.0059.360.00—闭源
118
Pangu Pro MoE
0.0059.600.00719B免费商用
119
Qwen3-8B
0.0061.800.0080B免费商用
120
Haiku 4.5thinking
0.0062.000.00—闭源
121
Hunyuan-A13B-Instruct
0.0063.900.00800B免费商用
122
Hunyuan-T1
0.0064.900.00—闭源
123
Qwen2.5-Max
0.000.0073.20—闭源
124
Grok 2
0.000.0088.402690B免费商用
125
Claude 3.5 Haiku
0.000.0088.10—闭源
126
Gemma 3 - 27B (IT)
0.0029.7087.80270B免费商用
127
GPT-4o mini
0.000.0087.20—闭源
128
Codestral 25.01
0.0037.9086.60—闭源
129
Claude3-Opus
0.000.0084.90—闭源
130
Codestral
0.0031.5081.10220B不可商用
131
Llama3.1-70B-Instruct
0.0033.3080.50700B免费商用
132
Phi-4-mini-instruct (3.8B)
0.000.0074.4038B免费商用
133
Grok-1.5
0.000.0074.10—闭源
134
Llama3.3-70B-Instruct
0.0033.3088.40700B免费商用
135
Llama3.1-8B-Instruct
0.000.0066.5080B免费商用
136
C4AI Aya Vision 32B
0.000.0062.20320B不可商用
137
Qwen2.5-72B
0.000.0059.10727B免费商用
138
Qwen2.5-7B
0.000.0057.9070B免费商用
139
Moonlight-16B-A3B-Instruct
0.000.0048.10160B免费商用
140
Qwen2.5-3B
0.000.0042.1030B免费商用
141
Gemma 2 - 9B
0.000.0037.8090B免费商用
142
Llama3.1-8B
0.000.0033.5080B免费商用
143
Mistral-7B-Instruct-v0.3
0.000.0029.3070B免费商用
144
Llama-3.2-3B
0.000.0028.0032B免费商用
145
Gemini 2.5 Deep Thinkdeeper_thinking
0.0087.600.00—闭源
146
DeepSeek-V3.1 Terminusthinking
0.0080.000.006710B免费商用
147
Grok 4 Fastthinking
0.0080.000.00—闭源
148
Gemini 2.5 Pro Deep Think
0.0080.400.00—闭源
149
Grok 4.1 Fastthinking
0.0082.000.00—闭源
150
GLM-4.6thinking
0.0082.800.003550B免费商用
151
QwQ-32B
0.000.0019.00325B免费商用
152
Kimi K2 Thinkingthinking
0.0083.100.0010400B免费商用
153
DeepSeek V3.2thinking
0.0083.300.006710B免费商用
154
GLM-4.7thinking
0.0084.900.003580B免费商用
155
Claude Opus 4.5thinking + 使用工具
0.0087.000.00—闭源
156
Grok-3 - Reasoning Beta
0.0079.400.00—闭源
157
OpenAI o1-mini
0.0052.0092.40—闭源
158
Claude 3.5 Sonnet
0.000.0092.00—闭源
159
Hunyuan-TurboS
0.0032.0091.00—闭源
160
GPT-4o(2024-11-20)
0.000.0090.20—闭源
161
Gemini 1.5 Pro
0.000.0089.00—闭源
162
Llama3.1-405B Instruct
0.0030.2089.004050B免费商用
163
Amazon Nova Pro
0.000.0089.00—闭源
164
DeepSeek-V3
0.0034.6089.006810B免费商用
165
Mistral-Small-3.1-24B-Instruct-2503
0.000.0088.41240B免费商用
166
Qwen2.5-32B
0.0051.2088.40320B免费商用
1
Claude Sonnet 4.5parallel_thinking + 使用工具
0•闭源
SWE-bench Verified82.00
LiveCodeBench0.00
HumanEval0.00
2
Claude Opus 4.5thinking
0•闭源
SWE-bench Verified80.90
LiveCodeBench0.00
HumanEval0.00
3
Claude Sonnet 4parallel_thinking + 使用工具
0•闭源
SWE-bench Verified80.20
LiveCodeBench0.00
HumanEval0.00
4
GPT-5.2thinking
0•闭源
SWE-bench Verified80.00
LiveCodeBench0.00
HumanEval0.00
5
Claude Opus 4.1parallel_thinking + 使用工具
0•闭源
SWE-bench Verified79.40
LiveCodeBench0.00
HumanEval0.00
6
Claude Sonnet 4.5thinking + 使用工具
0•闭源
SWE-bench Verified77.20
LiveCodeBench0.00
HumanEval0.00
7
GPT-5.1-Codex-Maxhigh + 使用工具
0•闭源
SWE-bench Verified76.80
LiveCodeBench0.00
HumanEval0.00
8
Kimi K2.5thinking
10000B•免费商用
SWE-bench Verified76.80
LiveCodeBench85.00
HumanEval0.00
9
GPT-5.1high
0•闭源
SWE-bench Verified76.30
LiveCodeBench0.00
HumanEval0.00
10
Gemini 3.0 Pro (Preview 11-2025)thinking
0•闭源
SWE-bench Verified76.20
LiveCodeBench92.00
HumanEval0.00
11
Qwen3-Max-Thinkingthinking
10000B•闭源
SWE-bench Verified75.30
LiveCodeBench85.90
HumanEval0.00
12
o3-prohigh
•闭源
SWE-bench Verified75.00
LiveCodeBench0.00
HumanEval0.00
13
GPT-5 Codexhigh
0•闭源
SWE-bench Verified74.50
LiveCodeBench0.00
HumanEval0.00
14
Claude Opus 4.1thinking + 使用工具
0•闭源
SWE-bench Verified74.50
LiveCodeBench65.00
HumanEval0.00
15
Claude Opus 4.1thinking
0•闭源
SWE-bench Verified74.50
LiveCodeBench0.00
HumanEval0.00
16
M2.1thinking
2300B•免费商用
SWE-bench Verified74.00
LiveCodeBench0.00
HumanEval0.00
17
GLM-4.7thinking + 使用工具
3580B•免费商用
SWE-bench Verified73.80
LiveCodeBench0.00
HumanEval0.00
18
Grok 4 Heavyparallel_thinking + 使用工具
0•闭源
SWE-bench Verified73.50
LiveCodeBench0.00
HumanEval0.00
19
Haiku 4.5thinking + 使用工具
0•闭源
SWE-bench Verified73.30
LiveCodeBench0.00
HumanEval0.00
20
DeepSeek V3.2thinking + 使用工具
6710B•免费商用
SWE-bench Verified73.10
LiveCodeBench0.00
HumanEval0.00
21
GPT-5high
0•闭源
SWE-bench Verified72.80
LiveCodeBench0.00
HumanEval0.00
22
Claude Sonnet 4thinking + 使用工具
0•闭源
SWE-bench Verified72.70
LiveCodeBench0.00
HumanEval0.00
23
Claude Opus 4
•闭源
SWE-bench Verified72.50
LiveCodeBench56.60
HumanEval0.00
24
Grok 4 Code
0•闭源
SWE-bench Verified72.00
LiveCodeBench0.00
HumanEval0.00
25
Kimi K2 Thinkingthinking + 使用工具
10400B•免费商用
SWE-bench Verified71.30
LiveCodeBench0.00
HumanEval0.00
26
Grok Code Fast 1thinking
0•闭源
SWE-bench Verified70.80
LiveCodeBench0.00
HumanEval0.00
27
GPT-5.1 Codexhigh + 使用工具
0•闭源
SWE-bench Verified70.40
LiveCodeBench85.50
HumanEval0.00
28
Claude Sonnet 3.7
•闭源
SWE-bench Verified70.30
LiveCodeBench0.00
HumanEval0.00
29
Qwen3 Max (Preview)
0•闭源
SWE-bench Verified69.60
LiveCodeBench57.50
HumanEval0.00
30
MiniMax M2thinking + 使用工具
2300B•免费商用
SWE-bench Verified69.40
LiveCodeBench0.00
HumanEval0.00
31
Kimi K2 0905thinking + 使用工具
10000B•免费商用
SWE-bench Verified69.20
LiveCodeBench0.00
HumanEval0.00
32
Kimi K2 0905
10000B•免费商用
SWE-bench Verified69.20
LiveCodeBench0.00
HumanEval0.00
33
OpenAI o3thinking
0•闭源
SWE-bench Verified69.10
LiveCodeBench0.00
HumanEval0.00
34
Gemini 3.0 Flashthinking
0•闭源
SWE-bench Verified68.70
LiveCodeBench0.00
HumanEval0.00
35
DeepSeek-V3.1 Terminus
6710B•免费商用
SWE-bench Verified68.40
LiveCodeBench74.90
HumanEval0.00
36
OpenAI o4 - minithinking
•闭源
SWE-bench Verified68.10
LiveCodeBench0.00
HumanEval0.00
37
GLM-4.6
3550B•免费商用
SWE-bench Verified68.00
LiveCodeBench56.00
HumanEval0.00
38
GLM-4.6thinking + 使用工具
3550B•免费商用
SWE-bench Verified68.00
LiveCodeBench84.50
HumanEval0.00
39
DeepSeek V3.2-Expthinking + 使用工具
6710B•免费商用
SWE-bench Verified67.80
LiveCodeBench0.00
HumanEval0.00
40
Gemini 2.5-Prothinking
0•闭源
SWE-bench Verified67.20
LiveCodeBench0.00
HumanEval0.00
41
Qwen3-Coder-480B-A35B
4800B•免费商用
SWE-bench Verified67.00
LiveCodeBench0.00
HumanEval0.00
42
DeepSeek-V3.1
6710B•免费商用
SWE-bench Verified66.00
LiveCodeBench56.40
HumanEval0.00
43
Claude Sonnet 4.5
0•闭源
SWE-bench Verified64.80
LiveCodeBench59.00
HumanEval0.00
44
GLM-4.5thinking
3550B•免费商用
SWE-bench Verified64.20
LiveCodeBench72.90
HumanEval0.00
45
Gemini 2.5 Pro Experimental 03-25
0•闭源
SWE-bench Verified63.80
LiveCodeBench70.40
HumanEval0.00
46
Gemini-2.5-Pro-Preview-05-06
•闭源
SWE-bench Verified63.20
LiveCodeBench77.10
HumanEval0.00
47
Devstral Medium
0•闭源
SWE-bench Verified61.60
LiveCodeBench0.00
HumanEval0.00
48
Haiku 4.5
0•闭源
SWE-bench Verified60.60
LiveCodeBench51.00
HumanEval0.00
49
GPT OSS 120Bthinking
117B•免费商用
SWE-bench Verified60.10
LiveCodeBench0.00
HumanEval0.00
50
GLM-4.7-Flashthinking
310B•免费商用
SWE-bench Verified59.20
LiveCodeBench0.00
HumanEval0.00
51
Grok 4thinking
0•闭源
SWE-bench Verified58.60
LiveCodeBench82.00
HumanEval0.00
52
DeepSeek-R1-0528thinking
6710B•免费商用
SWE-bench Verified57.60
LiveCodeBench73.30
HumanEval0.00
53
GLM-4.5-Airthinking
1060B•免费商用
SWE-bench Verified57.60
LiveCodeBench70.70
HumanEval0.00
54
MiniMax-M1-80k
4560B•免费商用
SWE-bench Verified56.00
LiveCodeBench65.00
HumanEval0.00
55
MiniMax-M1-40k
4560B•免费商用
SWE-bench Verified55.60
LiveCodeBench62.30
HumanEval0.00
56
GPT-4.1
•闭源
SWE-bench Verified54.60
LiveCodeBench40.50
HumanEval0.00
57
Gemini 2.5 Flash-Preview-09-2025thinking
0•闭源
SWE-bench Verified54.00
LiveCodeBench0.00
HumanEval0.00
58
Devstral Small 1.1
240B•免费商用
SWE-bench Verified53.60
LiveCodeBench0.00
HumanEval0.00
59
Kimi K2
10000B•免费商用
SWE-bench Verified51.80
LiveCodeBench53.70
HumanEval0.00
60
Qwen3-Coder-Flash
305B•免费商用
SWE-bench Verified51.60
LiveCodeBench0.00
HumanEval0.00
61
Gemini 2.5 Flash
•闭源
SWE-bench Verified50.00
LiveCodeBench41.10
HumanEval0.00
62
OpenAI o3-mini (high)
•闭源
SWE-bench Verified49.30
LiveCodeBench69.50
HumanEval97.60
63
DeepSeek-R1
6710B•免费商用
SWE-bench Verified49.20
LiveCodeBench65.90
HumanEval0.00
64
Claude 3.5 Sonnet New
0•闭源
SWE-bench Verified49.00
LiveCodeBench38.70
HumanEval93.70
65
OpenAI o1
•闭源
SWE-bench Verified48.90
LiveCodeBench71.00
HumanEval0.00
66
Gemini 2.5 Flashthinking
•闭源
SWE-bench Verified48.90
LiveCodeBench55.40
HumanEval0.00
67
Devstral Small 1.0
240B•免费商用
SWE-bench Verified46.80
LiveCodeBench0.00
HumanEval0.00
68
OpenAI o3-minithinking
0•闭源
SWE-bench Verified40.80
LiveCodeBench0.00
HumanEval0.00
69
DeepSeek-V3-0324
6710B•免费商用
SWE-bench Verified38.80
LiveCodeBench49.20
HumanEval0.00
70
GPT-4.5
•闭源
SWE-bench Verified38.00
LiveCodeBench46.40
HumanEval0.00
71
Qwen3-235B-A22B
2350B•免费商用
SWE-bench Verified34.40
LiveCodeBench70.70
HumanEval0.00
72
GPT OSS 20Bthinking
210B•免费商用
SWE-bench Verified34.00
LiveCodeBench0.00
HumanEval0.00
73
GPT-4o
0•闭源
SWE-bench Verified31.00
LiveCodeBench35.10
HumanEval90.00
74
Gemini 2.5 Flash-Lite
•闭源
SWE-bench Verified27.60
LiveCodeBench34.30
HumanEval0.00
75
GPT-4.1 mini
•闭源
SWE-bench Verified23.60
LiveCodeBench0.00
HumanEval0.00
76
Qwen3-30B-A3B-2507thinking
305B•免费商用
SWE-bench Verified22.00
LiveCodeBench0.00
HumanEval0.00
77
Gemini 2.0 Flash Experimental
•闭源
SWE-bench Verified21.40
LiveCodeBench29.10
HumanEval0.00
78
DeepSeek V3.2-Expthinking
6710B•免费商用
SWE-bench Verified0.00
LiveCodeBench74.10
HumanEval0.00
79
MiniMax M2thinking
2300B•免费商用
SWE-bench Verified0.00
LiveCodeBench83.00
HumanEval0.00
80
Qwen3-32B
320B•免费商用
SWE-bench Verified0.00
LiveCodeBench65.70
HumanEval0.00
81
Kimi-k1.6-IOI
•闭源
SWE-bench Verified0.00
LiveCodeBench65.90
HumanEval0.00
82
Claude Sonnet 4thinking
0•闭源
SWE-bench Verified0.00
LiveCodeBench66.00
HumanEval0.00
83
Step3
3210B•免费商用
SWE-bench Verified0.00
LiveCodeBench67.10
HumanEval0.00
84
OpenAI o3
0•闭源
SWE-bench Verified0.00
LiveCodeBench75.80
HumanEval0.00
85
DeepSeek-V3.1thinking
6710B•免费商用
SWE-bench Verified0.00
LiveCodeBench74.80
HumanEval0.00
86
Qwen3-235B-A22B-Thinking-2507thinking
2350B•免费商用
SWE-bench Verified0.00
LiveCodeBench74.10
HumanEval0.00
87
Qwen3-235B-A22B-Thinkingthinking
305B•免费商用
SWE-bench Verified0.00
LiveCodeBench74.10
HumanEval0.00
88
OpenAI o3-mini (medium)
•闭源
SWE-bench Verified0.00
LiveCodeBench67.40
HumanEval0.00
89
Kimi-k1.6-IOI-high
•闭源
SWE-bench Verified0.00
LiveCodeBench73.80
HumanEval0.00
90
Claude Sonnet 4.5thinking
0•闭源
SWE-bench Verified0.00
LiveCodeBench71.00
HumanEval0.00
91
Qwen3-235B-A22Bthinking
2350B•免费商用
SWE-bench Verified0.00
LiveCodeBench70.70
HumanEval0.00
92
Grok 3
•闭源
SWE-bench Verified0.00
LiveCodeBench70.60
HumanEval0.00
93
Gemini 2.5-Pro
0•闭源
SWE-bench Verified0.00
LiveCodeBench77.10
HumanEval0.00
94
Pangu Embedded
70B•免费商用
SWE-bench Verified0.00
LiveCodeBench67.10
HumanEval0.00
95
GLM-4-9B-Chat
90B•免费商用
SWE-bench Verified0.00
LiveCodeBench51.80
HumanEval0.00
96
Gemma 3 - 12B (IT)
120B•免费商用
SWE-bench Verified0.00
LiveCodeBench24.60
HumanEval0.00
97
Gemini 2.0 Flash-Lite
•闭源
SWE-bench Verified0.00
LiveCodeBench28.90
HumanEval0.00
98
Qwen3-30B-A3B
305B•免费商用
SWE-bench Verified0.00
LiveCodeBench29.00
HumanEval0.00
99
Llama 4 Scout Instruct
1090B•免费商用
SWE-bench Verified0.00
LiveCodeBench32.80
HumanEval0.00
100
Qwen3-4B-2507
40B•免费商用
SWE-bench Verified0.00
LiveCodeBench35.10
HumanEval0.00
101
GPT-4o(2025-03-27)
0•闭源
SWE-bench Verified0.00
LiveCodeBench35.80
HumanEval0.00
102
ERNIE-4.5-300B-A47B
3000B•免费商用
SWE-bench Verified0.00
LiveCodeBench38.80
HumanEval0.00
103
ERNIE-4.5-VL-424B-A47B-Basethinking
4240B•免费商用
SWE-bench Verified0.00
LiveCodeBench38.80
HumanEval0.00
104
Qwen3-30B-A3B-2507
305B•免费商用
SWE-bench Verified0.00
LiveCodeBench43.20
HumanEval0.00
105
Llama 4 Maverick Instruct
4000B•免费商用
SWE-bench Verified0.00
LiveCodeBench43.40
HumanEval0.00
106
Claude Sonnet 4
0•闭源
SWE-bench Verified0.00
LiveCodeBench48.50
HumanEval0.00
107
Llama 4 Behemoth Instruct
20000B•免费商用
SWE-bench Verified0.00
LiveCodeBench49.40
HumanEval0.00
108
Qwen3-235B-A22B-2507
2350B•免费商用
SWE-bench Verified0.00
LiveCodeBench51.80
HumanEval0.00
109
QwQ-Max-Preview
•免费商用
SWE-bench Verified0.00
LiveCodeBench65.60
HumanEval0.00
110
DeepSeek V3.2-Exp
6710B•免费商用
SWE-bench Verified0.00
LiveCodeBench55.00
HumanEval0.00
111
GPT-5-minithinking
0•闭源
SWE-bench Verified0.00
LiveCodeBench55.00
HumanEval0.00
112
Qwen3-4B-Thinking-2507thinking
40B•免费商用
SWE-bench Verified0.00
LiveCodeBench55.20
HumanEval0.00
113
Magistral-Small-2506
240B•免费商用
SWE-bench Verified0.00
LiveCodeBench55.84
HumanEval0.00
114
Qwen3-Next
800B•免费商用
SWE-bench Verified0.00
LiveCodeBench56.60
HumanEval0.00
115
Hunyuan-7B
70B•免费商用
SWE-bench Verified0.00
LiveCodeBench57.00
HumanEval0.00
116
Qwen3-8Bthinking
80B•免费商用
SWE-bench Verified0.00
LiveCodeBench57.50
HumanEval0.00
117
Magistral-Medium-2506
•闭源
SWE-bench Verified0.00
LiveCodeBench59.36
HumanEval0.00
118
Pangu Pro MoE
719B•免费商用
SWE-bench Verified0.00
LiveCodeBench59.60
HumanEval0.00
119
Qwen3-8B
80B•免费商用
SWE-bench Verified0.00
LiveCodeBench61.80
HumanEval0.00
120
Haiku 4.5thinking
0•闭源
SWE-bench Verified0.00
LiveCodeBench62.00
HumanEval0.00
121
Hunyuan-A13B-Instruct
800B•免费商用
SWE-bench Verified0.00
LiveCodeBench63.90
HumanEval0.00
122
Hunyuan-T1
0•闭源
SWE-bench Verified0.00
LiveCodeBench64.90
HumanEval0.00
123
Qwen2.5-Max
•闭源
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval73.20
124
Grok 2
2690B•免费商用
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval88.40
125
Claude 3.5 Haiku
0•闭源
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval88.10
126
Gemma 3 - 27B (IT)
270B•免费商用
SWE-bench Verified0.00
LiveCodeBench29.70
HumanEval87.80
127
GPT-4o mini
0•闭源
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval87.20
128
Codestral 25.01
•闭源
SWE-bench Verified0.00
LiveCodeBench37.90
HumanEval86.60
129
Claude3-Opus
0•闭源
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval84.90
130
Codestral
220B•不可商用
SWE-bench Verified0.00
LiveCodeBench31.50
HumanEval81.10
131
Llama3.1-70B-Instruct
700B•免费商用
SWE-bench Verified0.00
LiveCodeBench33.30
HumanEval80.50
132
Phi-4-mini-instruct (3.8B)
38B•免费商用
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval74.40
133
Grok-1.5
•闭源
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval74.10
134
Llama3.3-70B-Instruct
700B•免费商用
SWE-bench Verified0.00
LiveCodeBench33.30
HumanEval88.40
135
Llama3.1-8B-Instruct
80B•免费商用
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval66.50
136
C4AI Aya Vision 32B
320B•不可商用
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval62.20
137
Qwen2.5-72B
727B•免费商用
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval59.10
138
Qwen2.5-7B
70B•免费商用
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval57.90
139
Moonlight-16B-A3B-Instruct
160B•免费商用
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval48.10
140
Qwen2.5-3B
30B•免费商用
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval42.10
141
Gemma 2 - 9B
90B•免费商用
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval37.80
142
Llama3.1-8B
80B•免费商用
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval33.50
143
Mistral-7B-Instruct-v0.3
70B•免费商用
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval29.30
144
Llama-3.2-3B
32B•免费商用
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval28.00
145
Gemini 2.5 Deep Thinkdeeper_thinking
0•闭源
SWE-bench Verified0.00
LiveCodeBench87.60
HumanEval0.00
146
DeepSeek-V3.1 Terminusthinking
6710B•免费商用
SWE-bench Verified0.00
LiveCodeBench80.00
HumanEval0.00
147
Grok 4 Fastthinking
0•闭源
SWE-bench Verified0.00
LiveCodeBench80.00
HumanEval0.00
148
Gemini 2.5 Pro Deep Think
•闭源
SWE-bench Verified0.00
LiveCodeBench80.40
HumanEval0.00
149
Grok 4.1 Fastthinking
0•闭源
SWE-bench Verified0.00
LiveCodeBench82.00
HumanEval0.00
150
GLM-4.6thinking
3550B•免费商用
SWE-bench Verified0.00
LiveCodeBench82.80
HumanEval0.00
151
QwQ-32B
325B•免费商用
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval19.00
152
Kimi K2 Thinkingthinking
10400B•免费商用
SWE-bench Verified0.00
LiveCodeBench83.10
HumanEval0.00
153
DeepSeek V3.2thinking
6710B•免费商用
SWE-bench Verified0.00
LiveCodeBench83.30
HumanEval0.00
154
GLM-4.7thinking
3580B•免费商用
SWE-bench Verified0.00
LiveCodeBench84.90
HumanEval0.00
155
Claude Opus 4.5thinking + 使用工具
0•闭源
SWE-bench Verified0.00
LiveCodeBench87.00
HumanEval0.00
156
Grok-3 - Reasoning Beta
•闭源
SWE-bench Verified0.00
LiveCodeBench79.40
HumanEval0.00
157
OpenAI o1-mini
•闭源
SWE-bench Verified0.00
LiveCodeBench52.00
HumanEval92.40
158
Claude 3.5 Sonnet
•闭源
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval92.00
159
Hunyuan-TurboS
•闭源
SWE-bench Verified0.00
LiveCodeBench32.00
HumanEval91.00
160
GPT-4o(2024-11-20)
•闭源
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval90.20
161
Gemini 1.5 Pro
0•闭源
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval89.00
162
Llama3.1-405B Instruct
4050B•免费商用
SWE-bench Verified0.00
LiveCodeBench30.20
HumanEval89.00
163
Amazon Nova Pro
•闭源
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval89.00
164
DeepSeek-V3
6810B•免费商用
SWE-bench Verified0.00
LiveCodeBench34.60
HumanEval89.00
165
Mistral-Small-3.1-24B-Instruct-2503
240B•免费商用
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval88.41
166
Qwen2.5-32B
320B•免费商用
SWE-bench Verified0.00
LiveCodeBench51.20
HumanEval88.40