DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
Tools
语言中文

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜,涵盖 SWE-Bench、LiveCodeBench、HumanEval 等数据集,对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于: 2025/10/12 20:54:51

评测切换

在这里切换评测,图表和表格会同步更新

SWE-bench VerifiedLiveCodeBenchHumanEval

还有更多评测基准

进入评测基准列表,按类别/语言快速筛选

更多评测

筛选

全部3B及以下7B13B34B65B100B及以上
全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

大模型性能评测结果

数据来源:DataLearnerAI
排名模型SWE-bench VerifiedLiveCodeBenchHumanEval参数(亿)开源情况
1Claude Sonnet 4.582.000.000.00—不开源
2Claude Sonnet 582.000.000.00—不开源
3Claude Opus 4.580.900.000.00—不开源
4Claude Opus 4.680.840.000.00—不开源
5Gemini 3.1 Pro Preview80.602887.000.00—不开源
6Claude Sonnet 480.200.000.00—不开源
7MiniMax M2.580.200.000.002290B免费商用
8GPT-5.280.000.000.00—不开源
9Claude Sonnet 4.679.600.000.00—不开源
10Claude Opus 4.179.400.000.00—不开源
11GLM-577.800.000.007440B免费商用
12Claude Sonnet 4.577.200.000.00—不开源
13GPT-5.1-Codex-Max76.800.000.00—不开源
14Kimi K2.576.800.000.0010000B免费商用
15Qwen3.5-397B-A17B76.400.000.00397B免费商用
16Qwen3.5-397B-A17B76.400.000.00397B免费商用
17GPT-5.176.300.000.00—不开源
18GPT-5.176.300.000.00—不开源
19Gemini 3.0 Pro (Preview 11-2025)76.2092.000.00—不开源
20Qwen3-Max-Thinking75.3085.900.0010000B不开源
21o3-pro75.000.000.00—不开源
22M2.174.800.000.002300B免费商用
23Claude Opus 4.174.500.000.00—不开源
24Claude Opus 4.174.5065.000.00—不开源
25GPT-5 Codex74.500.000.00—不开源
26Step 3.5 Flash74.4086.400.001960B免费商用
27GLM-4.773.800.000.003580B免费商用
28Grok 4 Heavy73.500.000.00—不开源
29Haiku 4.573.300.000.00—不开源
30DeepSeek V3.273.100.000.006710B免费商用
31GPT-572.800.000.00—不开源
32Claude Sonnet 472.700.000.00—不开源
33Claude Opus 472.5056.600.00—不开源
34Qwen3.5-27B72.400.000.00270B免费商用
35Grok 4 Code72.000.000.00—不开源
36Kimi K2 Thinking71.300.000.0010400B免费商用
37Grok Code Fast 170.800.000.00—不开源
38Qwen3-Coder-Next70.600.000.0080B免费商用
39GPT-5.1 Codex70.4085.500.00—不开源
40Claude Sonnet 3.770.300.000.00—不开源
41DeepSeek V3.270.2083.300.006710B免费商用
42Qwen3 Max (Preview)69.6057.500.00—不开源
43MiniMax M269.400.000.002300B免费商用
44Kimi K2 090569.200.000.0010000B免费商用
45Kimi K2 090569.200.000.0010000B免费商用
46OpenAI o369.100.000.00—不开源
47Gemini 3.0 Flash68.700.000.00—不开源
48DeepSeek-V3.1 Terminus68.4074.900.006710B免费商用
49OpenAI o4 - mini68.100.000.00—不开源
50GLM-4.668.0056.000.003550B免费商用
51GLM-4.668.0084.500.003550B免费商用
52DeepSeek V3.2-Exp67.800.000.006710B免费商用
53Gemini 2.5-Pro67.200.000.00—不开源
54Qwen3-Coder-480B-A35B67.000.000.004800B免费商用
55DeepSeek-V3.166.0056.400.006710B免费商用
56GLM-4.564.2072.900.003550B免费商用
57Gemini 2.5 Pro Experimental 03-2563.8070.400.00—不开源
58Gemini-2.5-Pro-Preview-05-0663.2077.100.00—不开源
59Claude Sonnet 3.762.300.000.00—不开源
60Devstral Medium61.600.000.00—不开源
61Haiku 4.560.600.000.00—不开源
62GPT OSS 120B60.100.000.00117B免费商用
63GLM-4.7-Flash59.200.000.00310B免费商用
64Grok 458.6082.000.00—不开源
65DeepSeek-R1-052857.6073.300.006710B免费商用
66GLM-4.5-Air57.6070.700.001060B免费商用
67MiniMax-M1-80k56.0065.000.004560B免费商用
68MiniMax-M1-40k55.6062.300.004560B免费商用
69GPT-4.154.6040.500.00—不开源
70Gemini 2.5 Flash-Preview-09-202554.000.000.00—不开源
71Devstral Small 1.153.600.000.00240B免费商用
72Kimi K251.8053.700.0010000B免费商用
73Qwen3-Coder-Flash51.600.000.00305B免费商用
74Gemini 2.5 Flash50.0041.100.00—不开源
75OpenAI o3-mini (high)49.3069.5097.60—不开源
76DeepSeek-R149.2065.900.006710B免费商用
77Claude 3.5 Sonnet New49.0038.7093.70—不开源
78OpenAI o148.9071.000.00—不开源
79Gemini 2.5 Flash48.9055.400.00—不开源
80Devstral Small 1.046.800.000.00240B免费商用
81OpenAI o3-mini40.800.000.00—不开源
82DeepSeek-V3-032438.8049.200.006710B免费商用
83GPT-4.538.0046.400.00—不开源
84Qwen3-235B-A22B34.4070.700.002350B免费商用
85GPT OSS 20B34.000.000.00210B免费商用
86GPT-4o31.0035.1090.00—不开源
87Gemini 2.5 Flash-Lite27.6034.300.00—不开源
88GPT-4.1 mini23.600.000.00—不开源
89Qwen3-30B-A3B-250722.000.000.00305B免费商用
90Gemini 2.0 Flash Experimental21.4029.100.00—不开源
91Gemma 3 - 12B (IT)0.0024.600.00120B免费商用
92Gemini 2.0 Flash-Lite0.0028.900.00—不开源
93Llama 4 Scout Instruct0.0032.800.001090B免费商用
94Qwen3-30B-A3B0.0029.000.00305B免费商用
95Pangu Embedded0.0067.100.0070B免费商用
96OpenAI o3-mini (medium)0.0067.400.00—不开源
97Grok 30.0070.600.00—不开源
98Qwen3-235B-A22B0.0070.700.002350B免费商用
99Claude Sonnet 4.50.0071.000.00—不开源
100Kimi-k1.6-IOI-high0.0073.800.00—不开源
101DeepSeek V3.2-Exp0.0074.100.006710B免费商用
102Qwen3-235B-A22B-Thinking0.0074.100.00305B免费商用
103Qwen3-235B-A22B-Thinking-25070.0074.100.002350B免费商用
104DeepSeek-V3.10.0074.800.006710B免费商用
105OpenAI o30.0075.800.00—不开源
106Gemini 2.5-Pro0.0077.100.00—不开源
107Grok-3 - Reasoning Beta0.0079.400.00—不开源
108Magistral-Small-25060.0055.840.00240B免费商用
109Claude Sonnet 40.0066.000.00—不开源
110Kimi-k1.6-IOI0.0065.900.00—不开源
111Qwen3-32B0.0065.700.00320B免费商用
112QwQ-Max-Preview0.0065.600.00—免费商用
113Hunyuan-T10.0064.900.00—不开源
114Hunyuan-A13B-Instruct0.0063.900.00800B免费商用
115Haiku 4.50.0062.000.00—不开源
116Qwen3-8B0.0061.800.0080B免费商用
117Pangu Pro MoE0.0059.600.00719B免费商用
118Magistral-Medium-25060.0059.360.00—不开源
119Claude Sonnet 4.50.0059.000.00—不开源
120Qwen3-8B0.0057.500.0080B免费商用
121Hunyuan-7B0.0057.000.0070B免费商用
122Qwen3-Next0.0056.600.00800B免费商用
123Step30.0067.100.003210B免费商用
124Qwen3-4B-Thinking-25070.0055.200.0040B免费商用
125GPT-5-mini0.0055.000.00—不开源
126DeepSeek V3.2-Exp0.0055.000.006710B免费商用
127GLM-4-9B-Chat0.0051.800.0090B免费商用
128Qwen3-235B-A22B-25070.0051.800.002350B免费商用
129Haiku 4.50.0051.000.00—不开源
130Llama 4 Behemoth Instruct0.0049.400.0020000B免费商用
131Claude Sonnet 40.0048.500.00—不开源
132Llama 4 Maverick Instruct0.0043.400.004000B免费商用
133Qwen3-30B-A3B-25070.0043.200.00305B免费商用
134ERNIE-4.5-VL-424B-A47B-Base0.0038.800.004240B免费商用
135ERNIE-4.5-300B-A47B0.0038.800.003000B免费商用
136GPT-4o(2025-03-27)0.0035.800.00—不开源
137Qwen3-4B-25070.0035.100.0040B免费商用
138Llama3.3-70B-Instruct0.0033.3088.40700B免费商用
139Qwen2.5-Max0.000.0073.20—不开源
140Grok-1.50.000.0074.10—不开源
141Phi-4-mini-instruct (3.8B)0.000.0074.4038B免费商用
142Llama3.1-70B-Instruct0.0033.3080.50700B免费商用
143Codestral0.0031.5081.10220B不可商用
144Claude3-Opus0.000.0084.90—不开源
145Codestral 25.010.0037.9086.60—不开源
146GPT-4o mini0.000.0087.20—不开源
147Gemma 3 - 27B (IT)0.0029.7087.80270B免费商用
148Claude 3.5 Haiku0.000.0088.10—不开源
149Grok 20.000.0088.402690B免费商用
150Llama3.1-8B-Instruct0.000.0066.5080B免费商用
151Qwen2.5-32B0.0051.2088.40320B免费商用
152Mistral-Small-3.1-24B-Instruct-25030.000.0088.41240B免费商用
153DeepSeek-V30.0034.6089.006810B免费商用
154Amazon Nova Pro0.000.0089.00—不开源
155Llama3.1-405B Instruct0.0030.2089.004050B免费商用
156Gemini 1.5 Pro0.000.0089.00—不开源
157GPT-4o(2024-11-20)0.000.0090.20—不开源
158Hunyuan-TurboS0.0032.0091.00—不开源
159Claude 3.5 Sonnet0.000.0092.00—不开源
160OpenAI o1-mini0.0052.0092.40—不开源
161Claude Opus 4.60.0076.0095.00—不开源
162Gemini 2.5 Deep Think0.0087.600.00—不开源
163Grok 4 Fast0.0080.000.00—不开源
164Gemini 2.5 Pro Deep Think0.0080.400.00—不开源
165Grok 4.1 Fast0.0082.000.00—不开源
166GLM-4.60.0082.800.003550B免费商用
167MiniMax M20.0083.000.002300B免费商用
168Kimi K2 Thinking0.0083.100.0010400B免费商用
169Qwen3.5-397B-A17B0.0083.600.00397B免费商用
170Qwen3.5-397B-A17B0.0083.600.00397B免费商用
171GLM-4.70.0084.900.003580B免费商用
172Kimi K2.50.0085.000.0010000B免费商用
173Claude Opus 4.50.0087.000.00—不开源
174DeepSeek-V3.1 Terminus0.0080.000.006710B免费商用
175QwQ-32B0.000.0019.00325B免费商用
176Llama-3.2-3B0.000.0028.0032B免费商用
177Mistral-7B-Instruct-v0.30.000.0029.3070B免费商用
178Llama3.1-8B0.000.0033.5080B免费商用
179Gemma 2 - 9B0.000.0037.8090B免费商用
180Qwen2.5-3B0.000.0042.1030B免费商用
181Moonlight-16B-A3B-Instruct0.000.0048.10160B免费商用
182Qwen2.5-7B0.000.0057.9070B免费商用
183Qwen2.5-72B0.000.0059.10727B免费商用
184C4AI Aya Vision 32B0.000.0062.20320B不可商用
1
Claude Sonnet 4.5
SWE-bench Verified82.00
LiveCodeBench0.00
HumanEval0.00
不开源
2
Claude Sonnet 5
SWE-bench Verified82.00
LiveCodeBench0.00
HumanEval0.00
不开源
3
Claude Opus 4.5
SWE-bench Verified80.90
LiveCodeBench0.00
HumanEval0.00
不开源
4
Claude Opus 4.6
SWE-bench Verified80.84
LiveCodeBench0.00
HumanEval0.00
不开源
5
Gemini 3.1 Pro Preview
SWE-bench Verified80.60
LiveCodeBench2887.00
HumanEval0.00
不开源
6
Claude Sonnet 4
SWE-bench Verified80.20
LiveCodeBench0.00
HumanEval0.00
不开源
7
MiniMax M2.5
2290B
SWE-bench Verified80.20
LiveCodeBench0.00
HumanEval0.00
免费商用
8
GPT-5.2
SWE-bench Verified80.00
LiveCodeBench0.00
HumanEval0.00
不开源
9
Claude Sonnet 4.6
SWE-bench Verified79.60
LiveCodeBench0.00
HumanEval0.00
不开源
10
Claude Opus 4.1
SWE-bench Verified79.40
LiveCodeBench0.00
HumanEval0.00
不开源
11
GLM-5
7440B
SWE-bench Verified77.80
LiveCodeBench0.00
HumanEval0.00
免费商用
12
Claude Sonnet 4.5
SWE-bench Verified77.20
LiveCodeBench0.00
HumanEval0.00
不开源
13
GPT-5.1-Codex-Max
SWE-bench Verified76.80
LiveCodeBench0.00
HumanEval0.00
不开源
14
Kimi K2.5
10000B
SWE-bench Verified76.80
LiveCodeBench0.00
HumanEval0.00
免费商用
15
Qwen3.5-397B-A17B
397B
SWE-bench Verified76.40
LiveCodeBench0.00
HumanEval0.00
免费商用
16
Qwen3.5-397B-A17B
397B
SWE-bench Verified76.40
LiveCodeBench0.00
HumanEval0.00
免费商用
17
GPT-5.1
SWE-bench Verified76.30
LiveCodeBench0.00
HumanEval0.00
不开源
18
GPT-5.1
SWE-bench Verified76.30
LiveCodeBench0.00
HumanEval0.00
不开源
19
Gemini 3.0 Pro (Preview 11-2025)
SWE-bench Verified76.20
LiveCodeBench92.00
HumanEval0.00
不开源
20
Qwen3-Max-Thinking
10000B
SWE-bench Verified75.30
LiveCodeBench85.90
HumanEval0.00
不开源
21
o3-pro
SWE-bench Verified75.00
LiveCodeBench0.00
HumanEval0.00
不开源
22
M2.1
2300B
SWE-bench Verified74.80
LiveCodeBench0.00
HumanEval0.00
免费商用
23
Claude Opus 4.1
SWE-bench Verified74.50
LiveCodeBench0.00
HumanEval0.00
不开源
24
Claude Opus 4.1
SWE-bench Verified74.50
LiveCodeBench65.00
HumanEval0.00
不开源
25
GPT-5 Codex
SWE-bench Verified74.50
LiveCodeBench0.00
HumanEval0.00
不开源
26
Step 3.5 Flash
1960B
SWE-bench Verified74.40
LiveCodeBench86.40
HumanEval0.00
免费商用
27
GLM-4.7
3580B
SWE-bench Verified73.80
LiveCodeBench0.00
HumanEval0.00
免费商用
28
Grok 4 Heavy
SWE-bench Verified73.50
LiveCodeBench0.00
HumanEval0.00
不开源
29
Haiku 4.5
SWE-bench Verified73.30
LiveCodeBench0.00
HumanEval0.00
不开源
30
DeepSeek V3.2
6710B
SWE-bench Verified73.10
LiveCodeBench0.00
HumanEval0.00
免费商用
31
GPT-5
SWE-bench Verified72.80
LiveCodeBench0.00
HumanEval0.00
不开源
32
Claude Sonnet 4
SWE-bench Verified72.70
LiveCodeBench0.00
HumanEval0.00
不开源
33
Claude Opus 4
SWE-bench Verified72.50
LiveCodeBench56.60
HumanEval0.00
不开源
34
Qwen3.5-27B
270B
SWE-bench Verified72.40
LiveCodeBench0.00
HumanEval0.00
免费商用
35
Grok 4 Code
SWE-bench Verified72.00
LiveCodeBench0.00
HumanEval0.00
不开源
36
Kimi K2 Thinking
10400B
SWE-bench Verified71.30
LiveCodeBench0.00
HumanEval0.00
免费商用
37
Grok Code Fast 1
SWE-bench Verified70.80
LiveCodeBench0.00
HumanEval0.00
不开源
38
Qwen3-Coder-Next
80B
SWE-bench Verified70.60
LiveCodeBench0.00
HumanEval0.00
免费商用
39
GPT-5.1 Codex
SWE-bench Verified70.40
LiveCodeBench85.50
HumanEval0.00
不开源
40
Claude Sonnet 3.7
SWE-bench Verified70.30
LiveCodeBench0.00
HumanEval0.00
不开源
41
DeepSeek V3.2
6710B
SWE-bench Verified70.20
LiveCodeBench83.30
HumanEval0.00
免费商用
42
Qwen3 Max (Preview)
SWE-bench Verified69.60
LiveCodeBench57.50
HumanEval0.00
不开源
43
MiniMax M2
2300B
SWE-bench Verified69.40
LiveCodeBench0.00
HumanEval0.00
免费商用
44
Kimi K2 0905
10000B
SWE-bench Verified69.20
LiveCodeBench0.00
HumanEval0.00
免费商用
45
Kimi K2 0905
10000B
SWE-bench Verified69.20
LiveCodeBench0.00
HumanEval0.00
免费商用
46
OpenAI o3
SWE-bench Verified69.10
LiveCodeBench0.00
HumanEval0.00
不开源
47
Gemini 3.0 Flash
SWE-bench Verified68.70
LiveCodeBench0.00
HumanEval0.00
不开源
48
DeepSeek-V3.1 Terminus
6710B
SWE-bench Verified68.40
LiveCodeBench74.90
HumanEval0.00
免费商用
49
OpenAI o4 - mini
SWE-bench Verified68.10
LiveCodeBench0.00
HumanEval0.00
不开源
50
GLM-4.6
3550B
SWE-bench Verified68.00
LiveCodeBench56.00
HumanEval0.00
免费商用
51
GLM-4.6
3550B
SWE-bench Verified68.00
LiveCodeBench84.50
HumanEval0.00
免费商用
52
DeepSeek V3.2-Exp
6710B
SWE-bench Verified67.80
LiveCodeBench0.00
HumanEval0.00
免费商用
53
Gemini 2.5-Pro
SWE-bench Verified67.20
LiveCodeBench0.00
HumanEval0.00
不开源
54
Qwen3-Coder-480B-A35B
4800B
SWE-bench Verified67.00
LiveCodeBench0.00
HumanEval0.00
免费商用
55
DeepSeek-V3.1
6710B
SWE-bench Verified66.00
LiveCodeBench56.40
HumanEval0.00
免费商用
56
GLM-4.5
3550B
SWE-bench Verified64.20
LiveCodeBench72.90
HumanEval0.00
免费商用
57
Gemini 2.5 Pro Experimental 03-25
SWE-bench Verified63.80
LiveCodeBench70.40
HumanEval0.00
不开源
58
Gemini-2.5-Pro-Preview-05-06
SWE-bench Verified63.20
LiveCodeBench77.10
HumanEval0.00
不开源
59
Claude Sonnet 3.7
SWE-bench Verified62.30
LiveCodeBench0.00
HumanEval0.00
不开源
60
Devstral Medium
SWE-bench Verified61.60
LiveCodeBench0.00
HumanEval0.00
不开源
61
Haiku 4.5
SWE-bench Verified60.60
LiveCodeBench0.00
HumanEval0.00
不开源
62
GPT OSS 120B
117B
SWE-bench Verified60.10
LiveCodeBench0.00
HumanEval0.00
免费商用
63
GLM-4.7-Flash
310B
SWE-bench Verified59.20
LiveCodeBench0.00
HumanEval0.00
免费商用
64
Grok 4
SWE-bench Verified58.60
LiveCodeBench82.00
HumanEval0.00
不开源
65
DeepSeek-R1-0528
6710B
SWE-bench Verified57.60
LiveCodeBench73.30
HumanEval0.00
免费商用
66
GLM-4.5-Air
1060B
SWE-bench Verified57.60
LiveCodeBench70.70
HumanEval0.00
免费商用
67
MiniMax-M1-80k
4560B
SWE-bench Verified56.00
LiveCodeBench65.00
HumanEval0.00
免费商用
68
MiniMax-M1-40k
4560B
SWE-bench Verified55.60
LiveCodeBench62.30
HumanEval0.00
免费商用
69
GPT-4.1
SWE-bench Verified54.60
LiveCodeBench40.50
HumanEval0.00
不开源
70
Gemini 2.5 Flash-Preview-09-2025
SWE-bench Verified54.00
LiveCodeBench0.00
HumanEval0.00
不开源
71
Devstral Small 1.1
240B
SWE-bench Verified53.60
LiveCodeBench0.00
HumanEval0.00
免费商用
72
Kimi K2
10000B
SWE-bench Verified51.80
LiveCodeBench53.70
HumanEval0.00
免费商用
73
Qwen3-Coder-Flash
305B
SWE-bench Verified51.60
LiveCodeBench0.00
HumanEval0.00
免费商用
74
Gemini 2.5 Flash
SWE-bench Verified50.00
LiveCodeBench41.10
HumanEval0.00
不开源
75
OpenAI o3-mini (high)
SWE-bench Verified49.30
LiveCodeBench69.50
HumanEval97.60
不开源
76
DeepSeek-R1
6710B
SWE-bench Verified49.20
LiveCodeBench65.90
HumanEval0.00
免费商用
77
Claude 3.5 Sonnet New
SWE-bench Verified49.00
LiveCodeBench38.70
HumanEval93.70
不开源
78
OpenAI o1
SWE-bench Verified48.90
LiveCodeBench71.00
HumanEval0.00
不开源
79
Gemini 2.5 Flash
SWE-bench Verified48.90
LiveCodeBench55.40
HumanEval0.00
不开源
80
Devstral Small 1.0
240B
SWE-bench Verified46.80
LiveCodeBench0.00
HumanEval0.00
免费商用
81
OpenAI o3-mini
SWE-bench Verified40.80
LiveCodeBench0.00
HumanEval0.00
不开源
82
DeepSeek-V3-0324
6710B
SWE-bench Verified38.80
LiveCodeBench49.20
HumanEval0.00
免费商用
83
GPT-4.5
SWE-bench Verified38.00
LiveCodeBench46.40
HumanEval0.00
不开源
84
Qwen3-235B-A22B
2350B
SWE-bench Verified34.40
LiveCodeBench70.70
HumanEval0.00
免费商用
85
GPT OSS 20B
210B
SWE-bench Verified34.00
LiveCodeBench0.00
HumanEval0.00
免费商用
86
GPT-4o
SWE-bench Verified31.00
LiveCodeBench35.10
HumanEval90.00
不开源
87
Gemini 2.5 Flash-Lite
SWE-bench Verified27.60
LiveCodeBench34.30
HumanEval0.00
不开源
88
GPT-4.1 mini
SWE-bench Verified23.60
LiveCodeBench0.00
HumanEval0.00
不开源
89
Qwen3-30B-A3B-2507
305B
SWE-bench Verified22.00
LiveCodeBench0.00
HumanEval0.00
免费商用
90
Gemini 2.0 Flash Experimental
SWE-bench Verified21.40
LiveCodeBench29.10
HumanEval0.00
不开源
91
Gemma 3 - 12B (IT)
120B
SWE-bench Verified0.00
LiveCodeBench24.60
HumanEval0.00
免费商用
92
Gemini 2.0 Flash-Lite
SWE-bench Verified0.00
LiveCodeBench28.90
HumanEval0.00
不开源
93
Llama 4 Scout Instruct
1090B
SWE-bench Verified0.00
LiveCodeBench32.80
HumanEval0.00
免费商用
94
Qwen3-30B-A3B
305B
SWE-bench Verified0.00
LiveCodeBench29.00
HumanEval0.00
免费商用
95
Pangu Embedded
70B
SWE-bench Verified0.00
LiveCodeBench67.10
HumanEval0.00
免费商用
96
OpenAI o3-mini (medium)
SWE-bench Verified0.00
LiveCodeBench67.40
HumanEval0.00
不开源
97
Grok 3
SWE-bench Verified0.00
LiveCodeBench70.60
HumanEval0.00
不开源
98
Qwen3-235B-A22B
2350B
SWE-bench Verified0.00
LiveCodeBench70.70
HumanEval0.00
免费商用
99
Claude Sonnet 4.5
SWE-bench Verified0.00
LiveCodeBench71.00
HumanEval0.00
不开源
100
Kimi-k1.6-IOI-high
SWE-bench Verified0.00
LiveCodeBench73.80
HumanEval0.00
不开源
101
DeepSeek V3.2-Exp
6710B
SWE-bench Verified0.00
LiveCodeBench74.10
HumanEval0.00
免费商用
102
Qwen3-235B-A22B-Thinking
305B
SWE-bench Verified0.00
LiveCodeBench74.10
HumanEval0.00
免费商用
103
Qwen3-235B-A22B-Thinking-2507
2350B
SWE-bench Verified0.00
LiveCodeBench74.10
HumanEval0.00
免费商用
104
DeepSeek-V3.1
6710B
SWE-bench Verified0.00
LiveCodeBench74.80
HumanEval0.00
免费商用
105
OpenAI o3
SWE-bench Verified0.00
LiveCodeBench75.80
HumanEval0.00
不开源
106
Gemini 2.5-Pro
SWE-bench Verified0.00
LiveCodeBench77.10
HumanEval0.00
不开源
107
Grok-3 - Reasoning Beta
SWE-bench Verified0.00
LiveCodeBench79.40
HumanEval0.00
不开源
108
Magistral-Small-2506
240B
SWE-bench Verified0.00
LiveCodeBench55.84
HumanEval0.00
免费商用
109
Claude Sonnet 4
SWE-bench Verified0.00
LiveCodeBench66.00
HumanEval0.00
不开源
110
Kimi-k1.6-IOI
SWE-bench Verified0.00
LiveCodeBench65.90
HumanEval0.00
不开源
111
Qwen3-32B
320B
SWE-bench Verified0.00
LiveCodeBench65.70
HumanEval0.00
免费商用
112
QwQ-Max-Preview
SWE-bench Verified0.00
LiveCodeBench65.60
HumanEval0.00
免费商用
113
Hunyuan-T1
SWE-bench Verified0.00
LiveCodeBench64.90
HumanEval0.00
不开源
114
Hunyuan-A13B-Instruct
800B
SWE-bench Verified0.00
LiveCodeBench63.90
HumanEval0.00
免费商用
115
Haiku 4.5
SWE-bench Verified0.00
LiveCodeBench62.00
HumanEval0.00
不开源
116
Qwen3-8B
80B
SWE-bench Verified0.00
LiveCodeBench61.80
HumanEval0.00
免费商用
117
Pangu Pro MoE
719B
SWE-bench Verified0.00
LiveCodeBench59.60
HumanEval0.00
免费商用
118
Magistral-Medium-2506
SWE-bench Verified0.00
LiveCodeBench59.36
HumanEval0.00
不开源
119
Claude Sonnet 4.5
SWE-bench Verified0.00
LiveCodeBench59.00
HumanEval0.00
不开源
120
Qwen3-8B
80B
SWE-bench Verified0.00
LiveCodeBench57.50
HumanEval0.00
免费商用
121
Hunyuan-7B
70B
SWE-bench Verified0.00
LiveCodeBench57.00
HumanEval0.00
免费商用
122
Qwen3-Next
800B
SWE-bench Verified0.00
LiveCodeBench56.60
HumanEval0.00
免费商用
123
Step3
3210B
SWE-bench Verified0.00
LiveCodeBench67.10
HumanEval0.00
免费商用
124
Qwen3-4B-Thinking-2507
40B
SWE-bench Verified0.00
LiveCodeBench55.20
HumanEval0.00
免费商用
125
GPT-5-mini
SWE-bench Verified0.00
LiveCodeBench55.00
HumanEval0.00
不开源
126
DeepSeek V3.2-Exp
6710B
SWE-bench Verified0.00
LiveCodeBench55.00
HumanEval0.00
免费商用
127
GLM-4-9B-Chat
90B
SWE-bench Verified0.00
LiveCodeBench51.80
HumanEval0.00
免费商用
128
Qwen3-235B-A22B-2507
2350B
SWE-bench Verified0.00
LiveCodeBench51.80
HumanEval0.00
免费商用
129
Haiku 4.5
SWE-bench Verified0.00
LiveCodeBench51.00
HumanEval0.00
不开源
130
Llama 4 Behemoth Instruct
20000B
SWE-bench Verified0.00
LiveCodeBench49.40
HumanEval0.00
免费商用
131
Claude Sonnet 4
SWE-bench Verified0.00
LiveCodeBench48.50
HumanEval0.00
不开源
132
Llama 4 Maverick Instruct
4000B
SWE-bench Verified0.00
LiveCodeBench43.40
HumanEval0.00
免费商用
133
Qwen3-30B-A3B-2507
305B
SWE-bench Verified0.00
LiveCodeBench43.20
HumanEval0.00
免费商用
134
ERNIE-4.5-VL-424B-A47B-Base
4240B
SWE-bench Verified0.00
LiveCodeBench38.80
HumanEval0.00
免费商用
135
ERNIE-4.5-300B-A47B
3000B
SWE-bench Verified0.00
LiveCodeBench38.80
HumanEval0.00
免费商用
136
GPT-4o(2025-03-27)
SWE-bench Verified0.00
LiveCodeBench35.80
HumanEval0.00
不开源
137
Qwen3-4B-2507
40B
SWE-bench Verified0.00
LiveCodeBench35.10
HumanEval0.00
免费商用
138
Llama3.3-70B-Instruct
700B
SWE-bench Verified0.00
LiveCodeBench33.30
HumanEval88.40
免费商用
139
Qwen2.5-Max
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval73.20
不开源
140
Grok-1.5
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval74.10
不开源
141
Phi-4-mini-instruct (3.8B)
38B
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval74.40
免费商用
142
Llama3.1-70B-Instruct
700B
SWE-bench Verified0.00
LiveCodeBench33.30
HumanEval80.50
免费商用
143
Codestral
220B
SWE-bench Verified0.00
LiveCodeBench31.50
HumanEval81.10
不可商用
144
Claude3-Opus
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval84.90
不开源
145
Codestral 25.01
SWE-bench Verified0.00
LiveCodeBench37.90
HumanEval86.60
不开源
146
GPT-4o mini
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval87.20
不开源
147
Gemma 3 - 27B (IT)
270B
SWE-bench Verified0.00
LiveCodeBench29.70
HumanEval87.80
免费商用
148
Claude 3.5 Haiku
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval88.10
不开源
149
Grok 2
2690B
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval88.40
免费商用
150
Llama3.1-8B-Instruct
80B
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval66.50
免费商用
151
Qwen2.5-32B
320B
SWE-bench Verified0.00
LiveCodeBench51.20
HumanEval88.40
免费商用
152
Mistral-Small-3.1-24B-Instruct-2503
240B
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval88.41
免费商用
153
DeepSeek-V3
6810B
SWE-bench Verified0.00
LiveCodeBench34.60
HumanEval89.00
免费商用
154
Amazon Nova Pro
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval89.00
不开源
155
Llama3.1-405B Instruct
4050B
SWE-bench Verified0.00
LiveCodeBench30.20
HumanEval89.00
免费商用
156
Gemini 1.5 Pro
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval89.00
不开源
157
GPT-4o(2024-11-20)
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval90.20
不开源
158
Hunyuan-TurboS
SWE-bench Verified0.00
LiveCodeBench32.00
HumanEval91.00
不开源
159
Claude 3.5 Sonnet
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval92.00
不开源
160
OpenAI o1-mini
SWE-bench Verified0.00
LiveCodeBench52.00
HumanEval92.40
不开源
161
Claude Opus 4.6
SWE-bench Verified0.00
LiveCodeBench76.00
HumanEval95.00
不开源
162
Gemini 2.5 Deep Think
SWE-bench Verified0.00
LiveCodeBench87.60
HumanEval0.00
不开源
163
Grok 4 Fast
SWE-bench Verified0.00
LiveCodeBench80.00
HumanEval0.00
不开源
164
Gemini 2.5 Pro Deep Think
SWE-bench Verified0.00
LiveCodeBench80.40
HumanEval0.00
不开源
165
Grok 4.1 Fast
SWE-bench Verified0.00
LiveCodeBench82.00
HumanEval0.00
不开源
166
GLM-4.6
3550B
SWE-bench Verified0.00
LiveCodeBench82.80
HumanEval0.00
免费商用
167
MiniMax M2
2300B
SWE-bench Verified0.00
LiveCodeBench83.00
HumanEval0.00
免费商用
168
Kimi K2 Thinking
10400B
SWE-bench Verified0.00
LiveCodeBench83.10
HumanEval0.00
免费商用
169
Qwen3.5-397B-A17B
397B
SWE-bench Verified0.00
LiveCodeBench83.60
HumanEval0.00
免费商用
170
Qwen3.5-397B-A17B
397B
SWE-bench Verified0.00
LiveCodeBench83.60
HumanEval0.00
免费商用
171
GLM-4.7
3580B
SWE-bench Verified0.00
LiveCodeBench84.90
HumanEval0.00
免费商用
172
Kimi K2.5
10000B
SWE-bench Verified0.00
LiveCodeBench85.00
HumanEval0.00
免费商用
173
Claude Opus 4.5
SWE-bench Verified0.00
LiveCodeBench87.00
HumanEval0.00
不开源
174
DeepSeek-V3.1 Terminus
6710B
SWE-bench Verified0.00
LiveCodeBench80.00
HumanEval0.00
免费商用
175
QwQ-32B
325B
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval19.00
免费商用
176
Llama-3.2-3B
32B
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval28.00
免费商用
177
Mistral-7B-Instruct-v0.3
70B
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval29.30
免费商用
178
Llama3.1-8B
80B
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval33.50
免费商用
179
Gemma 2 - 9B
90B
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval37.80
免费商用
180
Qwen2.5-3B
30B
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval42.10
免费商用
181
Moonlight-16B-A3B-Instruct
160B
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval48.10
免费商用
182
Qwen2.5-7B
70B
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval57.90
免费商用
183
Qwen2.5-72B
727B
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval59.10
免费商用
184
C4AI Aya Vision 32B
320B
SWE-bench Verified0.00
LiveCodeBench0.00
HumanEval62.20
不可商用