排名	模型	SWE-bench Verified	LiveCodeBench	HumanEval	参数(亿)	开源情况
1	Claude Sonnet 4.5 parallel_thinking + 使用工具	82.00	未公布	未公布	未知	不开源
2	Claude Opus 4.5 thinking	80.90	未公布	未公布	未知	不开源
3	Claude Sonnet 4 parallel_thinking + 使用工具	80.20	未公布	未公布	未知	不开源
4	Claude Opus 4.1 parallel_thinking + 使用工具	79.40	未公布	未公布	未知	不开源
5	Claude Sonnet 4.5 thinking + 使用工具	77.20	未公布	未公布	未知	不开源
6	GPT-5.1-Codex-Max high + 使用工具	76.80	未公布	未公布	未知	不开源
7	GPT-5.1 high	76.30	未公布	未公布	未知	不开源
8	Gemini 3.0 Pro (Preview 11-2025) thinking	76.20	92.00	未公布	未知	不开源
9	o3-pro high	75.00	未公布	未公布	未知	不开源
10	GPT-5 Codex high	74.50	未公布	未公布	未知	不开源
11	Claude Opus 4.1 thinking + 使用工具	74.50	65.00	未公布	未知	不开源
12	Claude Opus 4.1 thinking	74.50	未公布	未公布	未知	不开源
13	Grok 4 Heavy parallel_thinking + 使用工具	73.50	未公布	未公布	未知	不开源
14	Haiku 4.5 thinking + 使用工具	73.30	未公布	未公布	未知	不开源
15	DeepSeek V3.2 thinking + 使用工具	73.10	未公布	未公布	6,710	免费商用授权
16	GPT-5 high	72.80	未公布	未公布	未知	不开源
17	Claude Sonnet 4 thinking + 使用工具	72.70	未公布	未公布	未知	不开源
18	Claude Opus 4	72.50	56.60	未公布	未知	不开源
19	Grok 4 Code	72.00	未公布	未公布	未知	不开源
20	Kimi K2 Thinking thinking + 使用工具	71.30	未公布	未公布	10,400	免费商用授权
21	Grok Code Fast 1 thinking	70.80	未公布	未公布	未知	不开源
22	GPT-5.1 Codex high + 使用工具	70.40	85.50	未公布	未知	不开源
23	Claude Sonnet 3.7	70.30	未公布	未公布	未知	不开源
24	Qwen3 Max	69.60	57.50	未公布	未知	不开源
25	MiniMax M2 thinking + 使用工具	69.40	未公布	未公布	2,300	免费商用授权
26	Kimi K2 0905	69.20	未公布	未公布	10,000	免费商用授权
27	Kimi K2 0905 thinking + 使用工具	69.20	未公布	未公布	10,000	免费商用授权
28	OpenAI o3 thinking	69.10	未公布	未公布	未知	不开源
29	DeepSeek-V3.1 Terminus	68.40	74.90	未公布	6,710	免费商用授权
30	OpenAI o4 - mini thinking	68.10	未公布	未公布	未知	不开源
31	GLM-4.6	68.00	56.00	未公布	3,550	免费商用授权
32	GLM-4.6 thinking + 使用工具	68.00	84.50	未公布	3,550	免费商用授权
33	DeepSeek V3.2-Exp thinking + 使用工具	67.80	未公布	未公布	6,710	免费商用授权
34	Gemini 2.5-Pro thinking	67.20	未公布	未公布	未知	不开源
35	Qwen3-Coder-480B-A35B	67.00	未公布	未公布	4,800	免费商用授权
36	DeepSeek-V3.1	66.00	56.40	未公布	6,710	免费商用授权
37	Claude Sonnet 4.5	64.80	59.00	未公布	未知	不开源
38	GLM-4.5 thinking	64.20	72.90	未公布	3,550	免费商用授权
39	Gemini 2.5 Pro Experimental 03-25	63.80	70.40	未公布	未知	不开源
40	Gemini-2.5-Pro-Preview-05-06	63.20	77.10	未公布	未知	不开源
41	Devstral Medium	61.60	未公布	未公布	未知	不开源
42	Haiku 4.5	60.60	51.00	未公布	未知	不开源
43	GPT OSS 120B thinking	60.10	未公布	未公布	117	免费商用授权
44	Grok 4 thinking	58.60	82.00	未公布	未知	不开源
45	DeepSeek-R1-0528 thinking	57.60	73.30	未公布	6,710	免费商用授权
46	GLM-4.5-Air thinking	57.60	70.70	未公布	1,060	免费商用授权
47	MiniMax-M1-80k	56.00	65.00	未公布	4,560	免费商用授权
48	MiniMax-M1-40k	55.60	62.30	未公布	4,560	免费商用授权
49	GPT-4.1	54.60	40.50	未公布	未知	不开源
50	Gemini 2.5 Flash-Preview-09-2025 thinking	54.00	未公布	未公布	未知	不开源
51	Devstral Small 1.1	53.60	未公布	未公布	240	免费商用授权
52	Kimi K2	51.80	53.70	未公布	10,000	免费商用授权
53	Qwen3-Coder-Flash	51.60	未公布	未公布	305	免费商用授权
54	Gemini 2.5 Flash	50.00	41.10	未公布	未知	不开源
55	OpenAI o3-mini (high)	49.30	69.50	97.60	未知	不开源
56	DeepSeek-R1	49.20	65.90	未公布	6,710	免费商用授权
57	Claude 3.5 Sonnet New	49.00	38.70	93.70	未知	不开源
58	Gemini 2.5 Flash thinking	48.90	55.40	未公布	未知	不开源
59	OpenAI o1	48.90	71.00	未公布	未知	不开源
60	Devstral Small 1.0	46.80	未公布	未公布	240	免费商用授权
61	OpenAI o3-mini thinking	40.80	未公布	未公布	未知	不开源
62	DeepSeek-V3-0324	38.80	49.20	未公布	6,710	免费商用授权
63	GPT-4.5	38.00	46.40	未公布	未知	不开源
64	Qwen3-235B-A22B	34.40	70.70	未公布	2,350	免费商用授权
65	GPT-4o	31.00	35.10	90.00	未知	不开源
66	Gemini 2.5 Flash-Lite	27.60	34.30	未公布	未知	不开源
67	GPT-4.1 mini	23.60	未公布	未公布	未知	不开源
68	Gemini 2.0 Flash Experimental	21.40	29.10	未公布	未知	不开源
69	Step3	未公布	67.10	未公布	3,210	免费商用授权
70	Claude Sonnet 4 thinking	未公布	66.00	未公布	未知	不开源
71	Kimi-k1.6-IOI	未公布	65.90	未公布	未知	不开源
72	Qwen3-32B	未公布	65.70	未公布	320	免费商用授权
73	Hunyuan-T1	未公布	64.90	未公布	未知	不开源
74	QwQ-Max-Preview	未公布	65.60	未公布	未知	免费商用授权
75	Pangu Embedded	未公布	67.10	未公布	70	免费商用授权
76	OpenAI o3-mini (medium)	未公布	67.40	未公布	未知	不开源
77	Grok 3	未公布	70.60	未公布	未知	不开源
78	Qwen3-235B-A22B thinking	未公布	70.70	未公布	2,350	免费商用授权
79	Claude Sonnet 4.5 thinking	未公布	71.00	未公布	未知	不开源
80	Kimi-k1.6-IOI-high	未公布	73.80	未公布	未知	不开源
81	DeepSeek V3.2-Exp thinking	未公布	74.10	未公布	6,710	免费商用授权
82	Qwen3-235B-A22B-Thinking thinking	未公布	74.10	未公布	305	免费商用授权
83	Qwen3-235B-A22B-Thinking-2507 thinking	未公布	74.10	未公布	2,350	免费商用授权
84	DeepSeek-V3.1 thinking	未公布	74.80	未公布	6,710	免费商用授权
85	OpenAI o3	未公布	75.80	未公布	未知	不开源
86	GLM-4-9B-Chat	未公布	51.80	未公布	90	免费商用授权
87	Gemma 3 - 12B (IT)	未公布	24.60	未公布	120	免费商用授权
88	Gemini 2.0 Flash-Lite	未公布	28.90	未公布	未知	不开源
89	Qwen3-30B-A3B	未公布	29.00	未公布	305	免费商用授权
90	Llama 4 Scout Instruct	未公布	32.80	未公布	1,090	免费商用授权
91	Qwen3-4B-2507	未公布	35.10	未公布	40	免费商用授权
92	GPT-4o(2025-03-27)	未公布	35.80	未公布	未知	不开源
93	ERNIE-4.5-300B-A47B	未公布	38.80	未公布	3,000	免费商用授权
94	ERNIE-4.5-VL-424B-A47B-Base thinking	未公布	38.80	未公布	4,240	免费商用授权
95	Qwen3-30B-A3B-2507	未公布	43.20	未公布	305	免费商用授权
96	Llama 4 Maverick Instruct	未公布	43.40	未公布	4,000	免费商用授权
97	Claude Sonnet 4	未公布	48.50	未公布	未知	不开源
98	Llama 4 Behemoth Instruct	未公布	49.40	未公布	20,000	免费商用授权
99	Qwen3-235B-A22B-2507	未公布	51.80	未公布	2,350	免费商用授权
100	GLM-4.6 thinking	未公布	82.80	未公布	3,550	免费商用授权
101	DeepSeek V3.2-Exp	未公布	55.00	未公布	6,710	免费商用授权
102	GPT-5-mini thinking	未公布	55.00	未公布	未知	不开源
103	Qwen3-4B-Thinking-2507 thinking	未公布	55.20	未公布	40	免费商用授权
104	Magistral-Small-2506	未公布	55.84	未公布	240	免费商用授权
105	Qwen3-Next	未公布	56.60	未公布	800	免费商用授权
106	Hunyuan-7B	未公布	57.00	未公布	70	免费商用授权
107	Qwen3-8B thinking	未公布	57.50	未公布	80	免费商用授权
108	Magistral-Medium-2506	未公布	59.36	未公布	未知	不开源
109	Pangu Pro MoE	未公布	59.60	未公布	719	免费商用授权
110	Qwen3-8B	未公布	61.80	未公布	80	免费商用授权
111	Haiku 4.5 thinking	未公布	62.00	未公布	未知	不开源
112	Hunyuan-A13B-Instruct	未公布	63.90	未公布	800	免费商用授权
113	Qwen2.5-Max	未公布	未公布	73.20	未知	不开源
114	Grok 2	未公布	未公布	88.40	2,690	免费商用授权
115	Claude 3.5 Haiku	未公布	未公布	88.10	未知	不开源
116	Gemma 3 - 27B (IT)	未公布	29.70	87.80	270	免费商用授权
117	GPT-4o mini	未公布	未公布	87.20	未知	不开源
118	Codestral 25.01	未公布	37.90	86.60	未知	不开源
119	Claude3-Opus	未公布	未公布	84.90	未知	不开源
120	Codestral	未公布	31.50	81.10	220	不可以商用
121	Llama3.1-70B-Instruct	未公布	33.30	80.50	700	免费商用授权
122	Phi-4-mini-instruct (3.8B)	未公布	未公布	74.40	38	免费商用授权
123	Grok-1.5	未公布	未公布	74.10	未知	不开源
124	Llama3.3-70B-Instruct	未公布	33.30	88.40	700	免费商用授权
125	Llama3.1-8B-Instruct	未公布	未公布	66.50	80	免费商用授权
126	C4AI Aya Vision 32B	未公布	未公布	62.20	320	不可以商用
127	Qwen2.5-72B	未公布	未公布	59.10	727	免费商用授权
128	Qwen2.5-7B	未公布	未公布	57.90	70	免费商用授权
129	Moonlight-16B-A3B-Instruct	未公布	未公布	48.10	160	免费商用授权
130	Qwen2.5-3B	未公布	未公布	42.10	30	免费商用授权
131	Gemma 2 - 9B	未公布	未公布	37.80	90	免费商用授权
132	Llama3.1-8B	未公布	未公布	33.50	80	免费商用授权
133	Mistral-7B-Instruct-v0.3	未公布	未公布	29.30	70	免费商用授权
134	Llama-3.2-3B	未公布	未公布	28.00	32	免费商用授权
135	Gemini 2.5 Deep Think deeper_thinking	未公布	87.60	未公布	未知	不开源
136	Grok-3 - Reasoning Beta	未公布	79.40	未公布	未知	不开源
137	DeepSeek-V3.1 Terminus thinking	未公布	80.00	未公布	6,710	免费商用授权
138	Grok 4 Fast thinking	未公布	80.00	未公布	未知	不开源
139	Gemini 2.5 Pro Deep Think	未公布	80.40	未公布	未知	不开源
140	Grok 4.1 Fast thinking	未公布	82.00	未公布	未知	不开源
141	QwQ-32B	未公布	未公布	19.00	325	免费商用授权
142	MiniMax M2 thinking	未公布	83.00	未公布	2,300	免费商用授权
143	Kimi K2 Thinking thinking	未公布	83.10	未公布	10,400	免费商用授权
144	DeepSeek V3.2 thinking	未公布	83.30	未公布	6,710	免费商用授权
145	Claude Opus 4.5 thinking + 使用工具	未公布	87.00	未公布	未知	不开源
146	Gemini 2.5-Pro	未公布	77.10	未公布	未知	不开源
147	OpenAI o1-mini	未公布	52.00	92.40	未知	不开源
148	Claude 3.5 Sonnet	未公布	未公布	92.00	未知	不开源
149	Hunyuan-TurboS	未公布	32.00	91.00	未知	不开源
150	GPT-4o(2024-11-20)	未公布	未公布	90.20	未知	不开源
151	Gemini 1.5 Pro	未公布	未公布	89.00	未知	不开源
152	Llama3.1-405B Instruct	未公布	30.20	89.00	4,050	免费商用授权
153	Amazon Nova Pro	未公布	未公布	89.00	未知	不开源
154	DeepSeek-V3	未公布	34.60	89.00	6,810	免费商用授权
155	Mistral-Small-3.1-24B-Instruct-2503	未公布	未公布	88.41	240	免费商用授权
156	Qwen2.5-32B	未公布	51.20	88.40	320	免费商用授权

Claude Sonnet 4.5 parallel_thinking + 使用工具

SWE-bench Verified (编程与软件工程) 82.00

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

Claude Opus 4.5 thinking

SWE-bench Verified (编程与软件工程) 80.90

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

Claude Sonnet 4 parallel_thinking + 使用工具

SWE-bench Verified (编程与软件工程) 80.20

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

Claude Opus 4.1 parallel_thinking + 使用工具

SWE-bench Verified (编程与软件工程) 79.40

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

Claude Sonnet 4.5 thinking + 使用工具

SWE-bench Verified (编程与软件工程) 77.20

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

GPT-5.1-Codex-Max high + 使用工具

SWE-bench Verified (编程与软件工程) 76.80

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

GPT-5.1 high

SWE-bench Verified (编程与软件工程) 76.30

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

Gemini 3.0 Pro (Preview 11-2025) thinking

SWE-bench Verified (编程与软件工程) 76.20

LiveCodeBench (编程与软件工程) 92.00

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

o3-pro high

SWE-bench Verified (编程与软件工程) 75.00

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#10

GPT-5 Codex high

SWE-bench Verified (编程与软件工程) 74.50

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#11

Claude Opus 4.1 thinking + 使用工具

SWE-bench Verified (编程与软件工程) 74.50

LiveCodeBench (编程与软件工程) 65.00

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#12

Claude Opus 4.1 thinking

SWE-bench Verified (编程与软件工程) 74.50

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#13

Grok 4 Heavy parallel_thinking + 使用工具

SWE-bench Verified (编程与软件工程) 73.50

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#14

Haiku 4.5 thinking + 使用工具

SWE-bench Verified (编程与软件工程) 73.30

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#15

DeepSeek V3.2 thinking + 使用工具

SWE-bench Verified (编程与软件工程) 73.10

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#16

GPT-5 high

SWE-bench Verified (编程与软件工程) 72.80

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#17

Claude Sonnet 4 thinking + 使用工具

SWE-bench Verified (编程与软件工程) 72.70

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#18

Claude Opus 4

SWE-bench Verified (编程与软件工程) 72.50

LiveCodeBench (编程与软件工程) 56.60

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#19

Grok 4 Code

SWE-bench Verified (编程与软件工程) 72.00

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#20

Kimi K2 Thinking thinking + 使用工具

SWE-bench Verified (编程与软件工程) 71.30

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 10,400

开源情况免费商用授权

查看模型详情

#21

Grok Code Fast 1 thinking

SWE-bench Verified (编程与软件工程) 70.80

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#22

GPT-5.1 Codex high + 使用工具

SWE-bench Verified (编程与软件工程) 70.40

LiveCodeBench (编程与软件工程) 85.50

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#23

Claude Sonnet 3.7

SWE-bench Verified (编程与软件工程) 70.30

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#24

Qwen3 Max

SWE-bench Verified (编程与软件工程) 69.60

LiveCodeBench (编程与软件工程) 57.50

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#25

MiniMax M2 thinking + 使用工具

SWE-bench Verified (编程与软件工程) 69.40

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 2,300

开源情况免费商用授权

查看模型详情

#26

Kimi K2 0905

SWE-bench Verified (编程与软件工程) 69.20

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 10,000

开源情况免费商用授权

查看模型详情

#27

Kimi K2 0905 thinking + 使用工具

SWE-bench Verified (编程与软件工程) 69.20

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 10,000

开源情况免费商用授权

查看模型详情

#28

OpenAI o3 thinking

SWE-bench Verified (编程与软件工程) 69.10

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#29

DeepSeek-V3.1 Terminus

SWE-bench Verified (编程与软件工程) 68.40

LiveCodeBench (编程与软件工程) 74.90

HumanEval (编程与软件工程) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#30

OpenAI o4 - mini thinking

SWE-bench Verified (编程与软件工程) 68.10

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#31

GLM-4.6

SWE-bench Verified (编程与软件工程) 68.00

LiveCodeBench (编程与软件工程) 56.00

HumanEval (编程与软件工程) 未公布

参数(亿) 3,550

开源情况免费商用授权

查看模型详情

#32

GLM-4.6 thinking + 使用工具

SWE-bench Verified (编程与软件工程) 68.00

LiveCodeBench (编程与软件工程) 84.50

HumanEval (编程与软件工程) 未公布

参数(亿) 3,550

开源情况免费商用授权

查看模型详情

#33

DeepSeek V3.2-Exp thinking + 使用工具

SWE-bench Verified (编程与软件工程) 67.80

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#34

Gemini 2.5-Pro thinking

SWE-bench Verified (编程与软件工程) 67.20

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#35

Qwen3-Coder-480B-A35B

SWE-bench Verified (编程与软件工程) 67.00

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 4,800

开源情况免费商用授权

查看模型详情

#36

DeepSeek-V3.1

SWE-bench Verified (编程与软件工程) 66.00

LiveCodeBench (编程与软件工程) 56.40

HumanEval (编程与软件工程) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#37

Claude Sonnet 4.5

SWE-bench Verified (编程与软件工程) 64.80

LiveCodeBench (编程与软件工程) 59.00

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#38

GLM-4.5 thinking

SWE-bench Verified (编程与软件工程) 64.20

LiveCodeBench (编程与软件工程) 72.90

HumanEval (编程与软件工程) 未公布

参数(亿) 3,550

开源情况免费商用授权

查看模型详情

#39

Gemini 2.5 Pro Experimental 03-25

SWE-bench Verified (编程与软件工程) 63.80

LiveCodeBench (编程与软件工程) 70.40

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#40

Gemini-2.5-Pro-Preview-05-06

SWE-bench Verified (编程与软件工程) 63.20

LiveCodeBench (编程与软件工程) 77.10

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#41

Devstral Medium

SWE-bench Verified (编程与软件工程) 61.60

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#42

Haiku 4.5

SWE-bench Verified (编程与软件工程) 60.60

LiveCodeBench (编程与软件工程) 51.00

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#43

GPT OSS 120B thinking

SWE-bench Verified (编程与软件工程) 60.10

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 117

开源情况免费商用授权

查看模型详情

#44

Grok 4 thinking

SWE-bench Verified (编程与软件工程) 58.60

LiveCodeBench (编程与软件工程) 82.00

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#45

DeepSeek-R1-0528 thinking

SWE-bench Verified (编程与软件工程) 57.60

LiveCodeBench (编程与软件工程) 73.30

HumanEval (编程与软件工程) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#46

GLM-4.5-Air thinking

SWE-bench Verified (编程与软件工程) 57.60

LiveCodeBench (编程与软件工程) 70.70

HumanEval (编程与软件工程) 未公布

参数(亿) 1,060

开源情况免费商用授权

查看模型详情

#47

MiniMax-M1-80k

SWE-bench Verified (编程与软件工程) 56.00

LiveCodeBench (编程与软件工程) 65.00

HumanEval (编程与软件工程) 未公布

参数(亿) 4,560

开源情况免费商用授权

查看模型详情

#48

MiniMax-M1-40k

SWE-bench Verified (编程与软件工程) 55.60

LiveCodeBench (编程与软件工程) 62.30

HumanEval (编程与软件工程) 未公布

参数(亿) 4,560

开源情况免费商用授权

查看模型详情

#49

GPT-4.1

SWE-bench Verified (编程与软件工程) 54.60

LiveCodeBench (编程与软件工程) 40.50

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#50

Gemini 2.5 Flash-Preview-09-2025 thinking

SWE-bench Verified (编程与软件工程) 54.00

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#51

Devstral Small 1.1

SWE-bench Verified (编程与软件工程) 53.60

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 240

开源情况免费商用授权

查看模型详情

#52

Kimi K2

SWE-bench Verified (编程与软件工程) 51.80

LiveCodeBench (编程与软件工程) 53.70

HumanEval (编程与软件工程) 未公布

参数(亿) 10,000

开源情况免费商用授权

查看模型详情

#53

Qwen3-Coder-Flash

SWE-bench Verified (编程与软件工程) 51.60

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 305

开源情况免费商用授权

查看模型详情

#54

Gemini 2.5 Flash

SWE-bench Verified (编程与软件工程) 50.00

LiveCodeBench (编程与软件工程) 41.10

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#55

OpenAI o3-mini (high)

SWE-bench Verified (编程与软件工程) 49.30

LiveCodeBench (编程与软件工程) 69.50

HumanEval (编程与软件工程) 97.60

参数(亿) 未知

开源情况不开源

查看模型详情

#56

DeepSeek-R1

SWE-bench Verified (编程与软件工程) 49.20

LiveCodeBench (编程与软件工程) 65.90

HumanEval (编程与软件工程) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#57

Claude 3.5 Sonnet New

SWE-bench Verified (编程与软件工程) 49.00

LiveCodeBench (编程与软件工程) 38.70

HumanEval (编程与软件工程) 93.70

参数(亿) 未知

开源情况不开源

查看模型详情

#58

Gemini 2.5 Flash thinking

SWE-bench Verified (编程与软件工程) 48.90

LiveCodeBench (编程与软件工程) 55.40

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#59

OpenAI o1

SWE-bench Verified (编程与软件工程) 48.90

LiveCodeBench (编程与软件工程) 71.00

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#60

Devstral Small 1.0

SWE-bench Verified (编程与软件工程) 46.80

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 240

开源情况免费商用授权

查看模型详情

#61

OpenAI o3-mini thinking

SWE-bench Verified (编程与软件工程) 40.80

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#62

DeepSeek-V3-0324

SWE-bench Verified (编程与软件工程) 38.80

LiveCodeBench (编程与软件工程) 49.20

HumanEval (编程与软件工程) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#63

GPT-4.5

SWE-bench Verified (编程与软件工程) 38.00

LiveCodeBench (编程与软件工程) 46.40

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#64

Qwen3-235B-A22B

SWE-bench Verified (编程与软件工程) 34.40

LiveCodeBench (编程与软件工程) 70.70

HumanEval (编程与软件工程) 未公布

参数(亿) 2,350

开源情况免费商用授权

查看模型详情

#65

GPT-4o

SWE-bench Verified (编程与软件工程) 31.00

LiveCodeBench (编程与软件工程) 35.10

HumanEval (编程与软件工程) 90.00

参数(亿) 未知

开源情况不开源

查看模型详情

#66

Gemini 2.5 Flash-Lite

SWE-bench Verified (编程与软件工程) 27.60

LiveCodeBench (编程与软件工程) 34.30

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#67

GPT-4.1 mini

SWE-bench Verified (编程与软件工程) 23.60

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#68

Gemini 2.0 Flash Experimental

SWE-bench Verified (编程与软件工程) 21.40

LiveCodeBench (编程与软件工程) 29.10

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#69

Step3

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 67.10

HumanEval (编程与软件工程) 未公布

参数(亿) 3,210

开源情况免费商用授权

查看模型详情

#70

Claude Sonnet 4 thinking

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 66.00

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#71

Kimi-k1.6-IOI

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 65.90

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#72

Qwen3-32B

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 65.70

HumanEval (编程与软件工程) 未公布

参数(亿) 320

开源情况免费商用授权

查看模型详情

#73

Hunyuan-T1

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 64.90

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#74

QwQ-Max-Preview

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 65.60

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况免费商用授权

查看模型详情

#75

Pangu Embedded

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 67.10

HumanEval (编程与软件工程) 未公布

参数(亿) 70

开源情况免费商用授权

查看模型详情

#76

OpenAI o3-mini (medium)

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 67.40

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#77

Grok 3

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 70.60

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#78

Qwen3-235B-A22B thinking

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 70.70

HumanEval (编程与软件工程) 未公布

参数(亿) 2,350

开源情况免费商用授权

查看模型详情

#79

Claude Sonnet 4.5 thinking

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 71.00

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#80

Kimi-k1.6-IOI-high

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 73.80

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#81

DeepSeek V3.2-Exp thinking

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 74.10

HumanEval (编程与软件工程) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#82

Qwen3-235B-A22B-Thinking thinking

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 74.10

HumanEval (编程与软件工程) 未公布

参数(亿) 305

开源情况免费商用授权

查看模型详情

#83

Qwen3-235B-A22B-Thinking-2507 thinking

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 74.10

HumanEval (编程与软件工程) 未公布

参数(亿) 2,350

开源情况免费商用授权

查看模型详情

#84

DeepSeek-V3.1 thinking

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 74.80

HumanEval (编程与软件工程) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#85

OpenAI o3

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 75.80

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#86

GLM-4-9B-Chat

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 51.80

HumanEval (编程与软件工程) 未公布

参数(亿) 90

开源情况免费商用授权

查看模型详情

#87

Gemma 3 - 12B (IT)

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 24.60

HumanEval (编程与软件工程) 未公布

参数(亿) 120

开源情况免费商用授权

查看模型详情

#88

Gemini 2.0 Flash-Lite

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 28.90

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#89

Qwen3-30B-A3B

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 29.00

HumanEval (编程与软件工程) 未公布

参数(亿) 305

开源情况免费商用授权

查看模型详情

#90

Llama 4 Scout Instruct

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 32.80

HumanEval (编程与软件工程) 未公布

参数(亿) 1,090

开源情况免费商用授权

查看模型详情

#91

Qwen3-4B-2507

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 35.10

HumanEval (编程与软件工程) 未公布

参数(亿) 40

开源情况免费商用授权

查看模型详情

#92

GPT-4o(2025-03-27)

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 35.80

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#93

ERNIE-4.5-300B-A47B

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 38.80

HumanEval (编程与软件工程) 未公布

参数(亿) 3,000

开源情况免费商用授权

查看模型详情

#94

ERNIE-4.5-VL-424B-A47B-Base thinking

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 38.80

HumanEval (编程与软件工程) 未公布

参数(亿) 4,240

开源情况免费商用授权

查看模型详情

#95

Qwen3-30B-A3B-2507

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 43.20

HumanEval (编程与软件工程) 未公布

参数(亿) 305

开源情况免费商用授权

查看模型详情

#96

Llama 4 Maverick Instruct

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 43.40

HumanEval (编程与软件工程) 未公布

参数(亿) 4,000

开源情况免费商用授权

查看模型详情

#97

Claude Sonnet 4

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 48.50

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#98

Llama 4 Behemoth Instruct

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 49.40

HumanEval (编程与软件工程) 未公布

参数(亿) 20,000

开源情况免费商用授权

查看模型详情

#99

Qwen3-235B-A22B-2507

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 51.80

HumanEval (编程与软件工程) 未公布

参数(亿) 2,350

开源情况免费商用授权

查看模型详情

#100

GLM-4.6 thinking

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 82.80

HumanEval (编程与软件工程) 未公布

参数(亿) 3,550

开源情况免费商用授权

查看模型详情

#101

DeepSeek V3.2-Exp

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 55.00

HumanEval (编程与软件工程) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#102

GPT-5-mini thinking

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 55.00

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#103

Qwen3-4B-Thinking-2507 thinking

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 55.20

HumanEval (编程与软件工程) 未公布

参数(亿) 40

开源情况免费商用授权

查看模型详情

#104

Magistral-Small-2506

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 55.84

HumanEval (编程与软件工程) 未公布

参数(亿) 240

开源情况免费商用授权

查看模型详情

#105

Qwen3-Next

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 56.60

HumanEval (编程与软件工程) 未公布

参数(亿) 800

开源情况免费商用授权

查看模型详情

#106

Hunyuan-7B

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 57.00

HumanEval (编程与软件工程) 未公布

参数(亿) 70

开源情况免费商用授权

查看模型详情

#107

Qwen3-8B thinking

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 57.50

HumanEval (编程与软件工程) 未公布

参数(亿) 80

开源情况免费商用授权

查看模型详情

#108

Magistral-Medium-2506

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 59.36

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#109

Pangu Pro MoE

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 59.60

HumanEval (编程与软件工程) 未公布

参数(亿) 719

开源情况免费商用授权

查看模型详情

#110

Qwen3-8B

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 61.80

HumanEval (编程与软件工程) 未公布

参数(亿) 80

开源情况免费商用授权

查看模型详情

#111

Haiku 4.5 thinking

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 62.00

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#112

Hunyuan-A13B-Instruct

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 63.90

HumanEval (编程与软件工程) 未公布

参数(亿) 800

开源情况免费商用授权

查看模型详情

#113

Qwen2.5-Max

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 73.20

参数(亿) 未知

开源情况不开源

查看模型详情

#114

Grok 2

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 88.40

参数(亿) 2,690

开源情况免费商用授权

查看模型详情

#115

Claude 3.5 Haiku

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 88.10

参数(亿) 未知

开源情况不开源

查看模型详情

#116

Gemma 3 - 27B (IT)

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 29.70

HumanEval (编程与软件工程) 87.80

参数(亿) 270

开源情况免费商用授权

查看模型详情

#117

GPT-4o mini

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 87.20

参数(亿) 未知

开源情况不开源

查看模型详情

#118

Codestral 25.01

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 37.90

HumanEval (编程与软件工程) 86.60

参数(亿) 未知

开源情况不开源

查看模型详情

#119

Claude3-Opus

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 84.90

参数(亿) 未知

开源情况不开源

查看模型详情

#120

Codestral

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 31.50

HumanEval (编程与软件工程) 81.10

参数(亿) 220

开源情况不可以商用

查看模型详情

#121

Llama3.1-70B-Instruct

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 33.30

HumanEval (编程与软件工程) 80.50

参数(亿) 700

开源情况免费商用授权

查看模型详情

#122

Phi-4-mini-instruct (3.8B)

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 74.40

参数(亿) 38

开源情况免费商用授权

查看模型详情

#123

Grok-1.5

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 74.10

参数(亿) 未知

开源情况不开源

查看模型详情

#124

Llama3.3-70B-Instruct

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 33.30

HumanEval (编程与软件工程) 88.40

参数(亿) 700

开源情况免费商用授权

查看模型详情

#125

Llama3.1-8B-Instruct

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 66.50

参数(亿) 80

开源情况免费商用授权

查看模型详情

#126

C4AI Aya Vision 32B

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 62.20

参数(亿) 320

开源情况不可以商用

查看模型详情

#127

Qwen2.5-72B

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 59.10

参数(亿) 727

开源情况免费商用授权

查看模型详情

#128

Qwen2.5-7B

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 57.90

参数(亿) 70

开源情况免费商用授权

查看模型详情

#129

Moonlight-16B-A3B-Instruct

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 48.10

参数(亿) 160

开源情况免费商用授权

查看模型详情

#130

Qwen2.5-3B

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 42.10

参数(亿) 30

开源情况免费商用授权

查看模型详情

#131

Gemma 2 - 9B

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 37.80

参数(亿) 90

开源情况免费商用授权

查看模型详情

#132

Llama3.1-8B

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 33.50

参数(亿) 80

开源情况免费商用授权

查看模型详情

#133

Mistral-7B-Instruct-v0.3

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 29.30

参数(亿) 70

开源情况免费商用授权

查看模型详情

#134

Llama-3.2-3B

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 28.00

参数(亿) 32

开源情况免费商用授权

查看模型详情

#135

Gemini 2.5 Deep Think deeper_thinking

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 87.60

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#136

Grok-3 - Reasoning Beta

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 79.40

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#137

DeepSeek-V3.1 Terminus thinking

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 80.00

HumanEval (编程与软件工程) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#138

Grok 4 Fast thinking

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 80.00

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#139

Gemini 2.5 Pro Deep Think

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 80.40

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#140

Grok 4.1 Fast thinking

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 82.00

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#141

QwQ-32B

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 19.00

参数(亿) 325

开源情况免费商用授权

查看模型详情

#142

MiniMax M2 thinking

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 83.00

HumanEval (编程与软件工程) 未公布

参数(亿) 2,300

开源情况免费商用授权

查看模型详情

#143

Kimi K2 Thinking thinking

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 83.10

HumanEval (编程与软件工程) 未公布

参数(亿) 10,400

开源情况免费商用授权

查看模型详情

#144

DeepSeek V3.2 thinking

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 83.30

HumanEval (编程与软件工程) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#145

Claude Opus 4.5 thinking + 使用工具

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 87.00

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#146

Gemini 2.5-Pro

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 77.10

HumanEval (编程与软件工程) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#147

OpenAI o1-mini

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 52.00

HumanEval (编程与软件工程) 92.40

参数(亿) 未知

开源情况不开源

查看模型详情

#148

Claude 3.5 Sonnet

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 92.00

参数(亿) 未知

开源情况不开源

查看模型详情

#149

Hunyuan-TurboS

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 32.00

HumanEval (编程与软件工程) 91.00

参数(亿) 未知

开源情况不开源

查看模型详情

#150

GPT-4o(2024-11-20)

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 90.20

参数(亿) 未知

开源情况不开源

查看模型详情

#151

Gemini 1.5 Pro

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 89.00

参数(亿) 未知

开源情况不开源

查看模型详情

#152

Llama3.1-405B Instruct

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 30.20

HumanEval (编程与软件工程) 89.00

参数(亿) 4,050

开源情况免费商用授权

查看模型详情

#153

Amazon Nova Pro

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 89.00

参数(亿) 未知

开源情况不开源

查看模型详情

#154

DeepSeek-V3

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 34.60

HumanEval (编程与软件工程) 89.00

参数(亿) 6,810

开源情况免费商用授权

查看模型详情

#155

Mistral-Small-3.1-24B-Instruct-2503

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 未公布

HumanEval (编程与软件工程) 88.41

参数(亿) 240

开源情况免费商用授权

查看模型详情

#156

Qwen2.5-32B

SWE-bench Verified (编程与软件工程) 未公布

LiveCodeBench (编程与软件工程) 51.20

HumanEval (编程与软件工程) 88.40

参数(亿) 320

开源情况免费商用授权

查看模型详情

大模型代码编程能力评测排行榜