排名	模型	AIME2025	AIME 2024	MATH-500	GSM8K	参数(亿)	开源情况
1	GPT-5 thinking + 使用工具	99.60	未公布	未公布	未公布	未知	不开源
2	OpenAI o4 - mini thinking + 使用工具	99.50	98.70	未公布	未公布	未知	不开源
3	Gemini 2.5 Deep Think deeper_thinking	99.20	未公布	未公布	未公布	未知	不开源
4	Kimi K2 Thinking thinking + 使用工具	99.10	未公布	未公布	未公布	10,400	免费商用授权
5	Grok 4 thinking + 使用工具	98.80	未公布	未公布	未公布	未知	不开源
6	GPT OSS 20B thinking + 使用工具	98.70	96.00	未公布	未公布	210	免费商用授权
7	GLM-4.6 thinking + 使用工具	98.60	未公布	未公布	未公布	3,550	免费商用授权
8	GLM-4.6 thinking	98.60	未公布	未公布	未公布	3,550	免费商用授权
9	GPT OSS 120B thinking + 使用工具	97.90	96.60	未公布	未公布	117	免费商用授权
10	GPT-5-Pro thinking	96.70	未公布	未公布	未公布	未知	不开源
11	Haiku 4.5 thinking + 使用工具	96.30	未公布	未公布	未公布	未知	不开源
12	DeepSeek V3.2 Speciale thinking	96.00	未公布	未公布	未公布	未知	免费商用授权
13	Gemini 3.0 Pro (Preview 11-2025) thinking	95.00	未公布	未公布	未公布	未知	不开源
14	GPT-5 thinking	94.60	未公布	未公布	未公布	未知	不开源
15	Kimi K2 Thinking thinking	94.50	未公布	未公布	未公布	10,400	免费商用授权
16	GPT-5.1 high	94.00	未公布	未公布	未公布	未知	不开源
17	DeepSeek V3.2 thinking	93.10	未公布	未公布	未公布	6,710	免费商用授权
18	o3-pro	93.00	93.00	未公布	未公布	未知	不开源
19	OpenAI o4 - mini thinking	92.70	93.40	未公布	未公布	未知	不开源
20	Qwen3-235B-A22B-Thinking thinking	92.30	未公布	未公布	未公布	305	免费商用授权
21	Qwen3-235B-A22B-Thinking-2507 thinking	92.30	未公布	未公布	未公布	2,350	免费商用授权
22	Grok 4 Fast thinking	92.00	未公布	未公布	未公布	未知	不开源
23	Grok 4 thinking	91.70	未公布	未公布	未公布	未知	不开源
24	DeepSeek-V3.1 Terminus thinking	90.00	未公布	未公布	未公布	6,710	免费商用授权
25	DeepSeek V3.2-Exp thinking	89.30	未公布	未公布	未公布	6,710	免费商用授权
26	Grok 4.1 Fast thinking	89.00	未公布	未公布	未公布	未知	不开源
27	OpenAI o3 thinking	88.90	未公布	未公布	未公布	未知	不开源
28	DeepSeek-V3.1 thinking	88.40	93.10	未公布	未公布	6,710	免费商用授权
29	Gemini 2.5-Pro thinking	88.00	未公布	未公布	未公布	未知	不开源
30	DeepSeek-R1-0528 thinking	87.50	91.40	98.00	未公布	6,710	免费商用授权
31	Claude Sonnet 4.5 thinking	87.00	未公布	未公布	未公布	未知	不开源
32	Gemini 2.5 Pro Experimental 03-25	86.90	92.00	未公布	未公布	未知	不开源
33	OpenAI o3-mini thinking	86.50	60.00	95.80	未公布	未知	不开源
34	Intern-S1	86.00	未公布	未公布	未公布	2,410	免费商用授权
35	Claude Sonnet 4 deeper_thinking + 使用工具	85.00	未公布	未公布	未公布	未知	不开源
36	Gemini-2.5-Pro-Preview-05-06	83.00	92.00	98.80	未公布	未知	不开源
37	GPT OSS 120B thinking	83.00	未公布	未公布	未公布	117	免费商用授权
38	Step3	82.90	未公布	未公布	未公布	3,210	免费商用授权
39	Qwen3-235B-A22B thinking	81.50	85.70	98.00	未公布	2,350	免费商用授权
40	Qwen3-4B-Thinking-2507 thinking	81.30	未公布	未公布	未公布	40	免费商用授权
41	Haiku 4.5 thinking	80.70	未公布	未公布	未公布	未知	不开源
42	Qwen3 Max	80.60	未公布	未公布	未公布	未知	不开源
43	GPT OSS 20B thinking	79.00	未公布	未公布	未公布	210	免费商用授权
44	MiniMax M2 thinking	78.00	未公布	未公布	未公布	2,300	免费商用授权
45	Claude Opus 4.1 thinking + 使用工具	78.00	未公布	未公布	未公布	未知	不开源
46	Claude Opus 4.1 thinking	78.00	未公布	未公布	未公布	未知	不开源
47	Grok 3	77.10	84.20	未公布	未公布	未知	不开源
48	MiniMax-M1-80k	76.90	86.00	96.80	未公布	4,560	免费商用授权
49	Hunyuan-A13B-Instruct	76.80	87.30	未公布	91.83	800	免费商用授权
50	Claude Opus 4	75.50	76.00	98.20	未公布	未知	不开源
51	Hunyuan-7B	75.30	81.10	93.70	未公布	70	免费商用授权
52	Kimi K2 0905 thinking + 使用工具	75.20	未公布	未公布	未公布	10,000	免费商用授权
53	MiniMax-M1-40k	74.60	83.30	96.00	未公布	4,560	免费商用授权
54	Qwen3-32B	72.90	81.40	未公布	未公布	320	免费商用授权
55	Qwen3-32B thinking	72.90	81.40	97.20	未公布	320	免费商用授权
56	Gemini 2.5 Flash thinking	72.00	未公布	未公布	未公布	未知	不开源
57	Claude Sonnet 4 thinking	70.50	未公布	未公布	未公布	未知	不开源
58	Qwen3-235B-A22B-2507	70.30	未公布	未公布	未公布	2,350	免费商用授权
59	DeepSeek-R1	70.00	79.80	97.30	未公布	6,710	免费商用授权
60	Qwen3-Next	69.50	未公布	未公布	90.30	800	免费商用授权
61	Pangu Pro MoE	68.10	79.20	96.80	未公布	719	免费商用授权
62	Qwen3-8B thinking	67.30	76.00	97.40	未公布	80	免费商用授权
63	Magistral-Medium-2506	64.95	73.59	未公布	未公布	未知	不开源
64	Gemini 2.5 Flash-Lite	63.10	未公布	未公布	未公布	未知	不开源
65	Magistral-Small-2506	62.76	70.68	未公布	未公布	240	免费商用授权
66	GPT-5	61.90	未公布	未公布	未公布	未知	不开源
67	Gemini 2.5 Flash	61.60	88.00	未公布	未公布	未知	不开源
68	Qwen3-30B-A3B-2507	61.30	未公布	未公布	未公布	305	免费商用授权
69	DeepSeek V3.2-Exp	58.00	未公布	未公布	未公布	6,710	免费商用授权
70	Claude Sonnet 3.7	54.80	23.30	82.20	未公布	未知	不开源
71	Kimi K2	54.00	69.60	97.40	未公布	10,000	免费商用授权
72	DeepSeek-V3.1 Terminus	54.00	未公布	未公布	未公布	6,710	免费商用授权
73	DeepSeek-V3.1	49.80	66.30	未公布	未公布	6,710	免费商用授权
74	DeepSeek-V3-0324	47.70	59.40	94.00	96.30	6,710	免费商用授权
75	Qwen3-4B-2507	47.40	未公布	未公布	未公布	40	免费商用授权
76	GPT-5-mini thinking	47.00	未公布	未公布	未公布	未知	不开源
77	GPT-5-mini	47.00	未公布	未公布	未公布	未知	不开源
78	GLM-4.6	44.00	未公布	未公布	未公布	3,550	免费商用授权
79	GPT-4o normal + 使用工具	42.10	未公布	未公布	未公布	未知	不开源
80	Haiku 4.5	39.00	未公布	未公布	未公布	未知	不开源
81	Claude Sonnet 4	38.00	43.40	未公布	未公布	未知	不开源
82	Claude Sonnet 4.5	37.00	未公布	未公布	未公布	未知	不开源
83	GPT-4.1	36.70	48.10	92.80	95.90	未知	不开源
84	ERNIE-4.5-VL-424B-A47B-Base thinking	35.10	未公布	未公布	未公布	4,240	免费商用授权
85	ERNIE-4.5-300B-A47B	35.10	54.80	96.40	96.60	3,000	免费商用授权
86	Gemini 2.0 Flash Experimental	29.70	未公布	未公布	未公布	未知	不开源
87	GPT-4o(2025-03-27)	26.70	未公布	未公布	未公布	未知	不开源
88	Qwen3-235B-A22B	24.70	85.70	96.20	96.40	2,350	免费商用授权
89	Qwen3-30B-A3B	21.60	未公布	未公布	未公布	305	免费商用授权
90	Qwen3-8B	20.90	79.40	87.40	未公布	80	免费商用授权
91	Claude Sonnet 4.5 thinking + 使用工具	100.00	未公布	未公布	未公布	未知	不开源
92	Kimi K2 Thinking parallel_thinking + 使用工具	100.00	未公布	未公布	未公布	10,400	免费商用授权
93	Grok 4 Heavy parallel_thinking	100.00	未公布	未公布	未公布	未知	不开源
94	GPT-5-Pro thinking + 使用工具	100.00	未公布	未公布	未公布	未知	不开源
95	OpenAI o3-mini (high)	未公布	87.00	97.90	未公布	未知	不开源
96	Kimi k1.5 (Long-CoT)	未公布	未公布	96.20	未公布	未知	不开源
97	GLM-4.5-Air thinking	未公布	89.40	98.10	未公布	1,060	免费商用授权
98	OpenAI o3	未公布	91.60	98.10	未公布	未知	不开源
99	GLM-4.5 thinking	未公布	91.00	98.20	未公布	3,550	免费商用授权
100	Gemini 2.5-Pro	未公布	92.00	98.80	未公布	未知	不开源
101	Amazon Nova Pro	未公布	未公布	未公布	未公布	未知	不开源
102	Llama3.1-405B Instruct	未公布	未公布	未公布	未公布	4,050	免费商用授权
103	Gemini 1.5 Pro	未公布	未公布	未公布	未公布	未知	不开源
104	Llama-3.2-3B	未公布	未公布	未公布	34.00	32	免费商用授权
105	Mistral-7B-Instruct-v0.3	未公布	未公布	未公布	36.20	70	免费商用授权
106	Llama3.1-8B	未公布	未公布	未公布	55.30	80	免费商用授权
107	Gemma 2 - 9B	未公布	未公布	未公布	70.70	90	免费商用授权
108	Moonlight-16B-A3B-Instruct	未公布	未公布	未公布	77.40	160	免费商用授权
109	Qwen2.5-3B	未公布	未公布	未公布	79.10	30	免费商用授权
110	Llama3.1-8B-Instruct	未公布	未公布	未公布	82.40	80	免费商用授权
111	Qwen2.5-7B	未公布	未公布	未公布	85.40	70	免费商用授权
112	Phi-4-mini-instruct (3.8B)	未公布	10.00	71.80	88.60	38	免费商用授权
113	GPT-4o mini	未公布	未公布	未公布	91.30	未知	不开源
114	Qwen2.5-72B	未公布	未公布	未公布	91.50	727	免费商用授权
115	Qwen2.5-Max	未公布	未公布	未公布	94.50	未知	不开源
116	Claude3-Opus	未公布	未公布	未公布	95.00	未知	不开源
117	Qwen2.5-32B	未公布	未公布	未公布	95.90	320	免费商用授权
118	Pangu Embedded	未公布	81.90	92.40	95.98	70	免费商用授权
119	DeepSeek-V3	未公布	39.00	87.80	未公布	6,810	免费商用授权
120	Grok 3.5	未公布	未公布	未公布	未公布	未知	不开源
121	Gemma 3 - 27B (IT)	未公布	25.30	未公布	未公布	270	免费商用授权
122	GPT-4.1 nano	未公布	29.40	未公布	未公布	未知	不开源
123	Gemini 2.0 Pro Experimental	未公布	36.00	未公布	未公布	未知	不开源
124	Grok 3 mini	未公布	40.00	未公布	未公布	未知	不开源
125	GPT-4.1 mini	未公布	49.60	未公布	未公布	未知	不开源
126	GLM-4-9B-Chat	未公布	76.40	未公布	未公布	90	免费商用授权
127	Grok-3 - Reasoning Beta	未公布	93.30	未公布	未公布	未知	不开源
128	Grok-3 mini - Reasoning	未公布	96.00	未公布	未公布	未知	不开源
129	GPT-4o	未公布	9.30	75.90	未公布	未知	不开源
130	Claude 3.5 Sonnet New	未公布	16.00	78.00	未公布	未知	不开源
131	OpenAI o1	未公布	79.20	96.40	未公布	未知	不开源
132	OpenAI o1-mini	未公布	63.60	90.00	未公布	未知	不开源
133	Phi-4-instruct (reasoning-trained)	未公布	50.00	90.40	未公布	38	不开源
134	QwQ-32B-Preview	未公布	50.00	90.60	未公布	320	免费商用授权
135	GPT-4.5	未公布	36.70	90.70	未公布	未知	不开源
136	QwQ-32B	未公布	79.50	91.00	未公布	325	免费商用授权
137	DeepSeek-R1-Distill-Qwen-7B	未公布	53.30	91.40	未公布	70	免费商用授权
138	DeepSeek-R1-Distill-Llama-70B	未公布	未公布	94.50	未公布	700	免费商用授权
139	Kimi k1.5 (Short-CoT)	未公布	未公布	94.60	未公布	未知	不开源
140	Llama 4 Behemoth Instruct	未公布	未公布	95.00	未公布	20,000	免费商用授权
141	Hunyuan-T1	未公布	78.20	96.20	未公布	未知	不开源
142	Claude Sonnet 3.7-64K Extended Thinking	未公布	80.00	96.20	未公布	未知	不开源

GPT-5 thinking + 使用工具

AIME2025 (数学推理) 99.60

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

OpenAI o4 - mini thinking + 使用工具

AIME2025 (数学推理) 99.50

AIME 2024 (数学推理) 98.70

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

Gemini 2.5 Deep Think deeper_thinking

AIME2025 (数学推理) 99.20

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

Kimi K2 Thinking thinking + 使用工具

AIME2025 (数学推理) 99.10

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 10,400

开源情况免费商用授权

查看模型详情

Grok 4 thinking + 使用工具

AIME2025 (数学推理) 98.80

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

GPT OSS 20B thinking + 使用工具

AIME2025 (数学推理) 98.70

AIME 2024 (数学推理) 96.00

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 210

开源情况免费商用授权

查看模型详情

GLM-4.6 thinking + 使用工具

AIME2025 (数学推理) 98.60

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 3,550

开源情况免费商用授权

查看模型详情

GLM-4.6 thinking

AIME2025 (数学推理) 98.60

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 3,550

开源情况免费商用授权

查看模型详情

GPT OSS 120B thinking + 使用工具

AIME2025 (数学推理) 97.90

AIME 2024 (数学推理) 96.60

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 117

开源情况免费商用授权

查看模型详情

#10

GPT-5-Pro thinking

AIME2025 (数学推理) 96.70

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#11

Haiku 4.5 thinking + 使用工具

AIME2025 (数学推理) 96.30

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#12

DeepSeek V3.2 Speciale thinking

AIME2025 (数学推理) 96.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况免费商用授权

查看模型详情

#13

Gemini 3.0 Pro (Preview 11-2025) thinking

AIME2025 (数学推理) 95.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#14

GPT-5 thinking

AIME2025 (数学推理) 94.60

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#15

Kimi K2 Thinking thinking

AIME2025 (数学推理) 94.50

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 10,400

开源情况免费商用授权

查看模型详情

#16

GPT-5.1 high

AIME2025 (数学推理) 94.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#17

DeepSeek V3.2 thinking

AIME2025 (数学推理) 93.10

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#18

o3-pro

AIME2025 (数学推理) 93.00

AIME 2024 (数学推理) 93.00

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#19

OpenAI o4 - mini thinking

AIME2025 (数学推理) 92.70

AIME 2024 (数学推理) 93.40

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#20

Qwen3-235B-A22B-Thinking thinking

AIME2025 (数学推理) 92.30

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 305

开源情况免费商用授权

查看模型详情

#21

Qwen3-235B-A22B-Thinking-2507 thinking

AIME2025 (数学推理) 92.30

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 2,350

开源情况免费商用授权

查看模型详情

#22

Grok 4 Fast thinking

AIME2025 (数学推理) 92.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#23

Grok 4 thinking

AIME2025 (数学推理) 91.70

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#24

DeepSeek-V3.1 Terminus thinking

AIME2025 (数学推理) 90.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#25

DeepSeek V3.2-Exp thinking

AIME2025 (数学推理) 89.30

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#26

Grok 4.1 Fast thinking

AIME2025 (数学推理) 89.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#27

OpenAI o3 thinking

AIME2025 (数学推理) 88.90

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#28

DeepSeek-V3.1 thinking

AIME2025 (数学推理) 88.40

AIME 2024 (数学推理) 93.10

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#29

Gemini 2.5-Pro thinking

AIME2025 (数学推理) 88.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#30

DeepSeek-R1-0528 thinking

AIME2025 (数学推理) 87.50

AIME 2024 (数学推理) 91.40

MATH-500 (数学推理) 98.00

GSM8K (数学推理) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#31

Claude Sonnet 4.5 thinking

AIME2025 (数学推理) 87.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#32

Gemini 2.5 Pro Experimental 03-25

AIME2025 (数学推理) 86.90

AIME 2024 (数学推理) 92.00

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#33

OpenAI o3-mini thinking

AIME2025 (数学推理) 86.50

AIME 2024 (数学推理) 60.00

MATH-500 (数学推理) 95.80

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#34

Intern-S1

AIME2025 (数学推理) 86.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 2,410

开源情况免费商用授权

查看模型详情

#35

Claude Sonnet 4 deeper_thinking + 使用工具

AIME2025 (数学推理) 85.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#36

Gemini-2.5-Pro-Preview-05-06

AIME2025 (数学推理) 83.00

AIME 2024 (数学推理) 92.00

MATH-500 (数学推理) 98.80

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#37

GPT OSS 120B thinking

AIME2025 (数学推理) 83.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 117

开源情况免费商用授权

查看模型详情

#38

Step3

AIME2025 (数学推理) 82.90

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 3,210

开源情况免费商用授权

查看模型详情

#39

Qwen3-235B-A22B thinking

AIME2025 (数学推理) 81.50

AIME 2024 (数学推理) 85.70

MATH-500 (数学推理) 98.00

GSM8K (数学推理) 未公布

参数(亿) 2,350

开源情况免费商用授权

查看模型详情

#40

Qwen3-4B-Thinking-2507 thinking

AIME2025 (数学推理) 81.30

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 40

开源情况免费商用授权

查看模型详情

#41

Haiku 4.5 thinking

AIME2025 (数学推理) 80.70

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#42

Qwen3 Max

AIME2025 (数学推理) 80.60

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#43

GPT OSS 20B thinking

AIME2025 (数学推理) 79.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 210

开源情况免费商用授权

查看模型详情

#44

MiniMax M2 thinking

AIME2025 (数学推理) 78.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 2,300

开源情况免费商用授权

查看模型详情

#45

Claude Opus 4.1 thinking + 使用工具

AIME2025 (数学推理) 78.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#46

Claude Opus 4.1 thinking

AIME2025 (数学推理) 78.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#47

Grok 3

AIME2025 (数学推理) 77.10

AIME 2024 (数学推理) 84.20

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#48

MiniMax-M1-80k

AIME2025 (数学推理) 76.90

AIME 2024 (数学推理) 86.00

MATH-500 (数学推理) 96.80

GSM8K (数学推理) 未公布

参数(亿) 4,560

开源情况免费商用授权

查看模型详情

#49

Hunyuan-A13B-Instruct

AIME2025 (数学推理) 76.80

AIME 2024 (数学推理) 87.30

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 91.83

参数(亿) 800

开源情况免费商用授权

查看模型详情

#50

Claude Opus 4

AIME2025 (数学推理) 75.50

AIME 2024 (数学推理) 76.00

MATH-500 (数学推理) 98.20

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#51

Hunyuan-7B

AIME2025 (数学推理) 75.30

AIME 2024 (数学推理) 81.10

MATH-500 (数学推理) 93.70

GSM8K (数学推理) 未公布

参数(亿) 70

开源情况免费商用授权

查看模型详情

#52

Kimi K2 0905 thinking + 使用工具

AIME2025 (数学推理) 75.20

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 10,000

开源情况免费商用授权

查看模型详情

#53

MiniMax-M1-40k

AIME2025 (数学推理) 74.60

AIME 2024 (数学推理) 83.30

MATH-500 (数学推理) 96.00

GSM8K (数学推理) 未公布

参数(亿) 4,560

开源情况免费商用授权

查看模型详情

#54

Qwen3-32B

AIME2025 (数学推理) 72.90

AIME 2024 (数学推理) 81.40

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 320

开源情况免费商用授权

查看模型详情

#55

Qwen3-32B thinking

AIME2025 (数学推理) 72.90

AIME 2024 (数学推理) 81.40

MATH-500 (数学推理) 97.20

GSM8K (数学推理) 未公布

参数(亿) 320

开源情况免费商用授权

查看模型详情

#56

Gemini 2.5 Flash thinking

AIME2025 (数学推理) 72.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#57

Claude Sonnet 4 thinking

AIME2025 (数学推理) 70.50

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#58

Qwen3-235B-A22B-2507

AIME2025 (数学推理) 70.30

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 2,350

开源情况免费商用授权

查看模型详情

#59

DeepSeek-R1

AIME2025 (数学推理) 70.00

AIME 2024 (数学推理) 79.80

MATH-500 (数学推理) 97.30

GSM8K (数学推理) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#60

Qwen3-Next

AIME2025 (数学推理) 69.50

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 90.30

参数(亿) 800

开源情况免费商用授权

查看模型详情

#61

Pangu Pro MoE

AIME2025 (数学推理) 68.10

AIME 2024 (数学推理) 79.20

MATH-500 (数学推理) 96.80

GSM8K (数学推理) 未公布

参数(亿) 719

开源情况免费商用授权

查看模型详情

#62

Qwen3-8B thinking

AIME2025 (数学推理) 67.30

AIME 2024 (数学推理) 76.00

MATH-500 (数学推理) 97.40

GSM8K (数学推理) 未公布

参数(亿) 80

开源情况免费商用授权

查看模型详情

#63

Magistral-Medium-2506

AIME2025 (数学推理) 64.95

AIME 2024 (数学推理) 73.59

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#64

Gemini 2.5 Flash-Lite

AIME2025 (数学推理) 63.10

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#65

Magistral-Small-2506

AIME2025 (数学推理) 62.76

AIME 2024 (数学推理) 70.68

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 240

开源情况免费商用授权

查看模型详情

#66

GPT-5

AIME2025 (数学推理) 61.90

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#67

Gemini 2.5 Flash

AIME2025 (数学推理) 61.60

AIME 2024 (数学推理) 88.00

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#68

Qwen3-30B-A3B-2507

AIME2025 (数学推理) 61.30

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 305

开源情况免费商用授权

查看模型详情

#69

DeepSeek V3.2-Exp

AIME2025 (数学推理) 58.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#70

Claude Sonnet 3.7

AIME2025 (数学推理) 54.80

AIME 2024 (数学推理) 23.30

MATH-500 (数学推理) 82.20

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#71

Kimi K2

AIME2025 (数学推理) 54.00

AIME 2024 (数学推理) 69.60

MATH-500 (数学推理) 97.40

GSM8K (数学推理) 未公布

参数(亿) 10,000

开源情况免费商用授权

查看模型详情

#72

DeepSeek-V3.1 Terminus

AIME2025 (数学推理) 54.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#73

DeepSeek-V3.1

AIME2025 (数学推理) 49.80

AIME 2024 (数学推理) 66.30

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#74

DeepSeek-V3-0324

AIME2025 (数学推理) 47.70

AIME 2024 (数学推理) 59.40

MATH-500 (数学推理) 94.00

GSM8K (数学推理) 96.30

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

#75

Qwen3-4B-2507

AIME2025 (数学推理) 47.40

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 40

开源情况免费商用授权

查看模型详情

#76

GPT-5-mini thinking

AIME2025 (数学推理) 47.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#77

GPT-5-mini

AIME2025 (数学推理) 47.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#78

GLM-4.6

AIME2025 (数学推理) 44.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 3,550

开源情况免费商用授权

查看模型详情

#79

GPT-4o normal + 使用工具

AIME2025 (数学推理) 42.10

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#80

Haiku 4.5

AIME2025 (数学推理) 39.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#81

Claude Sonnet 4

AIME2025 (数学推理) 38.00

AIME 2024 (数学推理) 43.40

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#82

Claude Sonnet 4.5

AIME2025 (数学推理) 37.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#83

GPT-4.1

AIME2025 (数学推理) 36.70

AIME 2024 (数学推理) 48.10

MATH-500 (数学推理) 92.80

GSM8K (数学推理) 95.90

参数(亿) 未知

开源情况不开源

查看模型详情

#84

ERNIE-4.5-VL-424B-A47B-Base thinking

AIME2025 (数学推理) 35.10

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 4,240

开源情况免费商用授权

查看模型详情

#85

ERNIE-4.5-300B-A47B

AIME2025 (数学推理) 35.10

AIME 2024 (数学推理) 54.80

MATH-500 (数学推理) 96.40

GSM8K (数学推理) 96.60

参数(亿) 3,000

开源情况免费商用授权

查看模型详情

#86

Gemini 2.0 Flash Experimental

AIME2025 (数学推理) 29.70

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#87

GPT-4o(2025-03-27)

AIME2025 (数学推理) 26.70

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#88

Qwen3-235B-A22B

AIME2025 (数学推理) 24.70

AIME 2024 (数学推理) 85.70

MATH-500 (数学推理) 96.20

GSM8K (数学推理) 96.40

参数(亿) 2,350

开源情况免费商用授权

查看模型详情

#89

Qwen3-30B-A3B

AIME2025 (数学推理) 21.60

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 305

开源情况免费商用授权

查看模型详情

#90

Qwen3-8B

AIME2025 (数学推理) 20.90

AIME 2024 (数学推理) 79.40

MATH-500 (数学推理) 87.40

GSM8K (数学推理) 未公布

参数(亿) 80

开源情况免费商用授权

查看模型详情

#91

Claude Sonnet 4.5 thinking + 使用工具

AIME2025 (数学推理) 100.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#92

Kimi K2 Thinking parallel_thinking + 使用工具

AIME2025 (数学推理) 100.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 10,400

开源情况免费商用授权

查看模型详情

#93

Grok 4 Heavy parallel_thinking

AIME2025 (数学推理) 100.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#94

GPT-5-Pro thinking + 使用工具

AIME2025 (数学推理) 100.00

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#95

OpenAI o3-mini (high)

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 87.00

MATH-500 (数学推理) 97.90

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#96

Kimi k1.5 (Long-CoT)

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 96.20

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#97

GLM-4.5-Air thinking

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 89.40

MATH-500 (数学推理) 98.10

GSM8K (数学推理) 未公布

参数(亿) 1,060

开源情况免费商用授权

查看模型详情

#98

OpenAI o3

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 91.60

MATH-500 (数学推理) 98.10

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#99

GLM-4.5 thinking

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 91.00

MATH-500 (数学推理) 98.20

GSM8K (数学推理) 未公布

参数(亿) 3,550

开源情况免费商用授权

查看模型详情

#100

Gemini 2.5-Pro

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 92.00

MATH-500 (数学推理) 98.80

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#101

Amazon Nova Pro

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#102

Llama3.1-405B Instruct

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 4,050

开源情况免费商用授权

查看模型详情

#103

Gemini 1.5 Pro

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#104

Llama-3.2-3B

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 34.00

参数(亿) 32

开源情况免费商用授权

查看模型详情

#105

Mistral-7B-Instruct-v0.3

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 36.20

参数(亿) 70

开源情况免费商用授权

查看模型详情

#106

Llama3.1-8B

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 55.30

参数(亿) 80

开源情况免费商用授权

查看模型详情

#107

Gemma 2 - 9B

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 70.70

参数(亿) 90

开源情况免费商用授权

查看模型详情

#108

Moonlight-16B-A3B-Instruct

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 77.40

参数(亿) 160

开源情况免费商用授权

查看模型详情

#109

Qwen2.5-3B

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 79.10

参数(亿) 30

开源情况免费商用授权

查看模型详情

#110

Llama3.1-8B-Instruct

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 82.40

参数(亿) 80

开源情况免费商用授权

查看模型详情

#111

Qwen2.5-7B

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 85.40

参数(亿) 70

开源情况免费商用授权

查看模型详情

#112

Phi-4-mini-instruct (3.8B)

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 10.00

MATH-500 (数学推理) 71.80

GSM8K (数学推理) 88.60

参数(亿) 38

开源情况免费商用授权

查看模型详情

#113

GPT-4o mini

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 91.30

参数(亿) 未知

开源情况不开源

查看模型详情

#114

Qwen2.5-72B

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 91.50

参数(亿) 727

开源情况免费商用授权

查看模型详情

#115

Qwen2.5-Max

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 94.50

参数(亿) 未知

开源情况不开源

查看模型详情

#116

Claude3-Opus

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 95.00

参数(亿) 未知

开源情况不开源

查看模型详情

#117

Qwen2.5-32B

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 95.90

参数(亿) 320

开源情况免费商用授权

查看模型详情

#118

Pangu Embedded

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 81.90

MATH-500 (数学推理) 92.40

GSM8K (数学推理) 95.98

参数(亿) 70

开源情况免费商用授权

查看模型详情

#119

DeepSeek-V3

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 39.00

MATH-500 (数学推理) 87.80

GSM8K (数学推理) 未公布

参数(亿) 6,810

开源情况免费商用授权

查看模型详情

#120

Grok 3.5

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#121

Gemma 3 - 27B (IT)

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 25.30

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 270

开源情况免费商用授权

查看模型详情

#122

GPT-4.1 nano

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 29.40

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#123

Gemini 2.0 Pro Experimental

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 36.00

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#124

Grok 3 mini

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 40.00

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#125

GPT-4.1 mini

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 49.60

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#126

GLM-4-9B-Chat

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 76.40

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 90

开源情况免费商用授权

查看模型详情

#127

Grok-3 - Reasoning Beta

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 93.30

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#128

Grok-3 mini - Reasoning

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 96.00

MATH-500 (数学推理) 未公布

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#129

GPT-4o

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 9.30

MATH-500 (数学推理) 75.90

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#130

Claude 3.5 Sonnet New

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 16.00

MATH-500 (数学推理) 78.00

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#131

OpenAI o1

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 79.20

MATH-500 (数学推理) 96.40

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#132

OpenAI o1-mini

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 63.60

MATH-500 (数学推理) 90.00

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#133

Phi-4-instruct (reasoning-trained)

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 50.00

MATH-500 (数学推理) 90.40

GSM8K (数学推理) 未公布

参数(亿) 38

开源情况不开源

查看模型详情

#134

QwQ-32B-Preview

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 50.00

MATH-500 (数学推理) 90.60

GSM8K (数学推理) 未公布

参数(亿) 320

开源情况免费商用授权

查看模型详情

#135

GPT-4.5

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 36.70

MATH-500 (数学推理) 90.70

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#136

QwQ-32B

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 79.50

MATH-500 (数学推理) 91.00

GSM8K (数学推理) 未公布

参数(亿) 325

开源情况免费商用授权

查看模型详情

#137

DeepSeek-R1-Distill-Qwen-7B

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 53.30

MATH-500 (数学推理) 91.40

GSM8K (数学推理) 未公布

参数(亿) 70

开源情况免费商用授权

查看模型详情

#138

DeepSeek-R1-Distill-Llama-70B

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 94.50

GSM8K (数学推理) 未公布

参数(亿) 700

开源情况免费商用授权

查看模型详情

#139

Kimi k1.5 (Short-CoT)

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 94.60

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#140

Llama 4 Behemoth Instruct

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

MATH-500 (数学推理) 95.00

GSM8K (数学推理) 未公布

参数(亿) 20,000

开源情况免费商用授权

查看模型详情

#141

Hunyuan-T1

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 78.20

MATH-500 (数学推理) 96.20

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

#142

Claude Sonnet 3.7-64K Extended Thinking

AIME2025 (数学推理) 未公布

AIME 2024 (数学推理) 80.00

MATH-500 (数学推理) 96.20

GSM8K (数学推理) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

大模型数学推理能力评测排行榜