DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
Tools

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型数学推理能力评测排行榜

本页面提供最新、最全面的大模型数学推理能力评测排行榜。我们通过 GSM8K、MATH、AIME 2025 等多个权威数学基准数据集,对包括 OpenAI 的 GPT-4o、Anthropic 的 Claude、阿里巴巴的 Qwen、DeepSeek-R1 等模型进行评测。

数据更新于: 2025-07-20 20:56:42

评测切换

在这里切换评测,图表和表格会同步更新

AIME2025AIME 2024MATH-500GSM8K

还有更多评测基准

进入评测基准列表,按类别/语言快速筛选

更多评测

筛选

全部3B及以下7B13B34B65B100B及以上
全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

大模型性能评测结果

数据来源:DataLearnerAI
排名模型AIME2025AIME 2024MATH-500GSM8K参数(亿)开源情况
1Step 3.5 Flash99.800.000.000.001960B免费商用
2Gemini 3.0 Flash99.700.000.000.00—不开源
3GPT-599.600.000.000.00—不开源
4OpenAI o4 - mini99.5098.700.000.00—不开源
5Gemini 2.5 Deep Think99.200.000.000.00—不开源
6Grok 498.800.000.000.00—不开源
7GPT OSS 20B98.7096.000.000.00210B免费商用
8GLM-4.698.600.000.000.003550B免费商用
9GPT OSS 120B97.9096.600.000.00117B免费商用
10Haiku 4.596.300.000.000.00—不开源
11Kimi K2.596.100.000.000.0010000B免费商用
12DeepSeek V3.2 Speciale96.000.000.000.00—免费商用
13GLM-4.795.700.000.000.003580B免费商用
14Gemini 3.0 Pro (Preview 11-2025)95.000.000.000.00—不开源
15GPT-5.194.000.000.000.00—不开源
16GPT-5.194.000.000.000.00—不开源
17DeepSeek V3.293.100.000.000.006710B免费商用
18o3-pro93.0093.000.000.00—不开源
19Qwen3-235B-A22B-Thinking-250792.300.000.000.002350B免费商用
20Qwen3-235B-A22B-Thinking92.300.000.000.00305B免费商用
21Grok 4 Fast92.000.000.000.00—不开源
22GLM-4.7-Flash91.600.000.000.00310B免费商用
23DeepSeek-V3.1 Terminus90.000.000.000.006710B免费商用
24DeepSeek V3.2-Exp89.300.000.000.006710B免费商用
25Grok 4.1 Fast89.000.000.000.00—不开源
26OpenAI o388.9091.6098.100.00—不开源
27DeepSeek-V3.188.4093.100.000.006710B免费商用
28Gemini 2.5-Pro88.0092.0098.800.00—不开源
29DeepSeek-R1-052887.5091.4098.000.006710B免费商用
30Gemini 2.5 Pro Experimental 03-2586.9092.000.000.00—不开源
31OpenAI o3-mini86.5060.0095.800.00—不开源
32MiniMax M2.586.300.000.000.002290B免费商用
33Intern-S186.000.000.000.002410B免费商用
34Claude Sonnet 485.0043.400.000.00—不开源
35Gemini-2.5-Pro-Preview-05-0683.0092.0098.800.00—不开源
36Step382.900.000.000.003210B免费商用
37Qwen3-235B-A22B81.5085.7098.0096.402350B免费商用
38Qwen3-4B-Thinking-250781.300.000.000.0040B免费商用
39M2.181.000.000.000.002300B免费商用
40Qwen3 Max (Preview)80.600.000.000.00—不开源
41Claude Opus 4.178.000.000.000.00—不开源
42MiniMax M278.000.000.000.002300B免费商用
43Grok 377.1084.200.000.00—不开源
44MiniMax-M1-80k76.9086.0096.800.004560B免费商用
45Hunyuan-A13B-Instruct76.8087.300.0091.83800B免费商用
46Claude Opus 475.5076.0098.200.00—不开源
47Hunyuan-7B75.3081.1093.700.0070B免费商用
48Kimi K2 090575.200.000.000.0010000B免费商用
49MiniMax-M1-40k74.6083.3096.000.004560B免费商用
50Qwen3-32B72.9081.4097.200.00320B免费商用
51Gemini 2.5 Flash72.0088.000.000.00—不开源
52Qwen3-235B-A22B-250770.300.000.000.002350B免费商用
53DeepSeek-R170.0079.8097.300.006710B免费商用
54Qwen3-Next69.500.000.0090.30800B免费商用
55Pangu Pro MoE68.1079.2096.800.00719B免费商用
56Qwen3-8B67.3079.4097.400.0080B免费商用
57Magistral-Medium-250664.9573.590.000.00—不开源
58Gemini 2.5 Flash-Lite63.100.000.000.00—不开源
59Magistral-Small-250662.7670.680.000.00240B免费商用
60Qwen3-30B-A3B-250761.300.000.000.00305B免费商用
61Claude Sonnet 3.754.8023.3082.200.00—不开源
62Kimi K254.0069.6097.400.0010000B免费商用
63DeepSeek-V3-032447.7059.4094.0096.306710B免费商用
64Qwen3-4B-250747.400.000.000.0040B免费商用
65GPT-5-mini47.000.000.000.00—不开源
66GPT-4o42.109.3075.900.00—不开源
67GPT-4.136.7048.1092.8095.90—不开源
68ERNIE-4.5-VL-424B-A47B-Base35.100.000.000.004240B免费商用
69ERNIE-4.5-300B-A47B35.1054.8096.4096.603000B免费商用
70Gemini 2.0 Flash Experimental29.700.000.000.00—不开源
71GPT-4o(2025-03-27)26.700.000.000.00—不开源
72Qwen3-30B-A3B21.600.000.000.00305B免费商用
73GPT-5.2100.000.000.000.00—不开源
74Kimi K2 Thinking100.000.000.000.0010400B免费商用
75Claude Sonnet 4.5100.000.000.000.00—不开源
76GPT-5-Pro100.000.000.000.00—不开源
77Grok 4 Heavy100.000.000.000.00—不开源
78QwQ-32B-Preview0.0050.0090.600.00320B免费商用
79Qwen2.5-Max0.000.000.0094.50—不开源
80Claude3-Opus0.000.000.0095.00—不开源
81OpenAI o3-mini (high)0.0087.0097.900.00—不开源
82Qwen2.5-32B0.000.000.0095.90320B免费商用
83Pangu Embedded0.0081.9092.4095.9870B免费商用
84Grok-3 - Reasoning Beta0.0093.300.000.00—不开源
85Grok-3 mini - Reasoning0.0096.000.000.00—不开源
86Claude 3.5 Sonnet New0.0016.0078.000.00—不开源
87DeepSeek-V30.0039.0087.800.006810B免费商用
88OpenAI o1-mini0.0063.6090.000.00—不开源
89Phi-4-instruct (reasoning-trained)0.0050.0090.400.0038B不开源
90GLM-4.5-Air0.0089.4098.100.001060B免费商用
91GPT-4.50.0036.7090.700.00—不开源
92QwQ-32B0.0079.5091.000.00325B免费商用
93DeepSeek-R1-Distill-Qwen-7B0.0053.3091.400.0070B免费商用
94DeepSeek-R1-Distill-Llama-70B0.000.0094.500.00700B免费商用
95Kimi k1.5 (Short-CoT)0.000.0094.600.00—不开源
96Llama 4 Behemoth Instruct0.000.0095.000.0020000B免费商用
97Hunyuan-T10.0078.2096.200.00—不开源
98Claude Sonnet 3.7-64K Extended Thinking0.0080.0096.200.00—不开源
99Kimi k1.5 (Long-CoT)0.000.0096.200.00—不开源
100OpenAI o10.0079.2096.400.00—不开源
101Mistral-7B-Instruct-v0.30.000.000.0036.2070B免费商用
102Gemma 3 - 27B (IT)0.0025.300.000.00270B免费商用
103GPT-4.1 nano0.0029.400.000.00—不开源
104Gemini 2.0 Pro Experimental0.0036.000.000.00—不开源
105Grok 3 mini0.0040.000.000.00—不开源
106GLM-4.50.0091.0098.200.003550B免费商用
107GPT-4.1 mini0.0049.600.000.00—不开源
108Amazon Nova Pro0.000.000.000.00—不开源
109Llama3.1-405B Instruct0.000.000.000.004050B免费商用
110Gemini 1.5 Pro0.000.000.000.00—不开源
111Llama-3.2-3B0.000.000.0034.0032B免费商用
112Grok 3.50.000.000.000.00—不开源
113Llama3.1-8B0.000.000.0055.3080B免费商用
114Gemma 2 - 9B0.000.000.0070.7090B免费商用
115Moonlight-16B-A3B-Instruct0.000.000.0077.40160B免费商用
116Qwen2.5-3B0.000.000.0079.1030B免费商用
117Llama3.1-8B-Instruct0.000.000.0082.4080B免费商用
118Qwen2.5-7B0.000.000.0085.4070B免费商用
119Phi-4-mini-instruct (3.8B)0.0010.0071.8088.6038B免费商用
120GLM-4-9B-Chat0.0076.400.000.0090B免费商用
121GPT-4o mini0.000.000.0091.30—不开源
122Qwen2.5-72B0.000.000.0091.50727B免费商用
1
Step 3.5 Flash
1960B
AIME202599.80
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
2
Gemini 3.0 Flash
AIME202599.70
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
3
GPT-5
AIME202599.60
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
4
OpenAI o4 - mini
AIME202599.50
AIME 202498.70
MATH-5000.00
GSM8K0.00
不开源
5
Gemini 2.5 Deep Think
AIME202599.20
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
6
Grok 4
AIME202598.80
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
7
GPT OSS 20B
210B
AIME202598.70
AIME 202496.00
MATH-5000.00
GSM8K0.00
免费商用
8
GLM-4.6
3550B
AIME202598.60
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
9
GPT OSS 120B
117B
AIME202597.90
AIME 202496.60
MATH-5000.00
GSM8K0.00
免费商用
10
Haiku 4.5
AIME202596.30
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
11
Kimi K2.5
10000B
AIME202596.10
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
12
DeepSeek V3.2 Speciale
AIME202596.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
13
GLM-4.7
3580B
AIME202595.70
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
14
Gemini 3.0 Pro (Preview 11-2025)
AIME202595.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
15
GPT-5.1
AIME202594.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
16
GPT-5.1
AIME202594.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
17
DeepSeek V3.2
6710B
AIME202593.10
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
18
o3-pro
AIME202593.00
AIME 202493.00
MATH-5000.00
GSM8K0.00
不开源
19
Qwen3-235B-A22B-Thinking-2507
2350B
AIME202592.30
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
20
Qwen3-235B-A22B-Thinking
305B
AIME202592.30
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
21
Grok 4 Fast
AIME202592.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
22
GLM-4.7-Flash
310B
AIME202591.60
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
23
DeepSeek-V3.1 Terminus
6710B
AIME202590.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
24
DeepSeek V3.2-Exp
6710B
AIME202589.30
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
25
Grok 4.1 Fast
AIME202589.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
26
OpenAI o3
AIME202588.90
AIME 202491.60
MATH-50098.10
GSM8K0.00
不开源
27
DeepSeek-V3.1
6710B
AIME202588.40
AIME 202493.10
MATH-5000.00
GSM8K0.00
免费商用
28
Gemini 2.5-Pro
AIME202588.00
AIME 202492.00
MATH-50098.80
GSM8K0.00
不开源
29
DeepSeek-R1-0528
6710B
AIME202587.50
AIME 202491.40
MATH-50098.00
GSM8K0.00
免费商用
30
Gemini 2.5 Pro Experimental 03-25
AIME202586.90
AIME 202492.00
MATH-5000.00
GSM8K0.00
不开源
31
OpenAI o3-mini
AIME202586.50
AIME 202460.00
MATH-50095.80
GSM8K0.00
不开源
32
MiniMax M2.5
2290B
AIME202586.30
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
33
Intern-S1
2410B
AIME202586.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
34
Claude Sonnet 4
AIME202585.00
AIME 202443.40
MATH-5000.00
GSM8K0.00
不开源
35
Gemini-2.5-Pro-Preview-05-06
AIME202583.00
AIME 202492.00
MATH-50098.80
GSM8K0.00
不开源
36
Step3
3210B
AIME202582.90
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
37
Qwen3-235B-A22B
2350B
AIME202581.50
AIME 202485.70
MATH-50098.00
GSM8K96.40
免费商用
38
Qwen3-4B-Thinking-2507
40B
AIME202581.30
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
39
M2.1
2300B
AIME202581.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
40
Qwen3 Max (Preview)
AIME202580.60
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
41
Claude Opus 4.1
AIME202578.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
42
MiniMax M2
2300B
AIME202578.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
43
Grok 3
AIME202577.10
AIME 202484.20
MATH-5000.00
GSM8K0.00
不开源
44
MiniMax-M1-80k
4560B
AIME202576.90
AIME 202486.00
MATH-50096.80
GSM8K0.00
免费商用
45
Hunyuan-A13B-Instruct
800B
AIME202576.80
AIME 202487.30
MATH-5000.00
GSM8K91.83
免费商用
46
Claude Opus 4
AIME202575.50
AIME 202476.00
MATH-50098.20
GSM8K0.00
不开源
47
Hunyuan-7B
70B
AIME202575.30
AIME 202481.10
MATH-50093.70
GSM8K0.00
免费商用
48
Kimi K2 0905
10000B
AIME202575.20
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
49
MiniMax-M1-40k
4560B
AIME202574.60
AIME 202483.30
MATH-50096.00
GSM8K0.00
免费商用
50
Qwen3-32B
320B
AIME202572.90
AIME 202481.40
MATH-50097.20
GSM8K0.00
免费商用
51
Gemini 2.5 Flash
AIME202572.00
AIME 202488.00
MATH-5000.00
GSM8K0.00
不开源
52
Qwen3-235B-A22B-2507
2350B
AIME202570.30
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
53
DeepSeek-R1
6710B
AIME202570.00
AIME 202479.80
MATH-50097.30
GSM8K0.00
免费商用
54
Qwen3-Next
800B
AIME202569.50
AIME 20240.00
MATH-5000.00
GSM8K90.30
免费商用
55
Pangu Pro MoE
719B
AIME202568.10
AIME 202479.20
MATH-50096.80
GSM8K0.00
免费商用
56
Qwen3-8B
80B
AIME202567.30
AIME 202479.40
MATH-50097.40
GSM8K0.00
免费商用
57
Magistral-Medium-2506
AIME202564.95
AIME 202473.59
MATH-5000.00
GSM8K0.00
不开源
58
Gemini 2.5 Flash-Lite
AIME202563.10
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
59
Magistral-Small-2506
240B
AIME202562.76
AIME 202470.68
MATH-5000.00
GSM8K0.00
免费商用
60
Qwen3-30B-A3B-2507
305B
AIME202561.30
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
61
Claude Sonnet 3.7
AIME202554.80
AIME 202423.30
MATH-50082.20
GSM8K0.00
不开源
62
Kimi K2
10000B
AIME202554.00
AIME 202469.60
MATH-50097.40
GSM8K0.00
免费商用
63
DeepSeek-V3-0324
6710B
AIME202547.70
AIME 202459.40
MATH-50094.00
GSM8K96.30
免费商用
64
Qwen3-4B-2507
40B
AIME202547.40
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
65
GPT-5-mini
AIME202547.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
66
GPT-4o
AIME202542.10
AIME 20249.30
MATH-50075.90
GSM8K0.00
不开源
67
GPT-4.1
AIME202536.70
AIME 202448.10
MATH-50092.80
GSM8K95.90
不开源
68
ERNIE-4.5-VL-424B-A47B-Base
4240B
AIME202535.10
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
69
ERNIE-4.5-300B-A47B
3000B
AIME202535.10
AIME 202454.80
MATH-50096.40
GSM8K96.60
免费商用
70
Gemini 2.0 Flash Experimental
AIME202529.70
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
71
GPT-4o(2025-03-27)
AIME202526.70
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
72
Qwen3-30B-A3B
305B
AIME202521.60
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
73
GPT-5.2
AIME2025100.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
74
Kimi K2 Thinking
10400B
AIME2025100.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
75
Claude Sonnet 4.5
AIME2025100.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
76
GPT-5-Pro
AIME2025100.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
77
Grok 4 Heavy
AIME2025100.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
78
QwQ-32B-Preview
320B
AIME20250.00
AIME 202450.00
MATH-50090.60
GSM8K0.00
免费商用
79
Qwen2.5-Max
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K94.50
不开源
80
Claude3-Opus
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K95.00
不开源
81
OpenAI o3-mini (high)
AIME20250.00
AIME 202487.00
MATH-50097.90
GSM8K0.00
不开源
82
Qwen2.5-32B
320B
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K95.90
免费商用
83
Pangu Embedded
70B
AIME20250.00
AIME 202481.90
MATH-50092.40
GSM8K95.98
免费商用
84
Grok-3 - Reasoning Beta
AIME20250.00
AIME 202493.30
MATH-5000.00
GSM8K0.00
不开源
85
Grok-3 mini - Reasoning
AIME20250.00
AIME 202496.00
MATH-5000.00
GSM8K0.00
不开源
86
Claude 3.5 Sonnet New
AIME20250.00
AIME 202416.00
MATH-50078.00
GSM8K0.00
不开源
87
DeepSeek-V3
6810B
AIME20250.00
AIME 202439.00
MATH-50087.80
GSM8K0.00
免费商用
88
OpenAI o1-mini
AIME20250.00
AIME 202463.60
MATH-50090.00
GSM8K0.00
不开源
89
Phi-4-instruct (reasoning-trained)
38B
AIME20250.00
AIME 202450.00
MATH-50090.40
GSM8K0.00
不开源
90
GLM-4.5-Air
1060B
AIME20250.00
AIME 202489.40
MATH-50098.10
GSM8K0.00
免费商用
91
GPT-4.5
AIME20250.00
AIME 202436.70
MATH-50090.70
GSM8K0.00
不开源
92
QwQ-32B
325B
AIME20250.00
AIME 202479.50
MATH-50091.00
GSM8K0.00
免费商用
93
DeepSeek-R1-Distill-Qwen-7B
70B
AIME20250.00
AIME 202453.30
MATH-50091.40
GSM8K0.00
免费商用
94
DeepSeek-R1-Distill-Llama-70B
700B
AIME20250.00
AIME 20240.00
MATH-50094.50
GSM8K0.00
免费商用
95
Kimi k1.5 (Short-CoT)
AIME20250.00
AIME 20240.00
MATH-50094.60
GSM8K0.00
不开源
96
Llama 4 Behemoth Instruct
20000B
AIME20250.00
AIME 20240.00
MATH-50095.00
GSM8K0.00
免费商用
97
Hunyuan-T1
AIME20250.00
AIME 202478.20
MATH-50096.20
GSM8K0.00
不开源
98
Claude Sonnet 3.7-64K Extended Thinking
AIME20250.00
AIME 202480.00
MATH-50096.20
GSM8K0.00
不开源
99
Kimi k1.5 (Long-CoT)
AIME20250.00
AIME 20240.00
MATH-50096.20
GSM8K0.00
不开源
100
OpenAI o1
AIME20250.00
AIME 202479.20
MATH-50096.40
GSM8K0.00
不开源
101
Mistral-7B-Instruct-v0.3
70B
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K36.20
免费商用
102
Gemma 3 - 27B (IT)
270B
AIME20250.00
AIME 202425.30
MATH-5000.00
GSM8K0.00
免费商用
103
GPT-4.1 nano
AIME20250.00
AIME 202429.40
MATH-5000.00
GSM8K0.00
不开源
104
Gemini 2.0 Pro Experimental
AIME20250.00
AIME 202436.00
MATH-5000.00
GSM8K0.00
不开源
105
Grok 3 mini
AIME20250.00
AIME 202440.00
MATH-5000.00
GSM8K0.00
不开源
106
GLM-4.5
3550B
AIME20250.00
AIME 202491.00
MATH-50098.20
GSM8K0.00
免费商用
107
GPT-4.1 mini
AIME20250.00
AIME 202449.60
MATH-5000.00
GSM8K0.00
不开源
108
Amazon Nova Pro
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
109
Llama3.1-405B Instruct
4050B
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
免费商用
110
Gemini 1.5 Pro
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
111
Llama-3.2-3B
32B
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K34.00
免费商用
112
Grok 3.5
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K0.00
不开源
113
Llama3.1-8B
80B
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K55.30
免费商用
114
Gemma 2 - 9B
90B
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K70.70
免费商用
115
Moonlight-16B-A3B-Instruct
160B
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K77.40
免费商用
116
Qwen2.5-3B
30B
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K79.10
免费商用
117
Llama3.1-8B-Instruct
80B
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K82.40
免费商用
118
Qwen2.5-7B
70B
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K85.40
免费商用
119
Phi-4-mini-instruct (3.8B)
38B
AIME20250.00
AIME 202410.00
MATH-50071.80
GSM8K88.60
免费商用
120
GLM-4-9B-Chat
90B
AIME20250.00
AIME 202476.40
MATH-5000.00
GSM8K0.00
免费商用
121
GPT-4o mini
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K91.30
不开源
122
Qwen2.5-72B
727B
AIME20250.00
AIME 20240.00
MATH-5000.00
GSM8K91.50
免费商用