MATH-500 评测基准详情

在评估大型语言模型(LLM)的数学推理能力时,MATH和MATH-500是两个备受关注的基准测试。尽管它们都旨在衡量模型的数学解题能力,但在发布者、发布目的、评测目标和对比结果等方面存在显著差异。

MATH-500 大模型得分排行榜

数据来源:DataLearnerAI

MATH-500详细排名数据表格

排名
模型
得分
发布时间
参数(亿)
1
98.8
2025-05-06
未知
MATH-500得分 98.8
发布时间 2025-05-06
参数(亿) 未知
查看模型详情
2
98.8
2025-06-05
0.0
MATH-500得分 98.8
发布时间 2025-06-05
参数(亿) 0.0
查看模型详情
3
98.2
2025-05-23
未知
MATH-500得分 98.2
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
4
智谱AI Logo
GLM-4.5 thinking
98.2
2025-07-28
3550.0
MATH-500得分 98.2
发布时间 2025-07-28
参数(亿) 3550.0
查看模型详情
5
98.1
2025-04-16
0.0
MATH-500得分 98.1
发布时间 2025-04-16
参数(亿) 0.0
查看模型详情
6
智谱AI Logo
GLM-4.5-Air thinking
98.1
2025-07-28
1060.0
MATH-500得分 98.1
发布时间 2025-07-28
参数(亿) 1060.0
查看模型详情
7
98.0
2025-05-28
6710.0
MATH-500得分 98.0
发布时间 2025-05-28
参数(亿) 6710.0
查看模型详情
8
98.0
2025-04-28
2350.0
MATH-500得分 98.0
发布时间 2025-04-28
参数(亿) 2350.0
查看模型详情
9
97.9
2025-01-31
未知
MATH-500得分 97.9
发布时间 2025-01-31
参数(亿) 未知
查看模型详情
10
97.4
2025-07-11
10000.0
MATH-500得分 97.4
发布时间 2025-07-11
参数(亿) 10000.0
查看模型详情
11
阿里巴巴 Logo
Qwen3-8B thinking
97.4
2025-04-28
80.0
MATH-500得分 97.4
发布时间 2025-04-28
参数(亿) 80.0
查看模型详情
12
97.3
2025-01-20
6710.0
MATH-500得分 97.3
发布时间 2025-01-20
参数(亿) 6710.0
查看模型详情
13
阿里巴巴 Logo
Qwen3-32B thinking
97.2
2025-04-28
320.0
MATH-500得分 97.2
发布时间 2025-04-28
参数(亿) 320.0
查看模型详情
14
96.8
2025-06-16
4560.0
MATH-500得分 96.8
发布时间 2025-06-16
参数(亿) 4560.0
查看模型详情
15
96.8
2025-06-30
719.0
MATH-500得分 96.8
发布时间 2025-06-30
参数(亿) 719.0
查看模型详情
16
96.4
2024-12-05
未知
MATH-500得分 96.4
发布时间 2024-12-05
参数(亿) 未知
查看模型详情
17
96.4
2025-06-30
3000.0
MATH-500得分 96.4
发布时间 2025-06-30
参数(亿) 3000.0
查看模型详情
18
96.2
2025-01-22
未知
MATH-500得分 96.2
发布时间 2025-01-22
参数(亿) 未知
查看模型详情
19
96.2
2025-04-28
2350.0
MATH-500得分 96.2
发布时间 2025-04-28
参数(亿) 2350.0
查看模型详情
20
96.2
2025-03-21
0.0
MATH-500得分 96.2
发布时间 2025-03-21
参数(亿) 0.0
查看模型详情
21
96.2
2025-02-25
未知
MATH-500得分 96.2
发布时间 2025-02-25
参数(亿) 未知
查看模型详情
22
96.0
2025-06-16
4560.0
MATH-500得分 96.0
发布时间 2025-06-16
参数(亿) 4560.0
查看模型详情
23
OpenAI Logo
OpenAI o3-mini thinking
95.8
2025-01-31
0.0
MATH-500得分 95.8
发布时间 2025-01-31
参数(亿) 0.0
查看模型详情
24
95.0
2025-04-05
20000.0
MATH-500得分 95.0
发布时间 2025-04-05
参数(亿) 20000.0
查看模型详情
25
94.6
2025-01-22
未知
MATH-500得分 94.6
发布时间 2025-01-22
参数(亿) 未知
查看模型详情
26
94.5
2025-01-20
700.0
MATH-500得分 94.5
发布时间 2025-01-20
参数(亿) 700.0
查看模型详情
27
94.0
2025-03-24
6810.0
MATH-500得分 94.0
发布时间 2025-03-24
参数(亿) 6810.0
查看模型详情
28
93.7
2025-08-04
70.0
MATH-500得分 93.7
发布时间 2025-08-04
参数(亿) 70.0
查看模型详情
29
92.8
2025-04-14
未知
MATH-500得分 92.8
发布时间 2025-04-14
参数(亿) 未知
查看模型详情
30
92.4
2025-06-30
70.0
MATH-500得分 92.4
发布时间 2025-06-30
参数(亿) 70.0
查看模型详情
31
91.4
2025-01-20
70.0
MATH-500得分 91.4
发布时间 2025-01-20
参数(亿) 70.0
查看模型详情
32
91.0
2025-03-06
325.0
MATH-500得分 91.0
发布时间 2025-03-06
参数(亿) 325.0
查看模型详情
33
90.7
2025-02-28
未知
MATH-500得分 90.7
发布时间 2025-02-28
参数(亿) 未知
查看模型详情
34
90.6
2024-11-28
320.0
MATH-500得分 90.6
发布时间 2024-11-28
参数(亿) 320.0
查看模型详情
35
90.4
2025-02-27
38.0
MATH-500得分 90.4
发布时间 2025-02-27
参数(亿) 38.0
查看模型详情
36
90.0
2024-09-12
未知
MATH-500得分 90.0
发布时间 2024-09-12
参数(亿) 未知
查看模型详情
37
87.8
2024-12-26
6810.0
MATH-500得分 87.8
发布时间 2024-12-26
参数(亿) 6810.0
查看模型详情
38
87.4
2025-04-28
80.0
MATH-500得分 87.4
发布时间 2025-04-28
参数(亿) 80.0
查看模型详情
39
82.2
2025-02-25
未知
MATH-500得分 82.2
发布时间 2025-02-25
参数(亿) 未知
查看模型详情
40
78.0
2024-10-22
0.0
MATH-500得分 78.0
发布时间 2024-10-22
参数(亿) 0.0
查看模型详情
41
75.9
2024-05-13
0.0
MATH-500得分 75.9
发布时间 2024-05-13
参数(亿) 0.0
查看模型详情
42
71.8
2025-02-27
38.0
MATH-500得分 71.8
发布时间 2025-02-27
参数(亿) 38.0
查看模型详情