MMLU Pro 评测基准详情

大模型已经对很多行业产生了巨大的影响,如何准确评测大模型的能力和效果,已经成为业界亟待解决的关键问题。生成式AI模型,如大型语言模型(LLMs),能够生成高质量的文本、代码、图像等内容,但其评测却相对很困难。而此前很多较早的评测也很难区分当前最优模型的能力。 以MMLU评测为例,2023年3月份,GPT-4在MMLU获得了86.4分之后,将近2年后的2024年年底,业界最好的大模型在MMLU上得分也就90.5,提升十分有限。 为此,滑铁卢大学、多伦多大学和卡耐基梅隆大学的研究人员一起提出了MMLU P

MMLU Pro 大模型得分排行榜

数据来源:DataLearnerAI

MMLU Pro详细排名数据表格

排名
模型
得分
发布时间
参数(亿)
1
91.04
2024-12-05
未知
MMLU Pro得分 91.04
发布时间 2024-12-05
参数(亿) 未知
查看模型详情
2
87.2
2025-03-21
0.0
MMLU Pro得分 87.2
发布时间 2025-03-21
参数(亿) 0.0
查看模型详情
3
xAI Logo
Grok 4 thinking
87.0
2025-07-10
0.0
MMLU Pro得分 87.0
发布时间 2025-07-10
参数(亿) 0.0
查看模型详情
4
86.1
2025-02-28
未知
MMLU Pro得分 86.1
发布时间 2025-02-28
参数(亿) 未知
查看模型详情
5
86.0
2025-06-05
0.0
MMLU Pro得分 86.0
发布时间 2025-06-05
参数(亿) 0.0
查看模型详情
6
85.6
2025-04-16
0.0
MMLU Pro得分 85.6
发布时间 2025-04-16
参数(亿) 0.0
查看模型详情
7
85.0
2025-05-23
未知
MMLU Pro得分 85.0
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
8
85.0
2025-05-28
6710.0
MMLU Pro得分 85.0
发布时间 2025-05-28
参数(亿) 6710.0
查看模型详情
9
智谱AI Logo
GLM-4.5 thinking
84.6
2025-07-28
3550.0
MMLU Pro得分 84.6
发布时间 2025-07-28
参数(亿) 3550.0
查看模型详情
10
84.4
2025-07-30
305.0
MMLU Pro得分 84.4
发布时间 2025-07-30
参数(亿) 305.0
查看模型详情
11
84.4
2025-07-25
2350.0
MMLU Pro得分 84.4
发布时间 2025-07-25
参数(亿) 2350.0
查看模型详情
12
84.0
2025-01-20
6710.0
MMLU Pro得分 84.0
发布时间 2025-01-20
参数(亿) 6710.0
查看模型详情
13
83.5
2025-07-27
2410.0
MMLU Pro得分 83.5
发布时间 2025-07-27
参数(亿) 2410.0
查看模型详情
14
83.0
2025-07-21
2350.0
MMLU Pro得分 83.0
发布时间 2025-07-21
参数(亿) 2350.0
查看模型详情
15
82.6
2025-06-30
719.0
MMLU Pro得分 82.6
发布时间 2025-06-30
参数(亿) 719.0
查看模型详情
16
82.2
2025-04-05
20000.0
MMLU Pro得分 82.2
发布时间 2025-04-05
参数(亿) 20000.0
查看模型详情
17
智谱AI Logo
GLM-4.5-Air thinking
81.4
2025-07-28
1060.0
MMLU Pro得分 81.4
发布时间 2025-07-28
参数(亿) 1060.0
查看模型详情
18
81.2
2025-03-24
6810.0
MMLU Pro得分 81.2
发布时间 2025-03-24
参数(亿) 6810.0
查看模型详情
19
81.1
2025-06-16
4560.0
MMLU Pro得分 81.1
发布时间 2025-06-16
参数(亿) 4560.0
查看模型详情
20
81.1
2025-07-11
10000.0
MMLU Pro得分 81.1
发布时间 2025-07-11
参数(亿) 10000.0
查看模型详情
21
80.6
2025-06-16
4560.0
MMLU Pro得分 80.6
发布时间 2025-06-16
参数(亿) 4560.0
查看模型详情
22
80.6
2025-04-16
未知
MMLU Pro得分 80.6
发布时间 2025-04-16
参数(亿) 未知
查看模型详情
23
80.5
2025-04-05
4000.0
MMLU Pro得分 80.5
发布时间 2025-04-05
参数(亿) 4000.0
查看模型详情
24
80.5
2025-04-14
未知
MMLU Pro得分 80.5
发布时间 2025-04-14
参数(亿) 未知
查看模型详情
25
80.3
2024-09-12
未知
MMLU Pro得分 80.3
发布时间 2024-09-12
参数(亿) 未知
查看模型详情
26
79.8
2025-03-27
0.0
MMLU Pro得分 79.8
发布时间 2025-03-27
参数(亿) 0.0
查看模型详情
27
79.1
2025-02-05
未知
MMLU Pro得分 79.1
发布时间 2025-02-05
参数(亿) 未知
查看模型详情
28
79.0
2025-06-30
70.0
MMLU Pro得分 79.0
发布时间 2025-06-30
参数(亿) 70.0
查看模型详情
29
79.0
2025-03-10
未知
MMLU Pro得分 79.0
发布时间 2025-03-10
参数(亿) 未知
查看模型详情
30
OpenAI Logo
GPT OSS 120B thinking
79.0
2025-08-06
117.0
MMLU Pro得分 79.0
发布时间 2025-08-06
参数(亿) 117.0
查看模型详情
31
78.4
2025-07-29
305.0
MMLU Pro得分 78.4
发布时间 2025-07-29
参数(亿) 305.0
查看模型详情
32
78.4
2025-06-30
3000.0
MMLU Pro得分 78.4
发布时间 2025-06-30
参数(亿) 3000.0
查看模型详情
33
78.0
2024-10-22
0.0
MMLU Pro得分 78.0
发布时间 2024-10-22
参数(亿) 0.0
查看模型详情
34
77.9
2024-11-20
未知
MMLU Pro得分 77.9
发布时间 2024-11-20
参数(亿) 未知
查看模型详情
35
77.9
2024-05-13
0.0
MMLU Pro得分 77.9
发布时间 2024-05-13
参数(亿) 0.0
查看模型详情
36
77.64
2024-06-21
未知
MMLU Pro得分 77.64
发布时间 2024-06-21
参数(亿) 未知
查看模型详情
37
76.24
2024-12-11
未知
MMLU Pro得分 76.24
发布时间 2024-12-11
参数(亿) 未知
查看模型详情
38
76.1
2025-01-28
未知
MMLU Pro得分 76.1
发布时间 2025-01-28
参数(亿) 未知
查看模型详情
39
76.1
2024-02-15
0.0
MMLU Pro得分 76.1
发布时间 2024-02-15
参数(亿) 0.0
查看模型详情
40
76.0
2025-03-06
325.0
MMLU Pro得分 76.0
发布时间 2025-03-06
参数(亿) 325.0
查看模型详情
41
75.9
2024-12-26
6810.0
MMLU Pro得分 75.9
发布时间 2024-12-26
参数(亿) 6810.0
查看模型详情
42
75.5
2024-08-13
未知
MMLU Pro得分 75.5
发布时间 2024-08-13
参数(亿) 未知
查看模型详情
43
74.3
2025-04-05
1090.0
MMLU Pro得分 74.3
发布时间 2025-04-05
参数(亿) 1090.0
查看模型详情
44
OpenAI Logo
GPT OSS 20B thinking
74.0
2025-08-06
210.0
MMLU Pro得分 74.0
发布时间 2025-08-06
参数(亿) 210.0
查看模型详情
45
73.4
2024-07-23
4050.0
MMLU Pro得分 73.4
发布时间 2024-07-23
参数(亿) 4050.0
查看模型详情
46
72.9
2025-04-28
2350.0
MMLU Pro得分 72.9
发布时间 2025-04-28
参数(亿) 2350.0
查看模型详情
47
72.5
2025-04-28
80.0
MMLU Pro得分 72.5
发布时间 2025-04-28
参数(亿) 80.0
查看模型详情
48
72.4
2024-06-05
90.0
MMLU Pro得分 72.4
发布时间 2024-06-05
参数(亿) 90.0
查看模型详情
49
71.6
2025-02-05
未知
MMLU Pro得分 71.6
发布时间 2025-02-05
参数(亿) 未知
查看模型详情
50
70.97
2024-11-28
320.0
MMLU Pro得分 70.97
发布时间 2024-11-28
参数(亿) 320.0
查看模型详情
51
70.4
2024-12-12
140.0
MMLU Pro得分 70.4
发布时间 2024-12-12
参数(亿) 140.0
查看模型详情
52
69.23
2024-09-18
320.0
MMLU Pro得分 69.23
发布时间 2024-09-18
参数(亿) 320.0
查看模型详情
53
69.1
2025-04-28
305.0
MMLU Pro得分 69.1
发布时间 2025-04-28
参数(亿) 305.0
查看模型详情
54
69.06
2025-06-20
240.0
MMLU Pro得分 69.06
发布时间 2025-06-20
参数(亿) 240.0
查看模型详情
55
68.9
2024-12-06
700.0
MMLU Pro得分 68.9
发布时间 2024-12-06
参数(亿) 700.0
查看模型详情
56
68.45
2024-03-04
0.0
MMLU Pro得分 68.45
发布时间 2024-03-04
参数(亿) 0.0
查看模型详情
57
67.5
2025-03-12
270.0
MMLU Pro得分 67.5
发布时间 2025-03-12
参数(亿) 270.0
查看模型详情
58
67.23
2025-06-27
800.0
MMLU Pro得分 67.23
发布时间 2025-06-27
参数(亿) 800.0
查看模型详情
59
66.76
2025-03-17
240.0
MMLU Pro得分 66.76
发布时间 2025-03-17
参数(亿) 240.0
查看模型详情
60
66.4
2024-07-23
700.0
MMLU Pro得分 66.4
发布时间 2024-07-23
参数(亿) 700.0
查看模型详情
61
65.0
2024-10-22
0.0
MMLU Pro得分 65.0
发布时间 2024-10-22
参数(亿) 0.0
查看模型详情
62
63.69
2024-09-18
140.0
MMLU Pro得分 63.69
发布时间 2024-09-18
参数(亿) 140.0
查看模型详情
63
62.9
2025-04-05
4000.0
MMLU Pro得分 62.9
发布时间 2025-04-05
参数(亿) 4000.0
查看模型详情
64
61.7
2024-07-18
0.0
MMLU Pro得分 61.7
发布时间 2024-07-18
参数(亿) 0.0
查看模型详情
65
61.6
2024-07-23
4050.0
MMLU Pro得分 61.6
发布时间 2024-07-23
参数(亿) 4050.0
查看模型详情
66
60.6
2025-03-12
120.0
MMLU Pro得分 60.6
发布时间 2025-03-12
参数(亿) 120.0
查看模型详情
67
58.2
2025-04-05
1090.0
MMLU Pro得分 58.2
发布时间 2025-04-05
参数(亿) 1090.0
查看模型详情
68
58.1
2024-09-18
727.0
MMLU Pro得分 58.1
发布时间 2024-09-18
参数(亿) 727.0
查看模型详情
69
56.8
2024-03-04
0.0
MMLU Pro得分 56.8
发布时间 2024-03-04
参数(亿) 0.0
查看模型详情
70
56.54
2024-05-14
270.0
MMLU Pro得分 56.54
发布时间 2024-05-14
参数(亿) 270.0
查看模型详情
71
56.33
2024-04-17
1410.0
MMLU Pro得分 56.33
发布时间 2024-04-17
参数(亿) 1410.0
查看模型详情
72
56.2
2024-04-18
700.0
MMLU Pro得分 56.2
发布时间 2024-04-18
参数(亿) 700.0
查看模型详情
73
52.8
2025-02-27
38.0
MMLU Pro得分 52.8
发布时间 2025-02-27
参数(亿) 38.0
查看模型详情
74
52.78
2024-04-18
700.0
MMLU Pro得分 52.78
发布时间 2024-04-18
参数(亿) 700.0
查看模型详情
75
52.47
2024-07-23
700.0
MMLU Pro得分 52.47
发布时间 2024-07-23
参数(亿) 700.0
查看模型详情
76
51.0
2024-03-29
未知
MMLU Pro得分 51.0
发布时间 2024-03-29
参数(亿) 未知
查看模型详情
77
47.16
2025-03-04
320.0
MMLU Pro得分 47.16
发布时间 2025-03-04
参数(亿) 320.0
查看模型详情
78
45.0
2024-09-18
70.0
MMLU Pro得分 45.0
发布时间 2024-09-18
参数(亿) 70.0
查看模型详情
79
44.7
2024-06-27
90.0
MMLU Pro得分 44.7
发布时间 2024-06-27
参数(亿) 90.0
查看模型详情
80
44.0
2024-07-23
80.0
MMLU Pro得分 44.0
发布时间 2024-07-23
参数(亿) 80.0
查看模型详情
81
42.4
2025-02-23
160.0
MMLU Pro得分 42.4
发布时间 2025-02-23
参数(亿) 160.0
查看模型详情
82
35.4
2024-07-23
80.0
MMLU Pro得分 35.4
发布时间 2024-07-23
参数(亿) 80.0
查看模型详情
83
34.6
2024-09-18
30.0
MMLU Pro得分 34.6
发布时间 2024-09-18
参数(亿) 30.0
查看模型详情
84
30.9
2024-05-22
70.0
MMLU Pro得分 30.9
发布时间 2024-05-22
参数(亿) 70.0
查看模型详情
85
25.0
2024-09-18
32.0
MMLU Pro得分 25.0
发布时间 2024-09-18
参数(亿) 32.0
查看模型详情
86
0.0
2024-12-03
未知
MMLU Pro得分 0.0
发布时间 2024-12-03
参数(亿) 未知
查看模型详情