MMLU Pro 评测基准详情

613

大模型已经对很多行业产生了巨大的影响,如何准确评测大模型的能力和效果,已经成为业界亟待解决的关键问题。生成式AI模型,如大型语言模型(LLMs),能够生成高质量的文本、代码、图像等内容,但其评测却相对很困难。而此前很多较早的评测也很难区分当前最优模型的能力。 以MMLU评测为例,2023年3月份,GPT-4在MMLU获得了86.4分之后,将近2年后的2024年年底,业界最好的大模型在MMLU上得分也就90.5,提升十分有限。 为此,滑铁卢大学、多伦多大学和卡耐基梅隆大学的研究人员一起提出了MMLU P

模型模式说明

不同模式会显著影响成绩,请在对比榜单时留意标签提示。

提示:若某条记录未显示任何标签,即默认是 normal 常规模式。

normal

常规推理:单步推理,不延长思考、也不调用额外工具。

thinking low medium high

Thinking 系列:常规延长思考时间,low/medium/high 代表不同耗时或深度,各厂商叫法不同。

deeper thinking

Deeper thinking:在 Thinking 基础上进一步延长思考链条,通常意味着更多算力与时间。

使用工具 / 联网

允许调用检索、浏览器、代码解释器等外部能力。

parallel_thinking

并行思考:多线程/多代理协同探索再汇总,通常只在厂商内部实验环境中启用、尚未对外开放,因此被视为“作弊”模式。

MMLU Pro 大模型得分排行榜

数据来源:DataLearnerAI

MMLU Pro详细排名数据表格

默认:仅展示常规/非并行的评测结果,可按需查看并行思考成绩。

默认隐藏并行思考结果。

排名
模型
得分
发布时间
参数(亿)
1
91.04
2024-12-05
未知
MMLU Pro得分 91.04
发布时间 2024-12-05
参数(亿) 未知
查看模型详情
2
90.0
2025-11-18
未知
MMLU Pro得分 90.0
发布时间 2025-11-18
参数(亿) 未知
查看模型详情
3
90.0
2025-11-25
未知
MMLU Pro得分 90.0
发布时间 2025-11-25
参数(亿) 未知
查看模型详情
4
88.0
2025-08-06
未知
MMLU Pro得分 88.0
发布时间 2025-08-06
参数(亿) 未知
查看模型详情
5
88.0
2025-09-30
未知
MMLU Pro得分 88.0
发布时间 2025-09-30
参数(亿) 未知
查看模型详情
6
87.2
2025-03-21
未知
MMLU Pro得分 87.2
发布时间 2025-03-21
参数(亿) 未知
查看模型详情
7
xAI Logo
Grok 4 thinking
87.0
2025-07-10
未知
MMLU Pro得分 87.0
发布时间 2025-07-10
参数(亿) 未知
查看模型详情
8
86.1
2025-02-28
未知
MMLU Pro得分 86.1
发布时间 2025-02-28
参数(亿) 未知
查看模型详情
9
86.0
2025-06-05
未知
MMLU Pro得分 86.0
发布时间 2025-06-05
参数(亿) 未知
查看模型详情
10
85.6
2025-04-16
未知
MMLU Pro得分 85.6
发布时间 2025-04-16
参数(亿) 未知
查看模型详情
11
85.0
2025-05-23
未知
MMLU Pro得分 85.0
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
12
85.0
2025-05-28
6710.0
MMLU Pro得分 85.0
发布时间 2025-05-28
参数(亿) 6710.0
查看模型详情
13
DeepSeek-AI Logo
DeepSeek-V3.1 thinking
85.0
2025-08-20
6710.0
MMLU Pro得分 85.0
发布时间 2025-08-20
参数(亿) 6710.0
查看模型详情
14
85.0
2025-09-22
6710.0
MMLU Pro得分 85.0
发布时间 2025-09-22
参数(亿) 6710.0
查看模型详情
15
85.0
2025-09-22
6710.0
MMLU Pro得分 85.0
发布时间 2025-09-22
参数(亿) 6710.0
查看模型详情
16
85.0
2025-09-29
6710.0
MMLU Pro得分 85.0
发布时间 2025-09-29
参数(亿) 6710.0
查看模型详情
17
xAI Logo
Grok 4.1 Fast thinking
85.0
2025-11-19
未知
MMLU Pro得分 85.0
发布时间 2025-11-19
参数(亿) 未知
查看模型详情
18
智谱AI Logo
GLM-4.5 thinking
84.6
2025-07-28
3550.0
MMLU Pro得分 84.6
发布时间 2025-07-28
参数(亿) 3550.0
查看模型详情
19
84.6
2025-11-06
10400.0
MMLU Pro得分 84.6
发布时间 2025-11-06
参数(亿) 10400.0
查看模型详情
20
84.4
2025-07-25
2350.0
MMLU Pro得分 84.4
发布时间 2025-07-25
参数(亿) 2350.0
查看模型详情
21
84.4
2025-07-30
305.0
MMLU Pro得分 84.4
发布时间 2025-07-30
参数(亿) 305.0
查看模型详情
22
84.0
2025-01-20
6710.0
MMLU Pro得分 84.0
发布时间 2025-01-20
参数(亿) 6710.0
查看模型详情
23
84.0
2025-05-23
未知
MMLU Pro得分 84.0
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
24
84.0
2025-09-05
未知
MMLU Pro得分 84.0
发布时间 2025-09-05
参数(亿) 未知
查看模型详情
25
84.0
2025-09-29
6710.0
MMLU Pro得分 84.0
发布时间 2025-09-29
参数(亿) 6710.0
查看模型详情
26
83.7
2025-08-20
6710.0
MMLU Pro得分 83.7
发布时间 2025-08-20
参数(亿) 6710.0
查看模型详情
27
83.5
2025-07-27
2410.0
MMLU Pro得分 83.5
发布时间 2025-07-27
参数(亿) 2410.0
查看模型详情
28
83.0
2025-07-21
2350.0
MMLU Pro得分 83.0
发布时间 2025-07-21
参数(亿) 2350.0
查看模型详情
29
智谱AI Logo
GLM-4.6 thinking
83.0
2025-09-30
3550.0
MMLU Pro得分 83.0
发布时间 2025-09-30
参数(亿) 3550.0
查看模型详情
30
82.6
2025-06-30
719.0
MMLU Pro得分 82.6
发布时间 2025-06-30
参数(亿) 719.0
查看模型详情
31
82.2
2025-04-05
20000.0
MMLU Pro得分 82.2
发布时间 2025-04-05
参数(亿) 20000.0
查看模型详情
32
MiniMaxAI Logo
MiniMax M2 thinking
82.0
2025-10-27
2300.0
MMLU Pro得分 82.0
发布时间 2025-10-27
参数(亿) 2300.0
查看模型详情
33
智谱AI Logo
GLM-4.5-Air thinking
81.4
2025-07-28
1060.0
MMLU Pro得分 81.4
发布时间 2025-07-28
参数(亿) 1060.0
查看模型详情
34
81.2
2025-03-24
6710.0
MMLU Pro得分 81.2
发布时间 2025-03-24
参数(亿) 6710.0
查看模型详情
35
81.1
2025-06-16
4560.0
MMLU Pro得分 81.1
发布时间 2025-06-16
参数(亿) 4560.0
查看模型详情
36
81.1
2025-07-11
10000.0
MMLU Pro得分 81.1
发布时间 2025-07-11
参数(亿) 10000.0
查看模型详情
37
80.6
2025-04-16
未知
MMLU Pro得分 80.6
发布时间 2025-04-16
参数(亿) 未知
查看模型详情
38
80.6
2025-06-16
4560.0
MMLU Pro得分 80.6
发布时间 2025-06-16
参数(亿) 4560.0
查看模型详情
39
80.5
2025-04-05
4000.0
MMLU Pro得分 80.5
发布时间 2025-04-05
参数(亿) 4000.0
查看模型详情
40
80.5
2025-04-14
未知
MMLU Pro得分 80.5
发布时间 2025-04-14
参数(亿) 未知
查看模型详情
41
80.3
2024-09-12
未知
MMLU Pro得分 80.3
发布时间 2024-09-12
参数(亿) 未知
查看模型详情
42
80.0
2025-10-15
未知
MMLU Pro得分 80.0
发布时间 2025-10-15
参数(亿) 未知
查看模型详情
43
79.8
2025-03-27
未知
MMLU Pro得分 79.8
发布时间 2025-03-27
参数(亿) 未知
查看模型详情
44
79.1
2025-02-05
未知
MMLU Pro得分 79.1
发布时间 2025-02-05
参数(亿) 未知
查看模型详情
45
79.0
2025-03-10
未知
MMLU Pro得分 79.0
发布时间 2025-03-10
参数(亿) 未知
查看模型详情
46
79.0
2025-06-30
70.0
MMLU Pro得分 79.0
发布时间 2025-06-30
参数(亿) 70.0
查看模型详情
47
OpenAI Logo
GPT OSS 120B thinking
79.0
2025-08-06
117.0
MMLU Pro得分 79.0
发布时间 2025-08-06
参数(亿) 117.0
查看模型详情
48
78.4
2025-06-30
3000.0
MMLU Pro得分 78.4
发布时间 2025-06-30
参数(亿) 3000.0
查看模型详情
49
78.4
2025-07-29
305.0
MMLU Pro得分 78.4
发布时间 2025-07-29
参数(亿) 305.0
查看模型详情
50
78.0
2024-10-22
未知
MMLU Pro得分 78.0
发布时间 2024-10-22
参数(亿) 未知
查看模型详情
51
OpenAI Logo
GPT-5-mini thinking
78.0
2025-08-07
未知
MMLU Pro得分 78.0
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
52
78.0
2025-09-30
3550.0
MMLU Pro得分 78.0
发布时间 2025-09-30
参数(亿) 3550.0
查看模型详情
53
77.9
2024-05-13
未知
MMLU Pro得分 77.9
发布时间 2024-05-13
参数(亿) 未知
查看模型详情
54
77.9
2024-11-20
未知
MMLU Pro得分 77.9
发布时间 2024-11-20
参数(亿) 未知
查看模型详情
55
77.64
2024-06-21
未知
MMLU Pro得分 77.64
发布时间 2024-06-21
参数(亿) 未知
查看模型详情
56
76.24
2024-12-11
未知
MMLU Pro得分 76.24
发布时间 2024-12-11
参数(亿) 未知
查看模型详情
57
76.1
2024-02-15
未知
MMLU Pro得分 76.1
发布时间 2024-02-15
参数(亿) 未知
查看模型详情
58
76.1
2025-01-28
未知
MMLU Pro得分 76.1
发布时间 2025-01-28
参数(亿) 未知
查看模型详情
59
76.0
2025-03-06
325.0
MMLU Pro得分 76.0
发布时间 2025-03-06
参数(亿) 325.0
查看模型详情
60
Anthropic Logo
Haiku 4.5 thinking
76.0
2025-10-15
未知
MMLU Pro得分 76.0
发布时间 2025-10-15
参数(亿) 未知
查看模型详情
61
75.9
2024-12-26
6810.0
MMLU Pro得分 75.9
发布时间 2024-12-26
参数(亿) 6810.0
查看模型详情
62
75.5
2024-08-13
2690.0
MMLU Pro得分 75.5
发布时间 2024-08-13
参数(亿) 2690.0
查看模型详情
63
74.3
2025-04-05
1090.0
MMLU Pro得分 74.3
发布时间 2025-04-05
参数(亿) 1090.0
查看模型详情
64
OpenAI Logo
GPT OSS 20B thinking
74.0
2025-08-06
210.0
MMLU Pro得分 74.0
发布时间 2025-08-06
参数(亿) 210.0
查看模型详情
65
73.4
2024-07-23
4050.0
MMLU Pro得分 73.4
发布时间 2024-07-23
参数(亿) 4050.0
查看模型详情
66
72.9
2025-04-28
2350.0
MMLU Pro得分 72.9
发布时间 2025-04-28
参数(亿) 2350.0
查看模型详情
67
72.5
2025-04-28
80.0
MMLU Pro得分 72.5
发布时间 2025-04-28
参数(亿) 80.0
查看模型详情
68
72.4
2024-06-05
90.0
MMLU Pro得分 72.4
发布时间 2024-06-05
参数(亿) 90.0
查看模型详情
69
71.6
2025-02-05
未知
MMLU Pro得分 71.6
发布时间 2025-02-05
参数(亿) 未知
查看模型详情
70
70.97
2024-11-28
320.0
MMLU Pro得分 70.97
发布时间 2024-11-28
参数(亿) 320.0
查看模型详情
71
70.4
2024-12-12
140.0
MMLU Pro得分 70.4
发布时间 2024-12-12
参数(亿) 140.0
查看模型详情
72
69.23
2024-09-18
320.0
MMLU Pro得分 69.23
发布时间 2024-09-18
参数(亿) 320.0
查看模型详情
73
69.1
2025-04-28
305.0
MMLU Pro得分 69.1
发布时间 2025-04-28
参数(亿) 305.0
查看模型详情
74
69.06
2025-06-20
240.0
MMLU Pro得分 69.06
发布时间 2025-06-20
参数(亿) 240.0
查看模型详情
75
68.9
2024-12-06
700.0
MMLU Pro得分 68.9
发布时间 2024-12-06
参数(亿) 700.0
查看模型详情
76
68.45
2024-03-04
未知
MMLU Pro得分 68.45
发布时间 2024-03-04
参数(亿) 未知
查看模型详情
77
67.5
2025-03-12
270.0
MMLU Pro得分 67.5
发布时间 2025-03-12
参数(亿) 270.0
查看模型详情
78
67.23
2025-06-27
800.0
MMLU Pro得分 67.23
发布时间 2025-06-27
参数(亿) 800.0
查看模型详情
79
66.76
2025-03-17
240.0
MMLU Pro得分 66.76
发布时间 2025-03-17
参数(亿) 240.0
查看模型详情
80
66.4
2024-07-23
700.0
MMLU Pro得分 66.4
发布时间 2024-07-23
参数(亿) 700.0
查看模型详情
81
66.05
2025-09-11
800.0
MMLU Pro得分 66.05
发布时间 2025-09-11
参数(亿) 800.0
查看模型详情
82
65.0
2024-10-22
未知
MMLU Pro得分 65.0
发布时间 2024-10-22
参数(亿) 未知
查看模型详情
83
63.69
2024-09-18
140.0
MMLU Pro得分 63.69
发布时间 2024-09-18
参数(亿) 140.0
查看模型详情
84
62.9
2025-04-05
4000.0
MMLU Pro得分 62.9
发布时间 2025-04-05
参数(亿) 4000.0
查看模型详情
85
61.7
2024-07-18
未知
MMLU Pro得分 61.7
发布时间 2024-07-18
参数(亿) 未知
查看模型详情
86
61.6
2024-07-23
4050.0
MMLU Pro得分 61.6
发布时间 2024-07-23
参数(亿) 4050.0
查看模型详情
87
60.6
2025-03-12
120.0
MMLU Pro得分 60.6
发布时间 2025-03-12
参数(亿) 120.0
查看模型详情
88
58.2
2025-04-05
1090.0
MMLU Pro得分 58.2
发布时间 2025-04-05
参数(亿) 1090.0
查看模型详情
89
58.1
2024-09-18
727.0
MMLU Pro得分 58.1
发布时间 2024-09-18
参数(亿) 727.0
查看模型详情
90
56.8
2024-03-04
未知
MMLU Pro得分 56.8
发布时间 2024-03-04
参数(亿) 未知
查看模型详情
91
56.54
2024-05-14
270.0
MMLU Pro得分 56.54
发布时间 2024-05-14
参数(亿) 270.0
查看模型详情
92
56.33
2024-04-17
1410.0
MMLU Pro得分 56.33
发布时间 2024-04-17
参数(亿) 1410.0
查看模型详情
93
56.2
2024-04-18
700.0
MMLU Pro得分 56.2
发布时间 2024-04-18
参数(亿) 700.0
查看模型详情
94
52.8
2025-02-27
38.0
MMLU Pro得分 52.8
发布时间 2025-02-27
参数(亿) 38.0
查看模型详情
95
52.78
2024-04-18
700.0
MMLU Pro得分 52.78
发布时间 2024-04-18
参数(亿) 700.0
查看模型详情
96
52.47
2024-07-23
700.0
MMLU Pro得分 52.47
发布时间 2024-07-23
参数(亿) 700.0
查看模型详情
97
51.0
2024-03-29
未知
MMLU Pro得分 51.0
发布时间 2024-03-29
参数(亿) 未知
查看模型详情
98
47.16
2025-03-04
320.0
MMLU Pro得分 47.16
发布时间 2025-03-04
参数(亿) 320.0
查看模型详情
99
45.0
2024-09-18
70.0
MMLU Pro得分 45.0
发布时间 2024-09-18
参数(亿) 70.0
查看模型详情
100
44.7
2024-06-27
90.0
MMLU Pro得分 44.7
发布时间 2024-06-27
参数(亿) 90.0
查看模型详情
101
44.0
2024-07-23
80.0
MMLU Pro得分 44.0
发布时间 2024-07-23
参数(亿) 80.0
查看模型详情
102
42.4
2025-02-23
160.0
MMLU Pro得分 42.4
发布时间 2025-02-23
参数(亿) 160.0
查看模型详情
103
35.4
2024-07-23
80.0
MMLU Pro得分 35.4
发布时间 2024-07-23
参数(亿) 80.0
查看模型详情
104
34.6
2024-09-18
30.0
MMLU Pro得分 34.6
发布时间 2024-09-18
参数(亿) 30.0
查看模型详情
105
30.9
2024-05-22
70.0
MMLU Pro得分 30.9
发布时间 2024-05-22
参数(亿) 70.0
查看模型详情
106
25.0
2024-09-18
32.0
MMLU Pro得分 25.0
发布时间 2024-09-18
参数(亿) 32.0
查看模型详情
107
0.0
2024-12-03
未知
MMLU Pro得分 0.0
发布时间 2024-12-03
参数(亿) 未知
查看模型详情