MMLU Pro 评测基准详情

412

大模型已经对很多行业产生了巨大的影响,如何准确评测大模型的能力和效果,已经成为业界亟待解决的关键问题。生成式AI模型,如大型语言模型(LLMs),能够生成高质量的文本、代码、图像等内容,但其评测却相对很困难。而此前很多较早的评测也很难区分当前最优模型的能力。 以MMLU评测为例,2023年3月份,GPT-4在MMLU获得了86.4分之后,将近2年后的2024年年底,业界最好的大模型在MMLU上得分也就90.5,提升十分有限。 为此,滑铁卢大学、多伦多大学和卡耐基梅隆大学的研究人员一起提出了MMLU P

模型模式说明

不同模式会显著影响成绩,请在对比榜单时留意标签提示。

提示:若某条记录未显示任何标签,即默认是 normal 常规模式。

normal

常规推理:单步推理,不延长思考、也不调用额外工具。

thinking low medium high

Thinking 系列:常规延长思考时间,low/medium/high 代表不同耗时或深度,各厂商叫法不同。

deeper thinking

Deeper thinking:在 Thinking 基础上进一步延长思考链条,通常意味着更多算力与时间。

使用工具 / 联网

允许调用检索、浏览器、代码解释器等外部能力。

parallel_thinking

并行思考:多线程/多代理协同探索再汇总,通常只在厂商内部实验环境中启用、尚未对外开放,因此被视为“作弊”模式。

MMLU Pro 大模型得分排行榜

数据来源:DataLearnerAI

MMLU Pro详细排名数据表格

默认:仅展示常规/非并行的评测结果,可按需查看并行思考成绩。

默认隐藏并行思考结果。

排名
模型
得分
发布时间
参数(亿)
1
91.04
2024-12-05
未知
MMLU Pro得分 91.04
发布时间 2024-12-05
参数(亿) 未知
查看模型详情
2
90.0
2025-11-18
未知
MMLU Pro得分 90.0
发布时间 2025-11-18
参数(亿) 未知
查看模型详情
3
88.0
2025-09-30
未知
MMLU Pro得分 88.0
发布时间 2025-09-30
参数(亿) 未知
查看模型详情
4
87.2
2025-03-21
未知
MMLU Pro得分 87.2
发布时间 2025-03-21
参数(亿) 未知
查看模型详情
5
xAI Logo
Grok 4 thinking
87.0
2025-07-10
未知
MMLU Pro得分 87.0
发布时间 2025-07-10
参数(亿) 未知
查看模型详情
6
86.1
2025-02-28
未知
MMLU Pro得分 86.1
发布时间 2025-02-28
参数(亿) 未知
查看模型详情
7
86.0
2025-06-05
未知
MMLU Pro得分 86.0
发布时间 2025-06-05
参数(亿) 未知
查看模型详情
8
85.6
2025-04-16
未知
MMLU Pro得分 85.6
发布时间 2025-04-16
参数(亿) 未知
查看模型详情
9
85.0
2025-05-23
未知
MMLU Pro得分 85.0
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
10
DeepSeek-AI Logo
DeepSeek-V3.1 thinking
85.0
2025-08-20
6710.0
MMLU Pro得分 85.0
发布时间 2025-08-20
参数(亿) 6710.0
查看模型详情
11
85.0
2025-05-28
6710.0
MMLU Pro得分 85.0
发布时间 2025-05-28
参数(亿) 6710.0
查看模型详情
12
85.0
2025-09-22
6710.0
MMLU Pro得分 85.0
发布时间 2025-09-22
参数(亿) 6710.0
查看模型详情
13
85.0
2025-09-22
6710.0
MMLU Pro得分 85.0
发布时间 2025-09-22
参数(亿) 6710.0
查看模型详情
14
85.0
2025-09-29
6710.0
MMLU Pro得分 85.0
发布时间 2025-09-29
参数(亿) 6710.0
查看模型详情
15
xAI Logo
Grok 4.1 Fast thinking
85.0
2025-11-19
未知
MMLU Pro得分 85.0
发布时间 2025-11-19
参数(亿) 未知
查看模型详情
16
智谱AI Logo
GLM-4.5 thinking
84.6
2025-07-28
3550.0
MMLU Pro得分 84.6
发布时间 2025-07-28
参数(亿) 3550.0
查看模型详情
17
84.6
2025-11-06
10400.0
MMLU Pro得分 84.6
发布时间 2025-11-06
参数(亿) 10400.0
查看模型详情
18
84.4
2025-07-25
2350.0
MMLU Pro得分 84.4
发布时间 2025-07-25
参数(亿) 2350.0
查看模型详情
19
84.4
2025-07-30
305.0
MMLU Pro得分 84.4
发布时间 2025-07-30
参数(亿) 305.0
查看模型详情
20
84.0
2025-01-20
6710.0
MMLU Pro得分 84.0
发布时间 2025-01-20
参数(亿) 6710.0
查看模型详情
21
84.0
2025-09-05
未知
MMLU Pro得分 84.0
发布时间 2025-09-05
参数(亿) 未知
查看模型详情
22
84.0
2025-09-29
6710.0
MMLU Pro得分 84.0
发布时间 2025-09-29
参数(亿) 6710.0
查看模型详情
23
84.0
2025-05-23
未知
MMLU Pro得分 84.0
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
24
83.7
2025-08-20
6710.0
MMLU Pro得分 83.7
发布时间 2025-08-20
参数(亿) 6710.0
查看模型详情
25
83.5
2025-07-27
2410.0
MMLU Pro得分 83.5
发布时间 2025-07-27
参数(亿) 2410.0
查看模型详情
26
83.0
2025-07-21
2350.0
MMLU Pro得分 83.0
发布时间 2025-07-21
参数(亿) 2350.0
查看模型详情
27
智谱AI Logo
GLM-4.6 thinking
83.0
2025-09-30
3550.0
MMLU Pro得分 83.0
发布时间 2025-09-30
参数(亿) 3550.0
查看模型详情
28
82.6
2025-06-30
719.0
MMLU Pro得分 82.6
发布时间 2025-06-30
参数(亿) 719.0
查看模型详情
29
82.2
2025-04-05
20000.0
MMLU Pro得分 82.2
发布时间 2025-04-05
参数(亿) 20000.0
查看模型详情
30
MiniMaxAI Logo
MiniMax M2 thinking
82.0
2025-10-27
2300.0
MMLU Pro得分 82.0
发布时间 2025-10-27
参数(亿) 2300.0
查看模型详情
31
智谱AI Logo
GLM-4.5-Air thinking
81.4
2025-07-28
1060.0
MMLU Pro得分 81.4
发布时间 2025-07-28
参数(亿) 1060.0
查看模型详情
32
81.2
2025-03-24
6710.0
MMLU Pro得分 81.2
发布时间 2025-03-24
参数(亿) 6710.0
查看模型详情
33
81.1
2025-06-16
4560.0
MMLU Pro得分 81.1
发布时间 2025-06-16
参数(亿) 4560.0
查看模型详情
34
81.1
2025-07-11
10000.0
MMLU Pro得分 81.1
发布时间 2025-07-11
参数(亿) 10000.0
查看模型详情
35
80.6
2025-06-16
4560.0
MMLU Pro得分 80.6
发布时间 2025-06-16
参数(亿) 4560.0
查看模型详情
36
80.6
2025-04-16
未知
MMLU Pro得分 80.6
发布时间 2025-04-16
参数(亿) 未知
查看模型详情
37
80.5
2025-04-05
4000.0
MMLU Pro得分 80.5
发布时间 2025-04-05
参数(亿) 4000.0
查看模型详情
38
80.5
2025-04-14
未知
MMLU Pro得分 80.5
发布时间 2025-04-14
参数(亿) 未知
查看模型详情
39
80.3
2024-09-12
未知
MMLU Pro得分 80.3
发布时间 2024-09-12
参数(亿) 未知
查看模型详情
40
80.0
2025-10-15
未知
MMLU Pro得分 80.0
发布时间 2025-10-15
参数(亿) 未知
查看模型详情
41
79.8
2025-03-27
未知
MMLU Pro得分 79.8
发布时间 2025-03-27
参数(亿) 未知
查看模型详情
42
79.1
2025-02-05
未知
MMLU Pro得分 79.1
发布时间 2025-02-05
参数(亿) 未知
查看模型详情
43
79.0
2025-03-10
未知
MMLU Pro得分 79.0
发布时间 2025-03-10
参数(亿) 未知
查看模型详情
44
79.0
2025-06-30
70.0
MMLU Pro得分 79.0
发布时间 2025-06-30
参数(亿) 70.0
查看模型详情
45
OpenAI Logo
GPT OSS 120B thinking
79.0
2025-08-06
117.0
MMLU Pro得分 79.0
发布时间 2025-08-06
参数(亿) 117.0
查看模型详情
46
78.4
2025-06-30
3000.0
MMLU Pro得分 78.4
发布时间 2025-06-30
参数(亿) 3000.0
查看模型详情
47
78.4
2025-07-29
305.0
MMLU Pro得分 78.4
发布时间 2025-07-29
参数(亿) 305.0
查看模型详情
48
78.0
2024-10-22
未知
MMLU Pro得分 78.0
发布时间 2024-10-22
参数(亿) 未知
查看模型详情
49
OpenAI Logo
GPT-5-mini thinking
78.0
2025-08-07
未知
MMLU Pro得分 78.0
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
50
78.0
2025-09-30
3550.0
MMLU Pro得分 78.0
发布时间 2025-09-30
参数(亿) 3550.0
查看模型详情
51
77.9
2024-11-20
未知
MMLU Pro得分 77.9
发布时间 2024-11-20
参数(亿) 未知
查看模型详情
52
77.9
2024-05-13
未知
MMLU Pro得分 77.9
发布时间 2024-05-13
参数(亿) 未知
查看模型详情
53
77.64
2024-06-21
未知
MMLU Pro得分 77.64
发布时间 2024-06-21
参数(亿) 未知
查看模型详情
54
76.24
2024-12-11
未知
MMLU Pro得分 76.24
发布时间 2024-12-11
参数(亿) 未知
查看模型详情
55
76.1
2024-02-15
未知
MMLU Pro得分 76.1
发布时间 2024-02-15
参数(亿) 未知
查看模型详情
56
76.1
2025-01-28
未知
MMLU Pro得分 76.1
发布时间 2025-01-28
参数(亿) 未知
查看模型详情
57
76.0
2025-03-06
325.0
MMLU Pro得分 76.0
发布时间 2025-03-06
参数(亿) 325.0
查看模型详情
58
Anthropic Logo
Haiku 4.5 thinking
76.0
2025-10-15
未知
MMLU Pro得分 76.0
发布时间 2025-10-15
参数(亿) 未知
查看模型详情
59
75.9
2024-12-26
6810.0
MMLU Pro得分 75.9
发布时间 2024-12-26
参数(亿) 6810.0
查看模型详情
60
75.5
2024-08-13
2690.0
MMLU Pro得分 75.5
发布时间 2024-08-13
参数(亿) 2690.0
查看模型详情
61
74.3
2025-04-05
1090.0
MMLU Pro得分 74.3
发布时间 2025-04-05
参数(亿) 1090.0
查看模型详情
62
OpenAI Logo
GPT OSS 20B thinking
74.0
2025-08-06
210.0
MMLU Pro得分 74.0
发布时间 2025-08-06
参数(亿) 210.0
查看模型详情
63
73.4
2024-07-23
4050.0
MMLU Pro得分 73.4
发布时间 2024-07-23
参数(亿) 4050.0
查看模型详情
64
72.9
2025-04-28
2350.0
MMLU Pro得分 72.9
发布时间 2025-04-28
参数(亿) 2350.0
查看模型详情
65
72.5
2025-04-28
80.0
MMLU Pro得分 72.5
发布时间 2025-04-28
参数(亿) 80.0
查看模型详情
66
72.4
2024-06-05
90.0
MMLU Pro得分 72.4
发布时间 2024-06-05
参数(亿) 90.0
查看模型详情
67
71.6
2025-02-05
未知
MMLU Pro得分 71.6
发布时间 2025-02-05
参数(亿) 未知
查看模型详情
68
70.97
2024-11-28
320.0
MMLU Pro得分 70.97
发布时间 2024-11-28
参数(亿) 320.0
查看模型详情
69
70.4
2024-12-12
140.0
MMLU Pro得分 70.4
发布时间 2024-12-12
参数(亿) 140.0
查看模型详情
70
69.23
2024-09-18
320.0
MMLU Pro得分 69.23
发布时间 2024-09-18
参数(亿) 320.0
查看模型详情
71
69.1
2025-04-28
305.0
MMLU Pro得分 69.1
发布时间 2025-04-28
参数(亿) 305.0
查看模型详情
72
69.06
2025-06-20
240.0
MMLU Pro得分 69.06
发布时间 2025-06-20
参数(亿) 240.0
查看模型详情
73
68.9
2024-12-06
700.0
MMLU Pro得分 68.9
发布时间 2024-12-06
参数(亿) 700.0
查看模型详情
74
68.45
2024-03-04
未知
MMLU Pro得分 68.45
发布时间 2024-03-04
参数(亿) 未知
查看模型详情
75
67.5
2025-03-12
270.0
MMLU Pro得分 67.5
发布时间 2025-03-12
参数(亿) 270.0
查看模型详情
76
67.23
2025-06-27
800.0
MMLU Pro得分 67.23
发布时间 2025-06-27
参数(亿) 800.0
查看模型详情
77
66.76
2025-03-17
240.0
MMLU Pro得分 66.76
发布时间 2025-03-17
参数(亿) 240.0
查看模型详情
78
66.4
2024-07-23
700.0
MMLU Pro得分 66.4
发布时间 2024-07-23
参数(亿) 700.0
查看模型详情
79
66.05
2025-09-11
800.0
MMLU Pro得分 66.05
发布时间 2025-09-11
参数(亿) 800.0
查看模型详情
80
65.0
2024-10-22
未知
MMLU Pro得分 65.0
发布时间 2024-10-22
参数(亿) 未知
查看模型详情
81
63.69
2024-09-18
140.0
MMLU Pro得分 63.69
发布时间 2024-09-18
参数(亿) 140.0
查看模型详情
82
62.9
2025-04-05
4000.0
MMLU Pro得分 62.9
发布时间 2025-04-05
参数(亿) 4000.0
查看模型详情
83
61.7
2024-07-18
未知
MMLU Pro得分 61.7
发布时间 2024-07-18
参数(亿) 未知
查看模型详情
84
61.6
2024-07-23
4050.0
MMLU Pro得分 61.6
发布时间 2024-07-23
参数(亿) 4050.0
查看模型详情
85
60.6
2025-03-12
120.0
MMLU Pro得分 60.6
发布时间 2025-03-12
参数(亿) 120.0
查看模型详情
86
58.2
2025-04-05
1090.0
MMLU Pro得分 58.2
发布时间 2025-04-05
参数(亿) 1090.0
查看模型详情
87
58.1
2024-09-18
727.0
MMLU Pro得分 58.1
发布时间 2024-09-18
参数(亿) 727.0
查看模型详情
88
56.8
2024-03-04
未知
MMLU Pro得分 56.8
发布时间 2024-03-04
参数(亿) 未知
查看模型详情
89
56.54
2024-05-14
270.0
MMLU Pro得分 56.54
发布时间 2024-05-14
参数(亿) 270.0
查看模型详情
90
56.33
2024-04-17
1410.0
MMLU Pro得分 56.33
发布时间 2024-04-17
参数(亿) 1410.0
查看模型详情
91
56.2
2024-04-18
700.0
MMLU Pro得分 56.2
发布时间 2024-04-18
参数(亿) 700.0
查看模型详情
92
52.8
2025-02-27
38.0
MMLU Pro得分 52.8
发布时间 2025-02-27
参数(亿) 38.0
查看模型详情
93
52.78
2024-04-18
700.0
MMLU Pro得分 52.78
发布时间 2024-04-18
参数(亿) 700.0
查看模型详情
94
52.47
2024-07-23
700.0
MMLU Pro得分 52.47
发布时间 2024-07-23
参数(亿) 700.0
查看模型详情
95
51.0
2024-03-29
未知
MMLU Pro得分 51.0
发布时间 2024-03-29
参数(亿) 未知
查看模型详情
96
47.16
2025-03-04
320.0
MMLU Pro得分 47.16
发布时间 2025-03-04
参数(亿) 320.0
查看模型详情
97
45.0
2024-09-18
70.0
MMLU Pro得分 45.0
发布时间 2024-09-18
参数(亿) 70.0
查看模型详情
98
44.7
2024-06-27
90.0
MMLU Pro得分 44.7
发布时间 2024-06-27
参数(亿) 90.0
查看模型详情
99
44.0
2024-07-23
80.0
MMLU Pro得分 44.0
发布时间 2024-07-23
参数(亿) 80.0
查看模型详情
100
42.4
2025-02-23
160.0
MMLU Pro得分 42.4
发布时间 2025-02-23
参数(亿) 160.0
查看模型详情
101
35.4
2024-07-23
80.0
MMLU Pro得分 35.4
发布时间 2024-07-23
参数(亿) 80.0
查看模型详情
102
34.6
2024-09-18
30.0
MMLU Pro得分 34.6
发布时间 2024-09-18
参数(亿) 30.0
查看模型详情
103
30.9
2024-05-22
70.0
MMLU Pro得分 30.9
发布时间 2024-05-22
参数(亿) 70.0
查看模型详情
104
25.0
2024-09-18
32.0
MMLU Pro得分 25.0
发布时间 2024-09-18
参数(亿) 32.0
查看模型详情
105
0.0
2024-12-03
未知
MMLU Pro得分 0.0
发布时间 2024-12-03
参数(亿) 未知
查看模型详情