HLE 评测基准详情

370

近年来,大语言模型(LLM)的能力飞速提升,但评测基准的发展却显得滞后。以广泛使用的MMLU(大规模多任务语言理解)为例,GPT-4、Claude等前沿模型已能在其90%以上的问题上取得高分。这种“评测饱和”现象导致研究者难以精准衡量模型在尖端知识领域的真实能力。为此,Safety for AI和Scale AI的研究人员推出了Humanity’s Last Exam大模型评测基准。这是一个全新的评测基准,旨在成为大模型“闭卷学术评测的终极考验”。

模型模式说明

不同模式会显著影响成绩,请在对比榜单时留意标签提示。

提示:若某条记录未显示任何标签,即默认是 normal 常规模式。

normal

常规推理:单步推理,不延长思考、也不调用额外工具。

thinking low medium high

Thinking 系列:常规延长思考时间,low/medium/high 代表不同耗时或深度,各厂商叫法不同。

deeper thinking

Deeper thinking:在 Thinking 基础上进一步延长思考链条,通常意味着更多算力与时间。

使用工具 / 联网

允许调用检索、浏览器、代码解释器等外部能力。

parallel_thinking

并行思考:多线程/多代理协同探索再汇总,通常只在厂商内部实验环境中启用、尚未对外开放,因此被视为“作弊”模式。

HLE 大模型得分排行榜

数据来源:DataLearnerAI

HLE详细排名数据表格

默认:仅展示常规/非并行的评测结果,可按需查看并行思考成绩。

默认隐藏并行思考结果。

排名
模型
得分
发布时间
参数(亿)
1
Moonshot AI Logo
Kimi K2 Thinking parallel_thinking + 使用工具
51.0
2025-11-06
10400.0
HLE得分 51.0
发布时间 2025-11-06
参数(亿) 10400.0
查看模型详情
2
Moonshot AI Logo
Kimi K2 Thinking thinking + 使用工具
44.9
2025-11-06
10400.0
HLE得分 44.9
发布时间 2025-11-06
参数(亿) 10400.0
查看模型详情
3
xAI Logo
Grok 4 Heavy parallel_thinking + 使用工具
44.4
2025-07-10
未知
HLE得分 44.4
发布时间 2025-07-10
参数(亿) 未知
查看模型详情
4
OpenAI Logo
GPT-5-Pro thinking + 使用工具
42.0
2025-08-07
未知
HLE得分 42.0
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
5
41.0
2025-11-18
未知
HLE得分 41.0
发布时间 2025-11-18
参数(亿) 未知
查看模型详情
6
xAI Logo
Grok 4 thinking + 使用工具
38.6
2025-07-10
未知
HLE得分 38.6
发布时间 2025-07-10
参数(亿) 未知
查看模型详情
7
xAI Logo
Grok 4 thinking + 使用工具+联网
38.6
2025-07-10
未知
HLE得分 38.6
发布时间 2025-07-10
参数(亿) 未知
查看模型详情
8
37.5
2025-11-18
未知
HLE得分 37.5
发布时间 2025-11-18
参数(亿) 未知
查看模型详情
9
OpenAI Logo
GPT-5 thinking + 使用工具
35.2
2025-08-07
未知
HLE得分 35.2
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
10
Google Deep Mind Logo
Gemini 2.5 Deep Think deeper_thinking
34.8
2025-08-01
未知
HLE得分 34.8
发布时间 2025-08-01
参数(亿) 未知
查看模型详情
11
OpenAI Logo
GPT-5-Pro thinking
30.7
2025-08-07
未知
HLE得分 30.7
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
12
智谱AI Logo
GLM-4.6 thinking + 使用工具
30.4
2025-09-30
3550.0
HLE得分 30.4
发布时间 2025-09-30
参数(亿) 3550.0
查看模型详情
13
26.5
2025-11-12
未知
HLE得分 26.5
发布时间 2025-11-12
参数(亿) 未知
查看模型详情
14
xAI Logo
Grok 4 thinking
25.4
2025-07-10
未知
HLE得分 25.4
发布时间 2025-07-10
参数(亿) 未知
查看模型详情
15
OpenAI Logo
GPT-5 thinking
24.8
2025-08-07
未知
HLE得分 24.8
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
16
23.9
2025-11-06
10400.0
HLE得分 23.9
发布时间 2025-11-06
参数(亿) 10400.0
查看模型详情
17
Moonshot AI Logo
Kimi K2 0905 thinking + 使用工具
21.7
2025-09-05
10000.0
HLE得分 21.7
发布时间 2025-09-05
参数(亿) 10000.0
查看模型详情
18
21.7
2025-09-22
6710.0
HLE得分 21.7
发布时间 2025-09-22
参数(亿) 6710.0
查看模型详情
19
21.6
2025-05-06
未知
HLE得分 21.6
发布时间 2025-05-06
参数(亿) 未知
查看模型详情
20
Google Deep Mind Logo
Gemini 2.5-Pro thinking
21.6
2025-06-05
未知
HLE得分 21.6
发布时间 2025-06-05
参数(亿) 未知
查看模型详情
21
21.0
2025-06-10
未知
HLE得分 21.0
发布时间 2025-06-10
参数(亿) 未知
查看模型详情
22
OpenAI Logo
OpenAI o3 thinking
20.32
2025-04-16
未知
HLE得分 20.32
发布时间 2025-04-16
参数(亿) 未知
查看模型详情
23
DeepSeek-AI Logo
DeepSeek V3.2-Exp thinking + 使用工具
20.3
2025-09-29
6710.0
HLE得分 20.3
发布时间 2025-09-29
参数(亿) 6710.0
查看模型详情
24
xAI Logo
Grok 4 Fast thinking
20.0
2025-09-19
未知
HLE得分 20.0
发布时间 2025-09-19
参数(亿) 未知
查看模型详情
25
19.8
2025-09-29
6710.0
HLE得分 19.8
发布时间 2025-09-29
参数(亿) 6710.0
查看模型详情
26
OpenAI Logo
GPT OSS 120B thinking + 使用工具
19.0
2025-08-06
117.0
HLE得分 19.0
发布时间 2025-08-06
参数(亿) 117.0
查看模型详情
27
18.8
2025-03-25
未知
HLE得分 18.8
发布时间 2025-03-25
参数(亿) 未知
查看模型详情
28
18.2
2025-07-30
305.0
HLE得分 18.2
发布时间 2025-07-30
参数(亿) 305.0
查看模型详情
29
18.2
2025-07-25
2350.0
HLE得分 18.2
发布时间 2025-07-25
参数(亿) 2350.0
查看模型详情
30
17.7
2025-05-28
6710.0
HLE得分 17.7
发布时间 2025-05-28
参数(亿) 6710.0
查看模型详情
31
OpenAI Logo
OpenAI o4 - mini thinking + 使用工具
17.7
2025-04-16
未知
HLE得分 17.7
发布时间 2025-04-16
参数(亿) 未知
查看模型详情
32
xAI Logo
Grok 4.1 Fast thinking
17.6
2025-11-19
未知
HLE得分 17.6
发布时间 2025-11-19
参数(亿) 未知
查看模型详情
33
OpenAI Logo
GPT OSS 20B thinking + 使用工具
17.3
2025-08-06
210.0
HLE得分 17.3
发布时间 2025-08-06
参数(亿) 210.0
查看模型详情
34
17.3
2025-09-30
未知
HLE得分 17.3
发布时间 2025-09-30
参数(亿) 未知
查看模型详情
35
智谱AI Logo
GLM-4.6 thinking
17.2
2025-09-30
3550.0
HLE得分 17.2
发布时间 2025-09-30
参数(亿) 3550.0
查看模型详情
36
DeepSeek-AI Logo
DeepSeek-V3.1 thinking
15.9
2025-08-20
6710.0
HLE得分 15.9
发布时间 2025-08-20
参数(亿) 6710.0
查看模型详情
37
15.2
2025-09-22
6710.0
HLE得分 15.2
发布时间 2025-09-22
参数(亿) 6710.0
查看模型详情
38
OpenAI Logo
GPT OSS 120B thinking
14.9
2025-08-06
117.0
HLE得分 14.9
发布时间 2025-08-06
参数(亿) 117.0
查看模型详情
39
智谱AI Logo
GLM-4.5 thinking
14.4
2025-07-28
3550.0
HLE得分 14.4
发布时间 2025-07-28
参数(亿) 3550.0
查看模型详情
40
14.28
2025-04-16
未知
HLE得分 14.28
发布时间 2025-04-16
参数(亿) 未知
查看模型详情
41
OpenAI Logo
OpenAI o3-mini thinking
13.4
2025-01-31
未知
HLE得分 13.4
发布时间 2025-01-31
参数(亿) 未知
查看模型详情
42
MiniMaxAI Logo
MiniMax M2 thinking
12.5
2025-10-27
2300.0
HLE得分 12.5
发布时间 2025-10-27
参数(亿) 2300.0
查看模型详情
43
11.1
2025-09-05
未知
HLE得分 11.1
发布时间 2025-09-05
参数(亿) 未知
查看模型详情
44
11.0
2025-04-17
未知
HLE得分 11.0
发布时间 2025-04-17
参数(亿) 未知
查看模型详情
45
OpenAI Logo
GPT OSS 20B thinking
10.9
2025-08-06
210.0
HLE得分 10.9
发布时间 2025-08-06
参数(亿) 210.0
查看模型详情
46
10.7
2025-05-23
未知
HLE得分 10.7
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
47
智谱AI Logo
GLM-4.5-Air thinking
10.6
2025-07-28
1060.0
HLE得分 10.6
发布时间 2025-07-28
参数(亿) 1060.0
查看模型详情
48
Anthropic Logo
Haiku 4.5 thinking
9.7
2025-10-15
未知
HLE得分 9.7
发布时间 2025-10-15
参数(亿) 未知
查看模型详情
49
9.6
2025-05-23
未知
HLE得分 9.6
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
50
9.1
2024-12-05
未知
HLE得分 9.1
发布时间 2024-12-05
参数(亿) 未知
查看模型详情
51
8.6
2025-09-29
6710.0
HLE得分 8.6
发布时间 2025-09-29
参数(亿) 6710.0
查看模型详情
52
8.4
2025-04-17
未知
HLE得分 8.4
发布时间 2025-04-17
参数(亿) 未知
查看模型详情
53
8.4
2025-06-16
4560.0
HLE得分 8.4
发布时间 2025-06-16
参数(亿) 4560.0
查看模型详情
54
7.6
2025-04-28
2350.0
HLE得分 7.6
发布时间 2025-04-28
参数(亿) 2350.0
查看模型详情
55
7.2
2025-06-16
4560.0
HLE得分 7.2
发布时间 2025-06-16
参数(亿) 4560.0
查看模型详情
56
7.1
2025-09-30
未知
HLE得分 7.1
发布时间 2025-09-30
参数(亿) 未知
查看模型详情
57
6.9
2025-06-17
未知
HLE得分 6.9
发布时间 2025-06-17
参数(亿) 未知
查看模型详情
58
6.3
2025-08-07
未知
HLE得分 6.3
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
59
5.52
2025-05-23
未知
HLE得分 5.52
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
60
5.3
2024-05-13
未知
HLE得分 5.3
发布时间 2024-05-13
参数(亿) 未知
查看模型详情
61
5.2
2025-03-24
6710.0
HLE得分 5.2
发布时间 2025-03-24
参数(亿) 6710.0
查看模型详情
62
5.2
2025-09-30
3550.0
HLE得分 5.2
发布时间 2025-09-30
参数(亿) 3550.0
查看模型详情
63
5.1
2024-12-11
未知
HLE得分 5.1
发布时间 2024-12-11
参数(亿) 未知
查看模型详情
64
OpenAI Logo
GPT-5-mini thinking
5.0
2025-08-07
未知
HLE得分 5.0
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
65
4.7
2025-07-11
10000.0
HLE得分 4.7
发布时间 2025-07-11
参数(亿) 10000.0
查看模型详情
66
4.3
2025-10-15
未知
HLE得分 4.3
发布时间 2025-10-15
参数(亿) 未知
查看模型详情
67
3.7
2025-04-14
未知
HLE得分 3.7
发布时间 2025-04-14
参数(亿) 未知
查看模型详情
68
0.0
2025-08-07
未知
HLE得分 0.0
发布时间 2025-08-07
参数(亿) 未知
查看模型详情