HLE 评测基准详情

370

近年来，大语言模型（LLM）的能力飞速提升，但评测基准的发展却显得滞后。以广泛使用的MMLU（大规模多任务语言理解）为例，GPT-4、Claude等前沿模型已能在其90%以上的问题上取得高分。这种“评测饱和”现象导致研究者难以精准衡量模型在尖端知识领域的真实能力。为此，Safety for AI和Scale AI的研究人员推出了Humanity’s Last Exam大模型评测基准。这是一个全新的评测基准，旨在成为大模型“闭卷学术评测的终极考验”。

Humanity's Last Exam

研究生水平以上的超高难度、覆盖超多学科的大模型评测基准

问题数量 3000

发布机构 Center for AI Safety

评测类别综合评估

评测指标 Accuracy

支持语言英文

难度等级高难度

模型模式说明

不同模式会显著影响成绩，请在对比榜单时留意标签提示。

提示：若某条记录未显示任何标签，即默认是 normal 常规模式。

normal

常规推理：单步推理，不延长思考、也不调用额外工具。

thinking low medium high

Thinking 系列：常规延长思考时间，low/medium/high 代表不同耗时或深度，各厂商叫法不同。

deeper thinking

Deeper thinking：在 Thinking 基础上进一步延长思考链条，通常意味着更多算力与时间。

使用工具 / 联网

允许调用检索、浏览器、代码解释器等外部能力。

parallel_thinking

并行思考：多线程/多代理协同探索再汇总，通常只在厂商内部实验环境中启用、尚未对外开放，因此被视为“作弊”模式。

HLE 大模型得分排行榜

数据来源：DataLearnerAI

默认：仅展示常规/非并行的评测结果，可按需查看并行思考成绩。

默认隐藏并行思考结果。

排名

模型

得分

发布时间

参数(亿)

Kimi K2 Thinking parallel_thinking + 使用工具

51.0

2025-11-06

10400.0

Kimi K2 Thinking parallel_thinking + 使用工具

51.0

HLE得分 51.0

发布时间 2025-11-06

参数(亿) 10400.0

查看模型详情

Kimi K2 Thinking thinking + 使用工具

44.9

2025-11-06

10400.0

Kimi K2 Thinking thinking + 使用工具

44.9

HLE得分 44.9

发布时间 2025-11-06

参数(亿) 10400.0

查看模型详情

Grok 4 Heavy parallel_thinking + 使用工具

44.4

2025-07-10

未知

Grok 4 Heavy parallel_thinking + 使用工具

44.4

HLE得分 44.4

发布时间 2025-07-10

参数(亿) 未知

查看模型详情

GPT-5-Pro thinking + 使用工具

42.0

2025-08-07

未知

GPT-5-Pro thinking + 使用工具

42.0

HLE得分 42.0

发布时间 2025-08-07

参数(亿) 未知

查看模型详情

Gemini 3.0 Pro (Preview 11-2025) parallel_thinking

41.0

2025-11-18

未知

Gemini 3.0 Pro (Preview 11-2025) parallel_thinking

41.0

HLE得分 41.0

发布时间 2025-11-18

参数(亿) 未知

查看模型详情

Grok 4 thinking + 使用工具

38.6

2025-07-10

未知

Grok 4 thinking + 使用工具

38.6

HLE得分 38.6

发布时间 2025-07-10

参数(亿) 未知

查看模型详情

Grok 4 thinking + 使用工具+联网

38.6

2025-07-10

未知

Grok 4 thinking + 使用工具+联网

38.6

HLE得分 38.6

发布时间 2025-07-10

参数(亿) 未知

查看模型详情

Gemini 3.0 Pro (Preview 11-2025) thinking

37.5

2025-11-18

未知

Gemini 3.0 Pro (Preview 11-2025) thinking

37.5

HLE得分 37.5

发布时间 2025-11-18

参数(亿) 未知

查看模型详情

GPT-5 thinking + 使用工具

35.2

2025-08-07

未知

GPT-5 thinking + 使用工具

35.2

HLE得分 35.2

发布时间 2025-08-07

参数(亿) 未知

查看模型详情

Gemini 2.5 Deep Think deeper_thinking

34.8

2025-08-01

未知

#10

Gemini 2.5 Deep Think deeper_thinking

34.8

HLE得分 34.8

发布时间 2025-08-01

参数(亿) 未知

查看模型详情

GPT-5-Pro thinking

30.7

2025-08-07

未知

#11

GPT-5-Pro thinking

30.7

HLE得分 30.7

发布时间 2025-08-07

参数(亿) 未知

查看模型详情

GLM-4.6 thinking + 使用工具

30.4

2025-09-30

3550.0

#12

GLM-4.6 thinking + 使用工具

30.4

HLE得分 30.4

发布时间 2025-09-30

参数(亿) 3550.0

查看模型详情

GPT-5.1 Thinking thinking

26.5

2025-11-12

未知

#13

GPT-5.1 Thinking thinking

26.5

HLE得分 26.5

发布时间 2025-11-12

参数(亿) 未知

查看模型详情

Grok 4 thinking

25.4

2025-07-10

未知

#14

Grok 4 thinking

25.4

HLE得分 25.4

发布时间 2025-07-10

参数(亿) 未知

查看模型详情

GPT-5 thinking

24.8

2025-08-07

未知

#15

GPT-5 thinking

24.8

HLE得分 24.8

发布时间 2025-08-07

参数(亿) 未知

查看模型详情

Kimi K2 Thinking thinking

23.9

2025-11-06

10400.0

#16

Kimi K2 Thinking thinking

23.9

HLE得分 23.9

发布时间 2025-11-06

参数(亿) 10400.0

查看模型详情

Kimi K2 0905 thinking + 使用工具

21.7

2025-09-05

10000.0

#17

Kimi K2 0905 thinking + 使用工具

21.7

HLE得分 21.7

发布时间 2025-09-05

参数(亿) 10000.0

查看模型详情

DeepSeek-V3.1 Terminus

21.7

2025-09-22

6710.0

#18

DeepSeek-V3.1 Terminus

21.7

HLE得分 21.7

发布时间 2025-09-22

参数(亿) 6710.0

查看模型详情

Gemini-2.5-Pro-Preview-05-06

21.6

2025-05-06

未知

#19

Gemini-2.5-Pro-Preview-05-06

21.6

HLE得分 21.6

发布时间 2025-05-06

参数(亿) 未知

查看模型详情

Gemini 2.5-Pro thinking

21.6

2025-06-05

未知

#20

Gemini 2.5-Pro thinking

21.6

HLE得分 21.6

发布时间 2025-06-05

参数(亿) 未知

查看模型详情

o3-pro

21.0

2025-06-10

未知

#21

o3-pro

21.0

HLE得分 21.0

发布时间 2025-06-10

参数(亿) 未知

查看模型详情

OpenAI o3 thinking

20.32

2025-04-16

未知

#22

OpenAI o3 thinking

20.32

HLE得分 20.32

发布时间 2025-04-16

参数(亿) 未知

查看模型详情

DeepSeek V3.2-Exp thinking + 使用工具

20.3

2025-09-29

6710.0

#23

DeepSeek V3.2-Exp thinking + 使用工具

20.3

HLE得分 20.3

发布时间 2025-09-29

参数(亿) 6710.0

查看模型详情

Grok 4 Fast thinking

20.0

2025-09-19

未知

#24

Grok 4 Fast thinking

20.0

HLE得分 20.0

发布时间 2025-09-19

参数(亿) 未知

查看模型详情

DeepSeek V3.2-Exp thinking

19.8

2025-09-29

6710.0

#25

DeepSeek V3.2-Exp thinking

19.8

HLE得分 19.8

发布时间 2025-09-29

参数(亿) 6710.0

查看模型详情

GPT OSS 120B thinking + 使用工具

19.0

2025-08-06

117.0

#26

GPT OSS 120B thinking + 使用工具

19.0

HLE得分 19.0

发布时间 2025-08-06

参数(亿) 117.0

查看模型详情

Gemini 2.5 Pro Experimental 03-25

18.8

2025-03-25

未知

#27

Gemini 2.5 Pro Experimental 03-25

18.8

HLE得分 18.8

发布时间 2025-03-25

参数(亿) 未知

查看模型详情

Qwen3-235B-A22B-Thinking thinking

18.2

2025-07-30

305.0

#28

Qwen3-235B-A22B-Thinking thinking

18.2

HLE得分 18.2

发布时间 2025-07-30

参数(亿) 305.0

查看模型详情

Qwen3-235B-A22B-Thinking-2507 thinking

18.2

2025-07-25

2350.0

#29

Qwen3-235B-A22B-Thinking-2507 thinking

18.2

HLE得分 18.2

发布时间 2025-07-25

参数(亿) 2350.0

查看模型详情

DeepSeek-R1-0528 thinking

17.7

2025-05-28

6710.0

#30

DeepSeek-R1-0528 thinking

17.7

HLE得分 17.7

发布时间 2025-05-28

参数(亿) 6710.0

查看模型详情

OpenAI o4 - mini thinking + 使用工具

17.7

2025-04-16

未知

#31

OpenAI o4 - mini thinking + 使用工具

17.7

HLE得分 17.7

发布时间 2025-04-16

参数(亿) 未知

查看模型详情

Grok 4.1 Fast thinking

17.6

2025-11-19

未知

#32

Grok 4.1 Fast thinking

17.6

HLE得分 17.6

发布时间 2025-11-19

参数(亿) 未知

查看模型详情

GPT OSS 20B thinking + 使用工具

17.3

2025-08-06

210.0

#33

GPT OSS 20B thinking + 使用工具

17.3

HLE得分 17.3

发布时间 2025-08-06

参数(亿) 210.0

查看模型详情

Claude Sonnet 4.5 thinking

17.3

2025-09-30

未知

#34

Claude Sonnet 4.5 thinking

17.3

HLE得分 17.3

发布时间 2025-09-30

参数(亿) 未知

查看模型详情

GLM-4.6 thinking

17.2

2025-09-30

3550.0

#35

GLM-4.6 thinking

17.2

HLE得分 17.2

发布时间 2025-09-30

参数(亿) 3550.0

查看模型详情

DeepSeek-V3.1 thinking

15.9

2025-08-20

6710.0

#36

DeepSeek-V3.1 thinking

15.9

HLE得分 15.9

发布时间 2025-08-20

参数(亿) 6710.0

查看模型详情

DeepSeek-V3.1 Terminus thinking

15.2

2025-09-22

6710.0

#37

DeepSeek-V3.1 Terminus thinking

15.2

HLE得分 15.2

发布时间 2025-09-22

参数(亿) 6710.0

查看模型详情

GPT OSS 120B thinking

14.9

2025-08-06

117.0

#38

GPT OSS 120B thinking

14.9

HLE得分 14.9

发布时间 2025-08-06

参数(亿) 117.0

查看模型详情

GLM-4.5 thinking

14.4

2025-07-28

3550.0

#39

GLM-4.5 thinking

14.4

HLE得分 14.4

发布时间 2025-07-28

参数(亿) 3550.0

查看模型详情

OpenAI o4 - mini thinking

14.28

2025-04-16

未知

#40

OpenAI o4 - mini thinking

14.28

HLE得分 14.28

发布时间 2025-04-16

参数(亿) 未知

查看模型详情

OpenAI o3-mini thinking

13.4

2025-01-31

未知

#41

OpenAI o3-mini thinking

13.4

HLE得分 13.4

发布时间 2025-01-31

参数(亿) 未知

查看模型详情

MiniMax M2 thinking

12.5

2025-10-27

2300.0

#42

MiniMax M2 thinking

12.5

HLE得分 12.5

发布时间 2025-10-27

参数(亿) 2300.0

查看模型详情

Qwen3 Max

11.1

2025-09-05

未知

#43

Qwen3 Max

11.1

HLE得分 11.1

发布时间 2025-09-05

参数(亿) 未知

查看模型详情

Gemini 2.5 Flash thinking

11.0

2025-04-17

未知

#44

Gemini 2.5 Flash thinking

11.0

HLE得分 11.0

发布时间 2025-04-17

参数(亿) 未知

查看模型详情

GPT OSS 20B thinking

10.9

2025-08-06

210.0

#45

GPT OSS 20B thinking

10.9

HLE得分 10.9

发布时间 2025-08-06

参数(亿) 210.0

查看模型详情

Claude Opus 4

10.7

2025-05-23

未知

#46

Claude Opus 4

10.7

HLE得分 10.7

发布时间 2025-05-23

参数(亿) 未知

查看模型详情

GLM-4.5-Air thinking

10.6

2025-07-28

1060.0

#47

GLM-4.5-Air thinking

10.6

HLE得分 10.6

发布时间 2025-07-28

参数(亿) 1060.0

查看模型详情

Haiku 4.5 thinking

9.7

2025-10-15

未知

#48

Haiku 4.5 thinking

9.7

HLE得分 9.7

发布时间 2025-10-15

参数(亿) 未知

查看模型详情

Claude Sonnet 4 thinking

9.6

2025-05-23

未知

#49

Claude Sonnet 4 thinking

9.6

HLE得分 9.6

发布时间 2025-05-23

参数(亿) 未知

查看模型详情

OpenAI o1

9.1

2024-12-05

未知

#50

OpenAI o1

9.1

HLE得分 9.1

发布时间 2024-12-05

参数(亿) 未知

查看模型详情

DeepSeek V3.2-Exp

8.6

2025-09-29

6710.0

#51

DeepSeek V3.2-Exp

8.6

HLE得分 8.6

发布时间 2025-09-29

参数(亿) 6710.0

查看模型详情

Gemini 2.5 Flash

8.4

2025-04-17

未知

#52

Gemini 2.5 Flash

8.4

HLE得分 8.4

发布时间 2025-04-17

参数(亿) 未知

查看模型详情

MiniMax-M1-80k

8.4

2025-06-16

4560.0

#53

MiniMax-M1-80k

8.4

HLE得分 8.4

发布时间 2025-06-16

参数(亿) 4560.0

查看模型详情

Qwen3-235B-A22B

7.6

2025-04-28

2350.0

#54

Qwen3-235B-A22B

7.6

HLE得分 7.6

发布时间 2025-04-28

参数(亿) 2350.0

查看模型详情

MiniMax-M1-40k

7.2

2025-06-16

4560.0

#55

MiniMax-M1-40k

7.2

HLE得分 7.2

发布时间 2025-06-16

参数(亿) 4560.0

查看模型详情

Claude Sonnet 4.5

7.1

2025-09-30

未知

#56

Claude Sonnet 4.5

7.1

HLE得分 7.1

发布时间 2025-09-30

参数(亿) 未知

查看模型详情

Gemini 2.5 Flash-Lite

6.9

2025-06-17

未知

#57

Gemini 2.5 Flash-Lite

6.9

HLE得分 6.9

发布时间 2025-06-17

参数(亿) 未知

查看模型详情

GPT-5

6.3

2025-08-07

未知

#58

GPT-5

6.3

HLE得分 6.3

发布时间 2025-08-07

参数(亿) 未知

查看模型详情

Claude Sonnet 4

5.52

2025-05-23

未知

#59

Claude Sonnet 4

5.52

HLE得分 5.52

发布时间 2025-05-23

参数(亿) 未知

查看模型详情

GPT-4o

5.3

2024-05-13

未知

#60

GPT-4o

5.3

HLE得分 5.3

发布时间 2024-05-13

参数(亿) 未知

查看模型详情

DeepSeek-V3-0324

5.2

2025-03-24

6710.0

#61

DeepSeek-V3-0324

5.2

HLE得分 5.2

发布时间 2025-03-24

参数(亿) 6710.0

查看模型详情

GLM-4.6

5.2

2025-09-30

3550.0

#62

GLM-4.6

5.2

HLE得分 5.2

发布时间 2025-09-30

参数(亿) 3550.0

查看模型详情

Gemini 2.0 Flash Experimental

5.1

2024-12-11

未知

#63

Gemini 2.0 Flash Experimental

5.1

HLE得分 5.1

发布时间 2024-12-11

参数(亿) 未知

查看模型详情

GPT-5-mini thinking

5.0

2025-08-07

未知

#64

GPT-5-mini thinking

5.0

HLE得分 5.0

发布时间 2025-08-07

参数(亿) 未知

查看模型详情

Kimi K2

4.7

2025-07-11

10000.0

#65

Kimi K2

4.7

HLE得分 4.7

发布时间 2025-07-11

参数(亿) 10000.0

查看模型详情

Haiku 4.5

4.3

2025-10-15

未知

#66

Haiku 4.5

4.3

HLE得分 4.3

发布时间 2025-10-15

参数(亿) 未知

查看模型详情

GPT-4.1

3.7

2025-04-14

未知

#67

GPT-4.1

3.7

HLE得分 3.7

发布时间 2025-04-14

参数(亿) 未知

查看模型详情

GPT-5-mini

0.0

2025-08-07

未知

#68

GPT-5-mini

0.0

HLE得分 0.0

发布时间 2025-08-07

参数(亿) 未知

查看模型详情

Humanity's Last Exam

模型模式说明

HLE 大模型得分排行榜

HLE详细排名数据表格