HLE

Humanity's Last Exam

研究生水平以上的超高难度、覆盖超多学科的大模型评测基准

英文 难度:高难度

主要统计信息

问题数量

3000

机构

Center for AI Safety

类别

知识问答

评估指标

Accuracy

HLE基准测试简介

近年来,大语言模型(LLM)的能力飞速提升,但评测基准的发展却显得滞后。以广泛使用的MMLU(大规模多任务语言理解)为例,GPT-4、Claude等前沿模型已能在其90%以上的问题上取得高分。这种“评测饱和”现象导致研究者难以精准衡量模型在尖端知识领域的真实能力。为此,Safety for AI和Scale AI的研究人员推出了Humanity’s Last Exam大模型评测基准。这是一个全新的评测基准,旨在成为大模型“闭卷学术评测的终极考验”。

HLE 大模型得分排行榜

冠军
亚军
季军
其他排名

详细排名数据表格

模型简称 HLE得分 发布机构 发布时间 参数规模(亿)
Grok 4 (TTC) 45.0 xAI Logo 2025-07-10 0.0
Grok 4 Heavy 44.4 xAI Logo 2025-07-10 0.0
Grok 4 35.0 xAI Logo 2025-07-10 0.0
Gemini-2.5-Pro-Preview-06-05 21.6 Google Deep Mind Logo 2025-06-05 未知
Gemini-2.5-Pro-Preview-05-06 21.6 Google Deep Mind Logo 2025-05-06 未知
o3-pro 21.0 OpenAI Logo 2025-06-10 未知
OpenAI o3 20.32 OpenAI Logo 2025-04-16 未知
Gemini 2.5 Pro Experimental 03-25 18.8 Google Deep Mind Logo 2025-03-25 0.0
DeepSeek-R1-0528 17.7 DeepSeek-AI Logo 2025-05-28 6850.0
OpenAI o4 - mini 14.28 OpenAI Logo 2025-04-16 未知
Gemini 2.5 Flash 12.1 Google Deep Mind Logo 2025-04-17 未知
Claude Opus 4 10.7 Anthropic Logo 2025-05-23 未知
OpenAI o1 9.1 OpenAI Logo 2024-12-05 未知
MiniMax-M1-80k 8.4 MiniMaxAI Logo 2025-06-16 4560.0
Qwen3-235B-A22B 7.6 阿里巴巴 Logo 2025-04-28 2350.0
MiniMax-M1-40k 7.2 MiniMaxAI Logo 2025-06-16 4560.0
Gemini 2.5 Flash-Lite 6.9 Google Deep Mind Logo 2025-06-17 未知
Claude Sonnet 4 5.52 Anthropic Logo 2025-05-23 未知
DeepSeek-V3-0324 5.2 DeepSeek-AI Logo 2025-03-24 6810.0
Gemini 2.0 Flash Experimental 5.1 DeepMind Logo 2024-12-11 未知
Kimi K2 4.7 Moonshot AI Logo 2025-07-11 10000.0
GPT-4.1 3.7 OpenAI Logo 2025-04-14 未知
GPT-5 Reasoning 0.0 OpenAI Logo 2025-07-15 0.0
GPT-5 0.0 OpenAI Logo 2025-07-15 0.0
得分:
45.0
发布时间:
2025-07-10
参数规模(亿):
0.0
得分:
44.4
发布时间:
2025-07-10
参数规模(亿):
0.0
得分:
35.0
发布时间:
2025-07-10
参数规模(亿):
0.0
得分:
21.6
发布时间:
2025-06-05
参数规模(亿):
未知
得分:
21.6
发布时间:
2025-05-06
参数规模(亿):
未知
得分:
21.0
发布时间:
2025-06-10
参数规模(亿):
未知
得分:
20.32
发布时间:
2025-04-16
参数规模(亿):
未知
得分:
18.8
发布时间:
2025-03-25
参数规模(亿):
0.0
得分:
17.7
发布时间:
2025-05-28
参数规模(亿):
6850.0
得分:
14.28
发布时间:
2025-04-16
参数规模(亿):
未知
得分:
12.1
发布时间:
2025-04-17
参数规模(亿):
未知
得分:
10.7
发布时间:
2025-05-23
参数规模(亿):
未知
得分:
9.1
发布时间:
2024-12-05
参数规模(亿):
未知
得分:
8.4
发布时间:
2025-06-16
参数规模(亿):
4560.0
得分:
7.6
发布时间:
2025-04-28
参数规模(亿):
2350.0
得分:
7.2
发布时间:
2025-06-16
参数规模(亿):
4560.0
得分:
6.9
发布时间:
2025-06-17
参数规模(亿):
未知
得分:
5.52
发布时间:
2025-05-23
参数规模(亿):
未知
得分:
5.2
发布时间:
2025-03-24
参数规模(亿):
6810.0
得分:
5.1
发布时间:
2024-12-11
参数规模(亿):
未知
得分:
4.7
发布时间:
2025-07-11
参数规模(亿):
10000.0
得分:
3.7
发布时间:
2025-04-14
参数规模(亿):
未知
得分:
0.0
发布时间:
2025-07-15
参数规模(亿):
0.0
得分:
0.0
发布时间:
2025-07-15
参数规模(亿):
0.0