DataLearner 标志DataLearnerAI
AI技术博客
大模型评测排行
大模型评测基准
AI大模型大全
AI资源仓库
AI工具导航
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 联系我们

© 2025 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 大模型评测基准列表
  2. /
  3. HLE

HLE 评测基准详情

近年来,大语言模型(LLM)的能力飞速提升,但评测基准的发展却显得滞后。以广泛使用的MMLU(大规模多任务语言理解)为例,GPT-4、Claude等前沿模型已能在其90%以上的问题上取得高分。这种“评测饱和”现象导致研究者难以精准衡量模型在尖端知识领域的真实能力。为此,Safety for AI和Scale AI的研究人员推出了Humanity’s Last Exam大模型评测基准。这是一个全新的评测基准,旨在成为大模型“闭卷学术评测的终极考验”。

Views806
问题数量
3000
发布机构
Center for AI Safety
评测类别
综合评估
评测指标
Accuracy
支持语言
英文
难度等级
高难度

简介

研究生水平以上的超高难度、覆盖超多学科的大模型评测基准

相关资源

查看原始论文
阅读学术论文原文
获取数据集
下载评测数据集
访问官网
浏览项目官方网站
DataLearner 介绍
中文详细解读

HLE 大模型得分排行榜

数据来源:DataLearnerAI

模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...

详细评测数据

已排除 3 条并行模式成绩

HLE详细排名数据表格

排名模型
1
GPT-5.2 Prothinking + 使用工具
502025-12-11未知
2
GPT-5.2thinking + 使用工具
45.52025-12-11未知
3
Kimi K2 Thinkingthinking + 使用工具
44.92025-11-0610400
4
Gemini 3.0 Flashthinking + 使用工具
43.52025-12-17未知
5
Claude Opus 4.5thinking + 使用工具
43.22025-11-25未知
6
GPT-5-Prothinking + 使用工具
422025-08-07未知
7
Grok 4thinking + 使用工具+联网
38.62025-07-10未知
8
Grok 4thinking + 使用工具
38.62025-07-10未知
9
Gemini 3.0 Pro (Preview 11-2025)thinking
37.52025-11-18未知
10
GPT-5.2 Prothinking
36.62025-12-11未知
11
GPT-5thinking + 使用工具
35.22025-08-07未知
12
Gemini 2.5 Deep Thinkdeeper thinking
34.82025-08-01未知
13
GPT-5.2thinking
34.52025-12-11未知
14
Gemini 3.0 Flashthinking
33.72025-12-17未知
15
Claude Opus 4.5thinking
30.82025-11-25未知
16
GPT-5-Prothinking
30.72025-08-07未知
17
DeepSeek V3.2 Specialethinking
30.62025-12-01未知
18
GLM-4.6thinking + 使用工具
30.42025-09-303550
19
GPT-5.1thinking
26.52025-11-12未知
20
Grok 4thinking
25.42025-07-10未知
21
DeepSeek V3.2thinking
25.12025-12-016710
22
GPT-5thinking
24.82025-08-07未知
23
Kimi K2 Thinkingthinking
23.92025-11-0610400
24
Kimi K2 0905thinking + 使用工具
21.72025-09-0510000
25
DeepSeek-V3.1 Terminus
21.72025-09-226710
26
Gemini-2.5-Pro-Preview-05-06
21.62025-05-06未知
27
Gemini 2.5-Prothinking
21.62025-06-05未知
28
o3-pro
212025-06-10未知
29
OpenAI o3thinking
20.322025-04-16未知
30
DeepSeek V3.2-Expthinking + 使用工具
20.32025-09-296710
31
Grok 4 Fastthinking
202025-09-19未知
32
DeepSeek V3.2-Expthinking
19.82025-09-296710
33
GPT OSS 120Bthinking + 使用工具
192025-08-06117
34
Gemini 2.5 Pro Experimental 03-25
18.82025-03-25未知
35
Qwen3-235B-A22B-Thinking-2507thinking
18.22025-07-252350
36
Qwen3-235B-A22B-Thinkingthinking
18.22025-07-30305
37
OpenAI o4 - minithinking + 使用工具
17.72025-04-16未知
38
DeepSeek-R1-0528thinking
17.72025-05-286710
39
Grok 4.1 Fastthinking
17.62025-11-19未知
40
GPT OSS 20Bthinking + 使用工具
17.32025-08-06210
41
Claude Sonnet 4.5thinking
17.32025-09-30未知
42
GLM-4.6thinking
17.22025-09-303550
43
DeepSeek-V3.1thinking
15.92025-08-206710
44
DeepSeek-V3.1 Terminusthinking
15.22025-09-226710
45
GPT OSS 120Bthinking
14.92025-08-06117
46
GLM-4.5thinking
14.42025-07-283550
47
OpenAI o4 - minithinking
14.282025-04-16未知
48
OpenAI o3-minithinking
13.42025-01-31未知
49
MiniMax M2thinking
12.52025-10-272300
50
Qwen3 Max
11.12025-09-05未知
51
Gemini 2.5 Flashthinking
112025-04-17未知
52
GPT OSS 20Bthinking
10.92025-08-06210
53
Claude Opus 4
10.72025-05-23未知
54
GLM-4.5-Airthinking
10.62025-07-281060
55
Haiku 4.5thinking
9.72025-10-15未知
56
Claude Sonnet 4thinking
9.62025-05-23未知
57
OpenAI o1
9.12024-12-05未知
58
DeepSeek V3.2-Exp
8.62025-09-296710
59
Gemini 2.5 Flash
8.42025-04-17未知
60
MiniMax-M1-80k
8.42025-06-164560
61
Qwen3-235B-A22B
7.62025-04-282350
62
MiniMax-M1-40k
7.22025-06-164560
63
Claude Sonnet 4.5
7.12025-09-30未知
64
Gemini 2.5 Flash-Lite
6.92025-06-17未知
65
GPT-5
6.32025-08-07未知
66
Claude Sonnet 4
5.522025-05-23未知
67
GPT-4o
5.32024-05-13未知
68
DeepSeek-V3-0324
5.22025-03-246710
69
GLM-4.6
5.22025-09-303550
70
Gemini 2.0 Flash Experimental
5.12024-12-11未知
71
GPT-5-minithinking
52025-08-07未知
72
Kimi K2
4.72025-07-1110000
73
Haiku 4.5
4.32025-10-15未知
74
GPT-4.1
3.72025-04-14未知
75
GPT-5-mini
02025-08-07未知