HLE

Name: Humanity's Last Exam
Creator: Center for AI Safety

近年来，大语言模型（LLM）的能力飞速提升，但评测基准的发展却显得滞后。以广泛使用的MMLU（大规模多任务语言理解）为例，GPT-4、Claude等前沿模型已能在其90%以上的问题上取得高分。这种“评测饱和”现象导致研究者难以精准衡量模型在尖端知识领域的真实能力。为此，Safety for AI和Scale AI的研究人员推出了Humanity’s Last Exam大模型评测基准。这是一个全新的评测基准，旨在成为大模型“闭卷学术评测的终极考验”。

更新于 2026-04-07

3,209 次浏览

问题数量

3000

发布机构

Center for AI Safety

评测类别

综合评估

评测指标

Accuracy

支持语言

英文

难度等级

高难度

简介

研究生水平以上的超高难度、覆盖超多学科的大模型评测基准

HLE 大模型得分排行榜

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模式说明:

normal

thinking

low

medium

high

deeper thinking

parallel_thinking

图表加载中...

HLE评测最新大模型排名与完整榜单数据

查看 HLE 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

已排除 3 条并行模式成绩

排名	模型
1	GPT-5.4 Pro 思考水平 · 高工具	58.7	2026-03-05	未知
2	Claude Opus 4.6 深度思考工具可联网	53	2026-02-05	未知
3	GPT-5.4 深度思考工具	52.1	2026-03-05	未知
4	Gemini 3.1 Pro Preview 思考水平 · 高工具	51.4	2026-02-20	未知
5	Qwen 3.6 Plus Preview 思考水平 · 中工具	50.6	2026-03-31	未知
6	GLM-5 思考水平 · 中工具	50.4	2026-02-11	7440
7	GPT-5.2 Pro 思考水平 · 中工具	50	2025-12-11	未知
8	Qwen3-Max-Thinking 思考水平 · 中工具	49.8	2026-01-26	10000
9	Claude Sonnet 4.6 思考水平 · 中工具	49	2026-02-17	未知
10	Qwen3.5-27B 思考水平 · 中工具	48.5	2026-02-25	270
11	Gemini 3 Deep Think - 2620 思考水平 · 中	48.4	2026-02-13	未知
12	Qwen3.5-397B-A17B 思考水平 · 中工具可联网	48.3	2026-02-16	397
13	Gemini 3.0 Pro (Preview 11-2025) 思考水平 · 高工具	45.8	2025-11-18	未知
14	GPT-5.2 深度思考工具可联网	45.5	2025-12-11	未知
15	Kimi K2 Thinking 思考水平 · 中工具	44.9	2025-11-06	10400
16	Gemini 3.1 Pro Preview 思考水平 · 高	44.4	2026-02-20	未知
17	Gemini 3.0 Flash 思考水平 · 中工具	43.5	2025-12-17	未知
18	Claude Opus 4.5 思考水平 · 中工具	43.2	2025-11-25	未知
19	GLM-4.7 思考水平 · 中工具	42.8	2025-12-22	3580
20	GPT-5.1 思考水平 · 高工具可联网	42.7	2025-11-12	未知
21	GPT-5.4 Pro 思考水平 · 高	42.7	2026-03-05	未知
22	GPT-5-Pro 思考水平 · 中工具	42	2025-08-07	未知
23	GPT-5.4 mini 深度思考工具	41.5	2026-03-17	未知
24	GPT-5.4 深度思考	39.8	2026-03-05	未知
25	Grok 4 思考水平 · 中工具可联网	38.6	2025-07-10	未知
26	Grok 4 思考水平 · 中工具	38.6	2025-07-10	未知
27	GPT-5.4 nano 深度思考工具	37.7	2026-03-17	未知

滚动或悬停加载剩余 91 条

HLE 大模型得分排行榜

HLE评测最新大模型排名与完整榜单数据

HLE详细排名数据表格