HLE

Name: Humanity's Last Exam
Creator: Center for AI Safety

近年来，大语言模型（LLM）的能力飞速提升，但评测基准的发展却显得滞后。以广泛使用的MMLU（大规模多任务语言理解）为例，GPT-4、Claude等前沿模型已能在其90%以上的问题上取得高分。这种“评测饱和”现象导致研究者难以精准衡量模型在尖端知识领域的真实能力。为此，Safety for AI和Scale AI的研究人员推出了Humanity’s Last Exam大模型评测基准。这是一个全新的评测基准，旨在成为大模型“闭卷学术评测的终极考验”。

更新于 2026-04-07

3,209 次浏览

问题数量

3000

发布机构

Center for AI Safety

评测类别

综合评估

评测指标

Accuracy

支持语言

英文

难度等级

高难度

简介

研究生水平以上的超高难度、覆盖超多学科的大模型评测基准

HLE Model Score Leaderboard

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

模式说明:

normal

thinking

low

medium

high

deeper thinking

parallel_thinking

图表加载中...

Latest HLE model rankings and full benchmark leaderboard

Browse the latest scores, model modes, release dates, and parameter sizes for HLE.

已排除 3 条并行模式成绩

排名	模型
1	GPT-5.4 Pro Thinking Level · HighTools	58.7	2026-03-05	未知
2	Claude Opus 4.6 Deep ThinkingToolsInternet	53	2026-02-05	未知
3	GPT-5.4 Deep ThinkingTools	52.1	2026-03-05	未知
4	Gemini 3.1 Pro Preview Thinking Level · HighTools	51.4	2026-02-20	未知
5	Qwen 3.6 Plus Preview Thinking Level · MediumTools	50.6	2026-03-31	未知
6	GLM-5 Thinking Level · MediumTools	50.4	2026-02-11	7440
7	GPT-5.2 Pro Thinking Level · MediumTools	50	2025-12-11	未知
8	Qwen3-Max-Thinking Thinking Level · MediumTools	49.8	2026-01-26	10000
9	Claude Sonnet 4.6 Thinking Level · MediumTools	49	2026-02-17	未知
10	Qwen3.5-27B Thinking Level · MediumTools	48.5	2026-02-25	270
11	Gemini 3 Deep Think - 2620 Thinking Level · Medium	48.4	2026-02-13	未知
12	Qwen3.5-397B-A17B Thinking Level · MediumToolsInternet	48.3	2026-02-16	397
13	Gemini 3.0 Pro (Preview 11-2025) Thinking Level · HighTools	45.8	2025-11-18	未知
14	GPT-5.2 Deep ThinkingToolsInternet	45.5	2025-12-11	未知
15	Kimi K2 Thinking Thinking Level · MediumTools	44.9	2025-11-06	10400
16	Gemini 3.1 Pro Preview Thinking Level · High	44.4	2026-02-20	未知
17	Gemini 3.0 Flash Thinking Level · MediumTools	43.5	2025-12-17	未知
18	Claude Opus 4.5 Thinking Level · MediumTools	43.2	2025-11-25	未知
19	GLM-4.7 Thinking Level · MediumTools	42.8	2025-12-22	3580
20	GPT-5.1 Thinking Level · HighToolsInternet	42.7	2025-11-12	未知
21	GPT-5.4 Pro Thinking Level · High	42.7	2026-03-05	未知
22	GPT-5-Pro Thinking Level · MediumTools	42	2025-08-07	未知
23	GPT-5.4 mini Deep ThinkingTools	41.5	2026-03-17	未知
24	GPT-5.4 Deep Thinking	39.8	2026-03-05	未知
25	Grok 4 Thinking Level · MediumToolsInternet	38.6	2025-07-10	未知
26	Grok 4 Thinking Level · MediumTools	38.6	2025-07-10	未知
27	GPT-5.4 nano Deep ThinkingTools	37.7	2026-03-17	未知

滚动或悬停加载剩余 91 条

HLE Model Score Leaderboard

Latest HLE model rankings and full benchmark leaderboard

HLE详细排名数据表格