HLE

Updated Jul 18, 2026·6,739 views

Problem Count: 3000
Institution: Center for AI Safety
Category: General Evaluation
Metrics: Accuracy
Language: English
Difficulty: Mixed

Overview

An exceptionally difficult multidisciplinary benchmark with questions at graduate level and beyond.

Related resources

Latest HLE model rankings and full benchmark leaderboard

Browse the latest scores, model modes, release dates, and parameter sizes for HLE.

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Model Mode Legend

License:

Origin:

Model release cutoff:

1 parallel-mode results hidden

Rank	Model				License
	Claude Mythos Preview Extended ThinkingTools	64.70	2026-04-07	Unknown	Closed
	Muse Spark 1.1 Thinking EnabledTools	62.10	2026-07-09	Unknown	Closed
	Claude Fable 5 Deep Thinking Mode	59.00	2026-06-09	Unknown	Closed
4	GPT-5.4 Pro Thinking Level · HighTools	58.70	2026-03-05	Unknown	Closed
5	Muse Spark Deep Thinking Mode	58.00	2026-04-08	Unknown	Closed
6	Claude Opus 4.8 Extended ThinkingTools	57.90	2026-05-28	Unknown	Closed
7	Claude Sonnet 5 Thinking Level · Extra HighTools	57.40	2026-06-30	Unknown	Closed
8	GPT-5.5 Pro Thinking Level · Extra HighTools	57.20	2026-04-23	Unknown	Closed
9	Claude Mythos Preview Extended Thinking	56.80	2026-04-07	Unknown	Closed
10	Kimi K3 Thinking Level · MaxTools	56.00	2026-07-16	2800B	Free Commercial
11	Opus 4.7 Extended ThinkingTools	54.70	2026-04-16	Unknown	Closed
12	GLM-5.2 Thinking EnabledTools	54.70	2026-06-13	753.3B	Free Commercial
13	Kimi K2.6 Thinking EnabledToolsInternet	54.00	2026-04-20	1000B	Free Commercial
14	Qwen3.7-Max-Preview Thinking EnabledTools	53.50	2026-05-20	Unknown	Closed
15	Hy3 Thinking Level · HighTools	53.20	2026-07-06	295B	Free Commercial
16	Claude Opus 4.6 Extended ThinkingToolsInternet	53.00	2026-02-05	Unknown	Closed
17	GLM 5.1 Thinking EnabledTools	52.30	2026-03-27	75.4B	Free Commercial
18	GPT-5.5 Thinking Level · HighTools	52.20	2026-04-23	Unknown	Closed
19	GPT-5.4 Thinking Level · Extra HighTools	52.10	2026-03-05	Unknown	Closed
20	Gemini 3.1 Pro Preview Thinking Level · HighTools	51.40	2026-02-20	Unknown	Closed
21	Qwen 3.6 Plus Preview Thinking EnabledTools	50.60	2026-03-31	Unknown	Closed
22	GLM-5 Thinking EnabledTools	50.40	2026-02-11	744B	Free Commercial
23	Muse Spark Thinking EnabledTools	50.40	2026-04-08	Unknown	Closed
24	Kimi K2.5 Thinking EnabledTools	50.20	2026-01-27	1000B	Free Commercial
25	Qwen3.6-Max-Preview Thinking EnabledTools	50.20	2026-04-18	Unknown	Closed
26	GPT-5.2 Pro Thinking EnabledTools	50.00	2025-12-11	Unknown	Closed
27	Qwen3-Max-Thinking Thinking EnabledTools	49.80	2026-01-26	1000B	Closed
28	Claude Opus 4.8 Extended Thinking	49.80	2026-05-28	Unknown	Closed
29	Claude Sonnet 4.6 Thinking EnabledTools	49.00	2026-02-17	Unknown	Closed

Scroll to load 140 more

Latest HLE model rankings and full benchmark leaderboard

HLE Rank