MMLU

Updated Jul 18, 2026·5,888 views

Problem Count: 15000
Institution: Independent
Category: General Evaluation
Metrics: Accuracy
Language: English
Difficulty: Easy

Overview

A multiple-choice benchmark spanning 57 subjects that evaluates the knowledge and reasoning capabilities of large language models.

Related resources

Latest MMLU model rankings and full benchmark leaderboard

Browse the latest scores, model modes, release dates, and parameter sizes for MMLU.

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Model Mode Legend

License:

Origin:

Model release cutoff:

Rank	Model				License
	DeepSeek-V3.1 Thinking Enabled	93.40	2025-08-20	671B	Free Commercial
	OpenAI o4 - mini Thinking Enabled	93.00	2025-04-16	Unknown	Closed
	Gemini 3.1 Pro Preview Thinking Level · High	92.60	2026-02-20	Unknown	Closed
4	OpenAI o1 Standard Mode	91.80	2024-12-05	Unknown	Closed
5	DeepSeek-V3.1 Standard Mode	91.80	2025-08-20	671B	Free Commercial
6	Opus 4.7 Standard Mode	91.50	2026-04-16	Unknown	Closed
7	Claude Opus 4.6 Extended Thinking	91.05	2026-02-05	Unknown	Closed
8	DeepSeek-R1 Standard Mode	90.80	2025-01-20	671B	Free Commercial
9	GPT-4.1 Standard Mode	90.20	2025-04-14	Unknown	Closed
10	GPT OSS 120B Thinking Enabled	90.00	2025-08-06	11.7B	Free Commercial
11	GPT-5.2 Thinking Level · Extra High	89.60	2025-12-11	Unknown	Closed
12	Hunyuan-TurboS Standard Mode	89.50	2025-03-10	Unknown	Closed
13	Kimi K2 Standard Mode	89.50	2025-07-11	1000B	Free Commercial
14	Pangu Pro MoE Standard Mode	89.30	2025-06-30	71.9B	Free Commercial
15	GPT-4o Standard Mode	88.70	2024-05-13	Unknown	Closed
16	Llama3.1-405B Instruct Standard Mode	88.60	2024-07-23	405B	Free Commercial
17	DeepSeek-V3 Standard Mode	88.50	2024-12-26	681B	Free Commercial
18	Claude 3.5 Sonnet Standard Mode	88.30	2024-06-21	Unknown	Closed
19	Claude 3.5 Sonnet New Standard Mode	88.30	2024-10-22	Unknown	Closed
20	Hunyuan-A13B-Instruct Standard Mode	88.17	2025-06-27	80B	Free Commercial
21	Qwen2.5-Max Standard Mode	87.90	2025-01-28	Unknown	Closed
22	Grok 2 Standard Mode	87.50	2024-08-13	269B	Free Commercial
23	GPT-4.1 mini Standard Mode	87.50	2025-04-14	Unknown	Closed
24	Kimi k1.5 (Short-CoT) Standard Mode	87.40	2025-01-22	Unknown	Closed
25	Gemini 1.5 Pro Standard Mode	87.10	2024-02-15	Unknown	Closed
26	OpenAI o3-mini (high) Standard Mode	86.90	2025-01-31	Unknown	Closed
27	Claude3-Opus Standard Mode	86.80	2024-03-04	Unknown	Closed
28	Gemini 2.0 Pro Experimental Standard Mode	86.50	2025-02-05	Unknown	Closed
29	DeepSeek-V3-0324 Standard Mode	86.50	2025-03-24	671B	Free Commercial
30	ERNIE-4.5-300B-A47B Standard Mode	86.50	2025-06-30	300B	Free Commercial

Scroll to load 36 more

Latest MMLU model rankings and full benchmark leaderboard

MMLU Rank