LiveBench

Updated Jun 23, 2026·2,573 views

Problem Count: 1000
Institution: Independent
Category: General Evaluation
Metrics: Accuracy
Language: English
Difficulty: Medium

Overview

A contamination-resistant benchmark designed to provide frequently updated and objective evaluation of large language models.

Related resources

Latest LiveBench model rankings and full benchmark leaderboard

Browse the latest scores, model modes, release dates, and parameter sizes for LiveBench.

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Model Mode Legend

License:

Origin:

Model release cutoff:

Rank	Model				License
	GPT-5.5 Deep Thinking Mode	80.71	2026-04-23	Unknown	Closed
	GPT-5.4 Deep Thinking Mode	80.28	2026-03-05	Unknown	Closed
	Gemini 3.1 Pro Preview Thinking Level · High	79.93	2026-02-20	Unknown	Closed
4	Claude Opus 4.8 Deep Thinking Mode	78.79	2026-05-28	Unknown	Closed
5	Claude Fable 5 Deep Thinking Mode	78.31	2026-06-09	Unknown	Closed
6	Claude Opus 4.8 Thinking Level · High	77.16	2026-05-28	Unknown	Closed
7	Opus 4.7 Deep Thinking Mode	76.91	2026-04-16	Unknown	Closed
8	Claude Opus 4.6 Thinking Level · High	76.33	2026-02-05	Unknown	Closed
9	GPT-5.5 Thinking Level · High	76.24	2026-04-23	Unknown	Closed
10	GLM-5.2 Standard Mode	76.24	2026-06-13	753.3B	Free Commercial
11	Opus 4.5 64K	75.96	2025-11-25	Unknown	Closed
12	Claude Sonnet 4.6 Thinking Level · Medium	75.47	2026-02-17	Unknown	Closed
13	Claude Opus 4.8 Thinking Level · Medium	75.47	2026-05-28	Unknown	Closed
14	Claude Fable 5 Thinking Level · High	75.47	2026-06-09	Unknown	Closed
15	Claude Sonnet 4.6 Thinking Level · High	75.32	2026-02-17	Unknown	Closed
16	GPT-5.4 Thinking Level · High	75.07	2026-03-05	Unknown	Closed
17	Gemini 3.5 Flash Thinking Level · High	75.02	2026-06-20	Unknown	Closed
18	Opus 4.7 Thinking Level · High	74.89	2026-04-16	Unknown	Closed
19	GPT-5.2 Thinking Level · High	74.84	2025-12-11	Unknown	Closed
20	GPT-5.2-Codex Standard Mode	74.30	2025-12-18	Unknown	Closed
21	Qwen3.7 Max Deep Thinking Mode	74.29	2026-05-20	Unknown	Closed
22	GPT-5.1-Codex-Max Deep Thinking Mode	73.98	2025-11-19	Unknown	Closed
23	DeepSeek-V4-Pro Standard Mode	73.58	2026-04-24	1600B	Free Commercial
24	Gemini 3.0 Pro (Preview 11-2025) Thinking Level · High	73.39	2025-11-18	Unknown	Closed
25	GPT-5.3 Codex Thinking Level · High	72.76	2026-02-05	Unknown	Closed
26	Gemini 3.0 Flash Thinking Level · High	72.40	2025-12-17	Unknown	Closed
27	Opus 4.7 Thinking Level · Medium	72.31	2026-04-16	Unknown	Closed
28	Kimi K2.6 Thinking Enabled	72.17	2026-04-20	1000B	Free Commercial
29	GPT-5.1 Thinking Level · High	72.04	2025-11-12	Unknown	Closed
30	Kimi K2.7 Code Standard Mode	71.89	2026-06-12	1000B	Free Commercial

Scroll to load 85 more

Latest LiveBench model rankings and full benchmark leaderboard

LiveBench Rank