IMO-ProofBench

Updated Feb 20, 2026·1,291 views

Problem Count: 60
Institution: Google Deep Mind
Category: Math and Reasoning
Metrics: Accuracy
Language: English
Difficulty: Mixed

Overview

A benchmark for evaluating whether large language models can generate complete, logically rigorous proofs for Olympiad-level mathematics problems.

Related resources

Latest IMO-ProofBench model rankings and full benchmark leaderboard

Browse the latest scores, model modes, release dates, and parameter sizes for IMO-ProofBench.

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Model Mode Legend

License:

Origin:

Model release cutoff:

Rank	Model				License
	DeepSeekMath-V2 Thinking Level · High	99.00	2025-11-27	685B	Free Commercial
	GPT-5 Thinking Enabled	59.00	2025-08-07	Unknown	Closed
	Gemini 2.5-Pro Thinking Enabled	55.20	2025-06-05	Unknown	Closed
4	Grok 4 Thinking Enabled	46.70	2025-07-10	Unknown	Closed
5	Gemini 2.5 Deep Think Thinking Enabled	37.60	2025-08-01	Unknown	Closed
6	Qwen3-235B-A22B-Thinking Thinking Enabled	33.30	2025-07-30	30.5B	Free Commercial
7	DeepSeek-R1-0528 Thinking Enabled	29.00	2025-05-28	671B	Free Commercial
8	Claude Sonnet 4 Thinking Enabled	27.10	2025-05-23	Unknown	Closed
9	Claude Sonnet 4.5 Thinking Enabled	27.10	2025-09-30	Unknown	Closed
10	Grok 4 Deep Thinking Mode	23.30	2025-07-10	Unknown	Closed
11	OpenAI o3 Thinking Enabled	20.50	2025-04-16	Unknown	Closed
12	OpenAI o4 - mini Thinking Level · High	11.40	2025-04-16	Unknown	Closed
13	Kimi K2 0905 Standard Mode	7.10	2025-09-05	1000B	Free Commercial
14	Qwen3-VL-235B-A22B-Instruct Standard Mode	5.20	2025-09-23	235B	Free Commercial
15	DeepSeek-V3-0324 Standard Mode	4.30	2025-03-24	671B	Free Commercial
16	Claude Opus 4 Thinking Enabled	2.90	2025-05-23	Unknown	Closed

Latest IMO-ProofBench model rankings and full benchmark leaderboard

IMO-ProofBench Rank