LLM Math Reasoning Benchmark Leaderboard

Name: LLM Math Reasoning Benchmark Leaderboard
Creator: DataLearner
License: https://creativecommons.org/licenses/by/4.0/

This page provides the most comprehensive LLM math reasoning benchmark leaderboard. We evaluate models including GPT, Claude, Qwen, and DeepSeek using authoritative math benchmarks such as AIME 2025, FrontierMath-Tier4, MATH-500, and GSM8K.

Updated on 2026-07-18 08:01:51

As of 2026-07, this page covers AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K and related benchmarks for LLM Math Reasoning Benchmark Leaderboard, making it straightforward to compare within the same task family.

Click any model name to check context length, licensing, and pricing on its detail page. See Data Methodology for scoring details.

Benchmark

AIME2025 FrontierMath - Tier 4 MATH-500 GSM8K

More Benchmarks

Model Size:All 3B and below 7B 13B 34B 65B 100B and above

Model Type:All Reasoning Models Foundation Models Instruction/Chat Models Coding Models

Source:All Open Source Closed Source

Origin:All China

Model release cutoff:

Top picks

Ranked by FrontierMath - Tier 4

Current SOTA

GPT-5.5 Pro

OpenAI

39.60FrontierMath - Tier 4

View model

Best Open-Source

Kimi K2.5

Moonshot AI

4.20FrontierMath - Tier 4−35.40

View model

Best China-Made

Kimi K2.5

Moonshot AI

4.20FrontierMath - Tier 4−35.40

View model

LLM Performance Results

Data source: DataLearnerAI

Click any row to open the model page. Tick the checkboxes to compare up to 4 models side by side.

Rank	Model					License
	GPT-5.5 Pro Thinking Level · Extra HighTools OpenAI	—	39.60	—	—	Proprietary	Details
	GPT-5.5 Pro Thinking Enabled OpenAI	—	39.60	—	—	Proprietary	Details
	GPT-5.5 Pro Thinking Level · Extra High OpenAI	—	39.60	—	—	Proprietary	Details
4	GPT-5.4 Pro Thinking Enabled OpenAI	—	38.00	—	—	Proprietary	Details
5	GPT-5.4 Pro Standard ModeToolsInternet OpenAI	—	37.50	—	—	Proprietary	Details
6	GPT-5.4 Pro Thinking Level · Extra High OpenAI	—	37.50	—	—	Proprietary	Details
7	GPT-5.5 Thinking Level · Extra High OpenAI	—	35.40	—	—	Proprietary	Details
8	GPT-5.5 Thinking EnabledTools OpenAI	—	35.40	—	—	Proprietary	Details
9	GPT-5.2 Pro Standard ModeToolsInternet OpenAI	—	31.30	—	—	Proprietary	Details
10	GPT-5.2 Pro Thinking Enabled OpenAI	—	31.30	—	—	Proprietary	Details
11	GPT-5.4 Thinking Level · Extra High OpenAI	—	27.10	—	—	Proprietary	Details
12	Opus 4.7 Thinking Level · Extra High Anthropic	—	22.90	—	—	Proprietary	Details
13	Claude Opus 4.6 Thinking Level · High Anthropic	—	22.90	—	—	Proprietary	Details
14	Claude Opus 4.6 Thinking Enabled Anthropic	—	20.80	—	—	Proprietary	Details
15	Claude Opus 4.6 Thinking Enabled Anthropic	—	20.80	—	—	Proprietary	Details
16	Gemini 3.0 Pro (Preview 11-2025) Thinking Enabled Google Deep Mind	95.00	18.80	—	—	Proprietary	Details
17	GPT-5.2 Thinking Level · Extra High OpenAI	—	18.80	—	—	Proprietary	Details
18	GPT-5.2 Thinking Enabled OpenAI	—	18.80	—	—	Proprietary	Details
19	Gemini 3.0 Pro (Preview 11-2025) Google Deep Mind	—	18.80	—	—	Proprietary	Details
20	Gemini 3.1 Pro Preview Thinking Enabled Google Deep Mind	—	16.70	—	—	Proprietary	Details
21	Gemini 3.1 Pro Preview Google Deep Mind	—	16.70	—	—	Proprietary	Details
22	GPT-5.2 Thinking Enabled OpenAI	—	16.70	—	—	Proprietary	Details
23	GPT-5-Pro Thinking Enabled OpenAI	96.70	14.60	—	—	Proprietary	Details
24	Muse Spark Facebook AI研究实验室	—	14.60	—	—	Proprietary	Details
25	Muse Spark Thinking Enabled Facebook AI研究实验室	—	14.60	—	—	Proprietary	Details
26	Claude Opus 4.6 Thinking Enabled Anthropic	—	14.60	—	—	Proprietary	Details
27	GPT-5.2 Thinking Level · Extra HighTools OpenAI	—	14.60	—	—	Proprietary	Details
28	GPT-5-Pro OpenAI	—	14.60	—	—	Proprietary	Details
29	GPT-5.1 Thinking Enabled OpenAI	—	12.50	—	—	Proprietary	Details
30	GPT-5.1 Thinking EnabledTools OpenAI	—	12.50	—	—	Proprietary	Details
31	GPT-5 Thinking Enabled OpenAI	—	12.50	—	—	Proprietary	Details
32	Gemini 2.5 Deep Think Google Deep Mind	—	10.40	—	—	Proprietary	Details
33	Gemini 2.5 Pro Deep Think Deep Thinking Mode Google Deep Mind	—	10.40	—	—	Proprietary	Details
34	Claude Sonnet 4.6 Thinking Enabled Anthropic	—	8.30	—	—	Proprietary	Details
35	OpenAI o4 - mini Thinking Enabled OpenAI	—	6.30	—	—	Proprietary	Details
36	GPT-5 Thinking Enabled OpenAI	—	6.30	—	—	Proprietary	Details
37	GPT-5-mini Thinking Enabled OpenAI	—	6.30	—	—	Proprietary	Details
38	GPT-5.2 Thinking Enabled OpenAI	—	6.30	—	—	Proprietary	Details
39	GPT-5.4 nano Thinking Enabled OpenAI	—	6.30	—	—	Proprietary	Details
40	Opus 4.1 Extended Thinking Anthropic	78.00	4.20	—	—	Proprietary	Details
41	OpenAI o3-mini Thinking Enabled OpenAI	—	4.20	—	—	Proprietary	Details
42	OpenAI o3-mini (high) Thinking Level · High OpenAI	—	4.20	—	—	Proprietary	Details
43	Gemini 2.5 Pro Experimental 03-25 Google Deep Mind	—	4.20	—	—	Proprietary	Details
44	Gemini 2.5 Flash Google Deep Mind	—	4.20	—	—	Proprietary	Details
45	Claude Opus 4 Thinking Enabled Anthropic	—	4.20	—	—	Proprietary	Details
46	Claude Opus 4 Thinking Enabled Anthropic	—	4.20	—	—	Proprietary	Details
47	GPT-5-mini Thinking Enabled OpenAI	—	4.20	—	—	Proprietary	Details
48	Opus 4.1 Thinking Enabled Anthropic	—	4.20	—	—	Proprietary	Details
49	Kimi K2.5 Moonshot AI	—	4.20	—	—	Free commercial	Details
50	Opus 4.5 Thinking Enabled Anthropic	—	4.20	—	—	Proprietary	Details

GPT-5.5 Pro OpenAI

Thinking Level · Extra HighTools

AIME2025—

FrontierMath - Tier 439.60

MATH-500—

GSM8K—

Proprietary

GPT-5.5 Pro OpenAI

Thinking Enabled

AIME2025—

FrontierMath - Tier 439.60

MATH-500—

GSM8K—

Proprietary

GPT-5.5 Pro OpenAI

Thinking Level · Extra High

AIME2025—

FrontierMath - Tier 439.60

MATH-500—

GSM8K—

Proprietary

GPT-5.4 Pro OpenAI

Thinking Enabled

AIME2025—

FrontierMath - Tier 438.00

MATH-500—

GSM8K—

Proprietary

GPT-5.4 Pro OpenAI

Standard ModeToolsInternet

AIME2025—

FrontierMath - Tier 437.50

MATH-500—

GSM8K—

Proprietary

GPT-5.4 Pro OpenAI

Thinking Level · Extra High

AIME2025—

FrontierMath - Tier 437.50

MATH-500—

GSM8K—

Proprietary

GPT-5.5 OpenAI

Thinking Level · Extra High

AIME2025—

FrontierMath - Tier 435.40

MATH-500—

GSM8K—

Proprietary

GPT-5.5 OpenAI

Thinking EnabledTools

AIME2025—

FrontierMath - Tier 435.40

MATH-500—

GSM8K—

Proprietary

GPT-5.2 Pro OpenAI

Standard ModeToolsInternet

AIME2025—

FrontierMath - Tier 431.30

MATH-500—

GSM8K—

Proprietary

GPT-5.2 Pro OpenAI

Thinking Enabled

AIME2025—

FrontierMath - Tier 431.30

MATH-500—

GSM8K—

Proprietary

GPT-5.4 OpenAI

Thinking Level · Extra High

AIME2025—

FrontierMath - Tier 427.10

MATH-500—

GSM8K—

Proprietary

Opus 4.7 Anthropic

Thinking Level · Extra High

AIME2025—

FrontierMath - Tier 422.90

MATH-500—

GSM8K—

Proprietary

Claude Opus 4.6 Anthropic

Thinking Level · High

AIME2025—

FrontierMath - Tier 422.90

MATH-500—

GSM8K—

Proprietary

Claude Opus 4.6 Anthropic

Thinking Enabled

AIME2025—

FrontierMath - Tier 420.80

MATH-500—

GSM8K—

Proprietary

Claude Opus 4.6 Anthropic

Thinking Enabled

AIME2025—

FrontierMath - Tier 420.80

MATH-500—

GSM8K—

Proprietary

Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind

Thinking Enabled

AIME202595.00

FrontierMath - Tier 418.80

MATH-500—

GSM8K—

Proprietary

GPT-5.2 OpenAI

Thinking Level · Extra High

AIME2025—

FrontierMath - Tier 418.80

MATH-500—

GSM8K—

Proprietary

GPT-5.2 OpenAI

Thinking Enabled

AIME2025—

FrontierMath - Tier 418.80

MATH-500—

GSM8K—

Proprietary

Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind

AIME2025—

FrontierMath - Tier 418.80

MATH-500—

GSM8K—

Proprietary

Gemini 3.1 Pro Preview Google Deep Mind

Thinking Enabled

AIME2025—

FrontierMath - Tier 416.70

MATH-500—

GSM8K—

Proprietary

Gemini 3.1 Pro Preview Google Deep Mind

AIME2025—

FrontierMath - Tier 416.70

MATH-500—

GSM8K—

Proprietary

GPT-5.2 OpenAI

Thinking Enabled

AIME2025—

FrontierMath - Tier 416.70

MATH-500—

GSM8K—

Proprietary

GPT-5-Pro OpenAI

Thinking Enabled

AIME202596.70

FrontierMath - Tier 414.60

MATH-500—

GSM8K—

Proprietary

Muse Spark Facebook AI研究实验室

AIME2025—

FrontierMath - Tier 414.60

MATH-500—

GSM8K—

Proprietary

Muse Spark Facebook AI研究实验室

Thinking Enabled

AIME2025—

FrontierMath - Tier 414.60

MATH-500—

GSM8K—

Proprietary

Claude Opus 4.6 Anthropic

Thinking Enabled

AIME2025—

FrontierMath - Tier 414.60

MATH-500—

GSM8K—

Proprietary

GPT-5.2 OpenAI

Thinking Level · Extra HighTools

AIME2025—

FrontierMath - Tier 414.60

MATH-500—

GSM8K—

Proprietary

GPT-5-Pro OpenAI

AIME2025—

FrontierMath - Tier 414.60

MATH-500—

GSM8K—

Proprietary

GPT-5.1 OpenAI

Thinking Enabled

AIME2025—

FrontierMath - Tier 412.50

MATH-500—

GSM8K—

Proprietary

GPT-5.1 OpenAI

Thinking EnabledTools

AIME2025—

FrontierMath - Tier 412.50

MATH-500—

GSM8K—

Proprietary

GPT-5 OpenAI

Thinking Enabled

AIME2025—

FrontierMath - Tier 412.50

MATH-500—

GSM8K—

Proprietary

Gemini 2.5 Deep Think Google Deep Mind

AIME2025—

FrontierMath - Tier 410.40

MATH-500—

GSM8K—

Proprietary

Gemini 2.5 Pro Deep Think Google Deep Mind

Deep Thinking Mode

AIME2025—

FrontierMath - Tier 410.40

MATH-500—

GSM8K—

Proprietary

Claude Sonnet 4.6 Anthropic

Thinking Enabled

AIME2025—

FrontierMath - Tier 48.30

MATH-500—

GSM8K—

Proprietary

OpenAI o4 - mini OpenAI

Thinking Enabled

AIME2025—

FrontierMath - Tier 46.30

MATH-500—

GSM8K—

Proprietary

GPT-5 OpenAI

Thinking Enabled

AIME2025—

FrontierMath - Tier 46.30

MATH-500—

GSM8K—

Proprietary

GPT-5-mini OpenAI

Thinking Enabled

AIME2025—

FrontierMath - Tier 46.30

MATH-500—

GSM8K—

Proprietary

GPT-5.2 OpenAI

Thinking Enabled

AIME2025—

FrontierMath - Tier 46.30

MATH-500—

GSM8K—

Proprietary

GPT-5.4 nano OpenAI

Thinking Enabled

AIME2025—

FrontierMath - Tier 46.30

MATH-500—

GSM8K—

Proprietary

Opus 4.1 Anthropic

Extended Thinking

AIME202578.00

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

Proprietary

OpenAI o3-mini OpenAI

Thinking Enabled

AIME2025—

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

Proprietary

OpenAI o3-mini (high)OpenAI

Thinking Level · High

AIME2025—

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

Proprietary

Gemini 2.5 Pro Experimental 03-25 Google Deep Mind

AIME2025—

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

Proprietary

Gemini 2.5 Flash Google Deep Mind

AIME2025—

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

Proprietary

Claude Opus 4 Anthropic

Thinking Enabled

AIME2025—

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

Proprietary

Claude Opus 4 Anthropic

Thinking Enabled

AIME2025—

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

Proprietary

GPT-5-mini OpenAI

Thinking Enabled

AIME2025—

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

Proprietary

Opus 4.1 Anthropic

Thinking Enabled

AIME2025—

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

Proprietary

Kimi K2.5 Moonshot AI

AIME2025—

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

Free commercial

Opus 4.5 Anthropic

Thinking Enabled

AIME2025—

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

Proprietary

Sort by:

Showing 50 of 222 modelsView FrontierMath - Tier 4 benchmark page