LLM Math Reasoning Benchmark Leaderboard

Name: LLM Math Reasoning Benchmark Leaderboard
Creator: DataLearner
License: https://creativecommons.org/licenses/by/4.0/

This page provides the most comprehensive LLM math reasoning benchmark leaderboard. We evaluate models including GPT, Claude, Qwen, and DeepSeek using authoritative math benchmarks such as AIME 2025, FrontierMath-Tier4, MATH-500, and GSM8K.

Updated on 2026-07-18 08:01:51

As of 2026-07, this page covers AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K and related benchmarks for LLM Math Reasoning Benchmark Leaderboard, making it straightforward to compare within the same task family.

Click any model name to check context length, licensing, and pricing on its detail page. See Data Methodology for scoring details.

Benchmark

AIME2025 FrontierMath - Tier 4 MATH-500 GSM8K

More Benchmarks

Model Size:All 3B and below 7B 13B 34B 65B 100B and above

Model Type:All Reasoning Models Foundation Models Instruction/Chat Models Coding Models

Source:All Open Source Closed Source

Origin:All China

Model release cutoff:

Top picks

Ranked by AIME2025

Current SOTA

Kimi K2 Thinking

Moonshot AI

100.00AIME2025

View model

Best Open-Source

Kimi K2 Thinking

Moonshot AI

100.00AIME2025

View model

Best China-Made

Kimi K2 Thinking

Moonshot AI

100.00AIME2025

View model

LLM Performance Results

Data source: DataLearnerAI

Click any row to open the model page. Tick the checkboxes to compare up to 4 models side by side.

Rank	Model					License
	Kimi K2 Thinking Parallel · Thinking EnabledTools Moonshot AI	100.00	—	—	—	Free commercial	Details
	Claude Sonnet 4.5 Thinking EnabledTools Anthropic	100.00	—	—	—	Proprietary	Details
	GPT-5-Pro Thinking EnabledTools OpenAI	100.00	—	—	—	Proprietary	Details
4	Grok 4 Heavy Parallel · Thinking Enabled xAI	100.00	—	—	—	Proprietary	Details
5	GPT-5.2 Thinking Level · Extra High OpenAI	100.00	—	—	—	Proprietary	Details
6	Step 3.5 Flash Thinking EnabledTools StepFunAI	99.80	—	—	—	Free commercial	Details
7	Claude Opus 4.6 Extended Thinking Anthropic	99.79	—	97.60	—	Proprietary	Details
8	Gemini 3.0 Flash Thinking EnabledTools Google Deep Mind	99.70	—	—	—	Proprietary	Details
9	GPT-5 Thinking EnabledTools OpenAI	99.60	—	—	—	Proprietary	Details
10	OpenAI o4 - mini Thinking EnabledTools OpenAI	99.50	—	—	—	Proprietary	Details
11	Gemini 2.5 Deep Think Deep Thinking Mode Google Deep Mind	99.20	—	—	—	Proprietary	Details
12	Kimi K2 Thinking Thinking EnabledTools Moonshot AI	99.10	—	—	—	Free commercial	Details
13	Grok 4 Thinking EnabledTools xAI	98.80	—	—	—	Proprietary	Details
14	GPT OSS 20B Thinking EnabledTools OpenAI	98.70	—	—	—	Free commercial	Details
15	GLM-4.6 Thinking Enabled 智谱AI	98.60	—	—	—	Free commercial	Details
16	GLM-4.6 Thinking EnabledTools 智谱AI	98.60	—	—	—	Free commercial	Details
17	GPT OSS 120B Thinking EnabledTools OpenAI	97.90	—	—	—	Free commercial	Details
18	Step 3.5 Flash Thinking Enabled StepFunAI	97.30	—	—	—	Free commercial	Details
19	GPT-5-Pro Thinking Enabled OpenAI	96.70	14.60	—	—	Proprietary	Details
20	Haiku 4.5 Thinking EnabledTools Anthropic	96.30	—	—	—	Proprietary	Details
21	Kimi K2.5 Thinking Enabled Moonshot AI	96.10	—	—	—	Free commercial	Details
22	DeepSeek V3.2 Speciale Thinking Enabled DeepSeek-AI	96.00	—	—	—	Free commercial	Details
23	GLM-4.7 Thinking Enabled 智谱AI	95.70	—	—	—	Free commercial	Details
24	Gemini 3.0 Flash Thinking Enabled Google Deep Mind	95.20	—	—	—	Proprietary	Details
25	Gemini 3.0 Pro (Preview 11-2025) Thinking Enabled Google Deep Mind	95.00	18.80	—	—	Proprietary	Details
26	GPT-5 Thinking Enabled OpenAI	94.60	—	—	—	Proprietary	Details
27	Kimi K2 Thinking Thinking Enabled Moonshot AI	94.50	—	—	—	Free commercial	Details
28	GPT-5.1 Thinking Level · High OpenAI	94.00	—	—	—	Proprietary	Details
29	GPT-5.1 Thinking Enabled OpenAI	94.00	—	—	—	Proprietary	Details
30	DeepSeek V3.2 Thinking Enabled DeepSeek-AI	93.10	2.10	—	—	Free commercial	Details
31	o3-pro OpenAI	93.00	—	—	—	Proprietary	Details
32	OpenAI o4 - mini Thinking Enabled OpenAI	92.70	—	—	—	Proprietary	Details
33	Qwen3-235B-A22B-Thinking Thinking Enabled 阿里巴巴	92.30	—	—	—	Free commercial	Details
34	Qwen3-235B-A22B-Thinking-2507 Thinking Enabled 阿里巴巴	92.30	—	—	—	Free commercial	Details
35	Grok 4 Fast Thinking Enabled xAI	92.00	—	—	—	Proprietary	Details
36	Grok 4 Thinking Enabled xAI	91.70	—	—	—	Proprietary	Details
37	GLM-4.7-Flash Thinking Enabled 智谱AI	91.60	—	—	—	Free commercial	Details
38	DeepSeek-V3.1 Terminus Thinking Enabled DeepSeek-AI	90.00	—	—	—	Free commercial	Details
39	DeepSeek V3.2-Exp Thinking Enabled DeepSeek-AI	89.30	—	—	—	Free commercial	Details
40	ERNIE 5.0 Thinking Enabled 百度	89.06	—	—	—	Proprietary	Details
41	Grok 4.1 Fast Thinking Enabled xAI	89.00	—	—	—	Proprietary	Details
42	OpenAI o3 Thinking Enabled OpenAI	88.90	—	—	—	Proprietary	Details
43	DeepSeek-V3.1 Thinking Enabled DeepSeek-AI	88.40	—	—	—	Free commercial	Details
44	Gemini 2.5-Pro Thinking Enabled Google Deep Mind	88.00	—	—	—	Proprietary	Details
45	DeepSeek-R1-0528 Thinking Enabled DeepSeek-AI	87.50	—	98.00	—	Free commercial	Details
46	Claude Sonnet 4.5 Thinking Enabled Anthropic	87.00	—	—	—	Proprietary	Details
47	Gemini 2.5 Pro Experimental 03-25 Google Deep Mind	86.90	—	—	—	Proprietary	Details
48	OpenAI o3-mini Thinking Enabled OpenAI	86.50	—	95.80	—	Proprietary	Details
49	MiniMax M2.5 Thinking Enabled MiniMaxAI	86.30	—	—	—	Free commercial	Details
50	Intern-S1 上海人工智能实验室	86.00	—	—	—	Free commercial	Details

Kimi K2 Thinking Moonshot AI

Parallel · Thinking EnabledTools

AIME2025100.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Claude Sonnet 4.5 Anthropic

Thinking EnabledTools

AIME2025100.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

GPT-5-Pro OpenAI

Thinking EnabledTools

AIME2025100.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Grok 4 Heavy xAI

Parallel · Thinking Enabled

AIME2025100.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

GPT-5.2 OpenAI

Thinking Level · Extra High

AIME2025100.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Step 3.5 Flash StepFunAI

Thinking EnabledTools

AIME202599.80

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Claude Opus 4.6 Anthropic

Extended Thinking

AIME202599.79

FrontierMath - Tier 4—

MATH-50097.60

GSM8K—

Proprietary

Gemini 3.0 Flash Google Deep Mind

Thinking EnabledTools

AIME202599.70

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

GPT-5 OpenAI

Thinking EnabledTools

AIME202599.60

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

OpenAI o4 - mini OpenAI

Thinking EnabledTools

AIME202599.50

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Gemini 2.5 Deep Think Google Deep Mind

Deep Thinking Mode

AIME202599.20

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Kimi K2 Thinking Moonshot AI

Thinking EnabledTools

AIME202599.10

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Grok 4 xAI

Thinking EnabledTools

AIME202598.80

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

GPT OSS 20B OpenAI

Thinking EnabledTools

AIME202598.70

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

GLM-4.6 智谱AI

Thinking Enabled

AIME202598.60

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

GLM-4.6 智谱AI

Thinking EnabledTools

AIME202598.60

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

GPT OSS 120B OpenAI

Thinking EnabledTools

AIME202597.90

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Step 3.5 Flash StepFunAI

Thinking Enabled

AIME202597.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

GPT-5-Pro OpenAI

Thinking Enabled

AIME202596.70

FrontierMath - Tier 414.60

MATH-500—

GSM8K—

Proprietary

Haiku 4.5 Anthropic

Thinking EnabledTools

AIME202596.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Kimi K2.5 Moonshot AI

Thinking Enabled

AIME202596.10

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

DeepSeek V3.2 Speciale DeepSeek-AI

Thinking Enabled

AIME202596.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

GLM-4.7 智谱AI

Thinking Enabled

AIME202595.70

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Gemini 3.0 Flash Google Deep Mind

Thinking Enabled

AIME202595.20

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind

Thinking Enabled

AIME202595.00

FrontierMath - Tier 418.80

MATH-500—

GSM8K—

Proprietary

GPT-5 OpenAI

Thinking Enabled

AIME202594.60

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Kimi K2 Thinking Moonshot AI

Thinking Enabled

AIME202594.50

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

GPT-5.1 OpenAI

Thinking Level · High

AIME202594.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

GPT-5.1 OpenAI

Thinking Enabled

AIME202594.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

DeepSeek V3.2 DeepSeek-AI

Thinking Enabled

AIME202593.10

FrontierMath - Tier 42.10

MATH-500—

GSM8K—

Free commercial

o3-pro OpenAI

AIME202593.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

OpenAI o4 - mini OpenAI

Thinking Enabled

AIME202592.70

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Qwen3-235B-A22B-Thinking 阿里巴巴

Thinking Enabled

AIME202592.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Qwen3-235B-A22B-Thinking-2507 阿里巴巴

Thinking Enabled

AIME202592.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Grok 4 Fast xAI

Thinking Enabled

AIME202592.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Grok 4 xAI

Thinking Enabled

AIME202591.70

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

GLM-4.7-Flash 智谱AI

Thinking Enabled

AIME202591.60

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

DeepSeek-V3.1 Terminus DeepSeek-AI

Thinking Enabled

AIME202590.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

DeepSeek V3.2-Exp DeepSeek-AI

Thinking Enabled

AIME202589.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

ERNIE 5.0 百度

Thinking Enabled

AIME202589.06

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Grok 4.1 Fast xAI

Thinking Enabled

AIME202589.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

OpenAI o3 OpenAI

Thinking Enabled

AIME202588.90

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

DeepSeek-V3.1 DeepSeek-AI

Thinking Enabled

AIME202588.40

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Gemini 2.5-Pro Google Deep Mind

Thinking Enabled

AIME202588.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

DeepSeek-R1-0528 DeepSeek-AI

Thinking Enabled

AIME202587.50

FrontierMath - Tier 4—

MATH-50098.00

GSM8K—

Free commercial

Claude Sonnet 4.5 Anthropic

Thinking Enabled

AIME202587.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Gemini 2.5 Pro Experimental 03-25 Google Deep Mind

AIME202586.90

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

OpenAI o3-mini OpenAI

Thinking Enabled

AIME202586.50

FrontierMath - Tier 4—

MATH-50095.80

GSM8K—

Proprietary

MiniMax M2.5 MiniMaxAI

Thinking Enabled

AIME202586.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Intern-S1 上海人工智能实验室

AIME202586.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Sort by:

Showing 50 of 222 modelsView AIME2025 benchmark page