LLM Math Reasoning Benchmark Leaderboard

Name: LLM Math Reasoning Benchmark Leaderboard
Creator: DataLearner
License: https://creativecommons.org/licenses/by/4.0/

This page provides the most comprehensive LLM math reasoning benchmark leaderboard. We evaluate models including GPT, Claude, Qwen, and DeepSeek using authoritative math benchmarks such as AIME 2025, FrontierMath-Tier4, MATH-500, and GSM8K.

Updated on 2026-07-18 08:01:51

As of 2026-07, this page covers AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K and related benchmarks for LLM Math Reasoning Benchmark Leaderboard, making it straightforward to compare within the same task family.

Click any model name to check context length, licensing, and pricing on its detail page. See Data Methodology for scoring details.

Benchmark

AIME2025 FrontierMath - Tier 4 MATH-500 GSM8K

More Benchmarks

Model Size:All 3B and below 7B 13B 34B 65B 100B and above

Model Type:All Reasoning Models Foundation Models Instruction/Chat Models Coding Models

Source:All Open Source Closed Source

Origin:All China

Model release cutoff:

Top picks

Ranked by MATH-500

Current SOTA

Gemini-2.5-Pro-Preview-05-06

Google Deep Mind

98.80MATH-500

View model

Best Open-Source

GLM-4.5

智谱AI

98.20MATH-500−0.60

View model

Best China-Made

GLM-4.5

智谱AI

98.20MATH-500−0.60

View model

LLM Performance Results

Data source: DataLearnerAI

Click any row to open the model page. Tick the checkboxes to compare up to 4 models side by side.

Rank	Model					License
	Gemini-2.5-Pro-Preview-05-06 Google Deep Mind	83.00	2.10	98.80	—	Proprietary	Details
	Claude Opus 4 Anthropic	75.50	4.20	98.20	—	Proprietary	Details
	GLM-4.5 智谱AI	—	—	98.20	—	Free commercial	Details
4	GLM-4.5-Air 智谱AI	—	—	98.10	—	Free commercial	Details
5	DeepSeek-R1-0528 DeepSeek-AI	87.50	—	98.00	—	Free commercial	Details
6	Qwen3-235B-A22B 阿里巴巴	81.50	—	98.00	96.40	Free commercial	Details
7	OpenAI o3-mini (high) OpenAI	—	4.20	97.90	—	Proprietary	Details
8	Kimi K2 Moonshot AI	54.00	0.01	97.40	—	Free commercial	Details
9	DeepSeek-R1 DeepSeek-AI	70.00	—	97.30	—	Free commercial	Details
10	MiniMax-M1-80k MiniMaxAI	76.90	—	96.80	—	Free commercial	Details
11	ERNIE-4.5-300B-A47B 百度	35.10	—	96.40	96.60	Free commercial	Details
12	OpenAI o1 OpenAI	—	—	96.40	—	Proprietary	Details
13	Kimi k1.5 (Long-CoT) Moonshot AI	—	—	96.20	—	Proprietary	Details
14	Claude Sonnet 3.7-64K Extended Thinking Anthropic	—	—	96.20	—	Proprietary	Details
15	MiniMax-M1-40k MiniMaxAI	74.60	—	96.00	—	Free commercial	Details
16	Llama 4 Behemoth Instruct Facebook AI研究实验室	—	—	95.00	—	Free commercial	Details
17	Kimi k1.5 (Short-CoT) Moonshot AI	—	—	94.60	—	Proprietary	Details
18	DeepSeek-V3-0324 DeepSeek-AI	47.70	—	94.00	96.30	Free commercial	Details
19	GPT-4.1 OpenAI	36.70	—	92.80	95.90	Proprietary	Details
20	GPT-4.5 OpenAI	—	—	90.70	—	Proprietary	Details
21	OpenAI o1-mini OpenAI	—	—	90.00	—	Proprietary	Details
22	DeepSeek-V3 DeepSeek-AI	—	—	87.80	—	Free commercial	Details
23	Claude Sonnet 3.7 Anthropic	54.80	—	82.20	—	Proprietary	Details
24	Step 3.5 Flash StepFunAI	99.80	—	—	—	Free commercial	Details
25	OpenAI o4 - mini OpenAI	99.50	6.30	—	—	Proprietary	Details
26	GLM-4.6 智谱AI	98.60	2.10	—	—	Free commercial	Details
27	Kimi K2.5 Moonshot AI	96.10	4.20	—	—	Free commercial	Details
28	GLM-4.7 智谱AI	95.70	2.10	—	—	Free commercial	Details
29	DeepSeek V3.2 DeepSeek-AI	93.10	2.10	—	—	Free commercial	Details
30	Qwen3-235B-A22B-Thinking-2507 阿里巴巴	92.30	—	—	—	Free commercial	Details
31	DeepSeek-V3.1 Terminus DeepSeek-AI	90.00	—	—	—	Free commercial	Details
32	DeepSeek V3.2-Exp DeepSeek-AI	89.30	—	—	—	Free commercial	Details
33	ERNIE 5.0 百度	89.06	—	—	—	Proprietary	Details
34	DeepSeek-V3.1 DeepSeek-AI	88.40	—	—	—	Free commercial	Details
35	MiniMax M2.5 MiniMaxAI	86.30	—	—	—	Free commercial	Details
36	Intern-S1 上海人工智能实验室	86.00	—	—	—	Free commercial	Details
37	Step3 StepFunAI	82.90	—	—	—	Free commercial	Details
38	M2.1 MiniMaxAI	81.00	—	—	—	Free commercial	Details
39	MiniMax M2 MiniMaxAI	78.00	—	—	—	Free commercial	Details
40	Grok 3 xAI	77.10	—	—	—	Proprietary	Details
41	Kimi K2 0905 Moonshot AI	75.20	—	—	—	Free commercial	Details
42	Gemini 2.5 Flash Google Deep Mind	72.00	4.20	—	—	Proprietary	Details
43	Qwen3-235B-A22B-2507 阿里巴巴	70.30	—	—	—	Free commercial	Details
44	Magistral-Medium-2506 MistralAI	64.95	—	—	—	Proprietary	Details
45	Gemini 2.5 Flash-Lite Google Deep Mind	63.10	—	—	—	Proprietary	Details
46	ERNIE-4.5-VL-424B-A47B-Base 百度	35.10	—	—	—	Free commercial	Details
47	Gemini 2.0 Flash Experimental DeepMind	29.70	—	—	—	Proprietary	Details
48	Kimi K2 Thinking Moonshot AI	100.00	—	—	—	Free commercial	Details
49	Llama3.1-405B Instruct Facebook AI研究实验室	—	—	—	—	Free commercial	Details
50	Grok 3.5 xAI	—	—	—	—	Proprietary	Details

Gemini-2.5-Pro-Preview-05-06 Google Deep Mind

AIME202583.00

FrontierMath - Tier 42.10

MATH-50098.80

GSM8K—

Proprietary

Claude Opus 4 Anthropic

AIME202575.50

FrontierMath - Tier 44.20

MATH-50098.20

GSM8K—

Proprietary

GLM-4.5 智谱AI

AIME2025—

FrontierMath - Tier 4—

MATH-50098.20

GSM8K—

Free commercial

GLM-4.5-Air 智谱AI

AIME2025—

FrontierMath - Tier 4—

MATH-50098.10

GSM8K—

Free commercial

DeepSeek-R1-0528 DeepSeek-AI

AIME202587.50

FrontierMath - Tier 4—

MATH-50098.00

GSM8K—

Free commercial

Qwen3-235B-A22B 阿里巴巴

AIME202581.50

FrontierMath - Tier 4—

MATH-50098.00

GSM8K96.40

Free commercial

OpenAI o3-mini (high)OpenAI

AIME2025—

FrontierMath - Tier 44.20

MATH-50097.90

GSM8K—

Proprietary

Kimi K2 Moonshot AI

AIME202554.00

FrontierMath - Tier 40.01

MATH-50097.40

GSM8K—

Free commercial

DeepSeek-R1 DeepSeek-AI

AIME202570.00

FrontierMath - Tier 4—

MATH-50097.30

GSM8K—

Free commercial

MiniMax-M1-80k MiniMaxAI

AIME202576.90

FrontierMath - Tier 4—

MATH-50096.80

GSM8K—

Free commercial

ERNIE-4.5-300B-A47B 百度

AIME202535.10

FrontierMath - Tier 4—

MATH-50096.40

GSM8K96.60

Free commercial

OpenAI o1 OpenAI

AIME2025—

FrontierMath - Tier 4—

MATH-50096.40

GSM8K—

Proprietary

Kimi k1.5 (Long-CoT)Moonshot AI

AIME2025—

FrontierMath - Tier 4—

MATH-50096.20

GSM8K—

Proprietary

Claude Sonnet 3.7-64K Extended Thinking Anthropic

AIME2025—

FrontierMath - Tier 4—

MATH-50096.20

GSM8K—

Proprietary

MiniMax-M1-40k MiniMaxAI

AIME202574.60

FrontierMath - Tier 4—

MATH-50096.00

GSM8K—

Free commercial

Llama 4 Behemoth Instruct Facebook AI研究实验室

AIME2025—

FrontierMath - Tier 4—

MATH-50095.00

GSM8K—

Free commercial

Kimi k1.5 (Short-CoT)Moonshot AI

AIME2025—

FrontierMath - Tier 4—

MATH-50094.60

GSM8K—

Proprietary

DeepSeek-V3-0324 DeepSeek-AI

AIME202547.70

FrontierMath - Tier 4—

MATH-50094.00

GSM8K96.30

Free commercial

GPT-4.1 OpenAI

AIME202536.70

FrontierMath - Tier 4—

MATH-50092.80

GSM8K95.90

Proprietary

GPT-4.5 OpenAI

AIME2025—

FrontierMath - Tier 4—

MATH-50090.70

GSM8K—

Proprietary

OpenAI o1-mini OpenAI

AIME2025—

FrontierMath - Tier 4—

MATH-50090.00

GSM8K—

Proprietary

DeepSeek-V3 DeepSeek-AI

AIME2025—

FrontierMath - Tier 4—

MATH-50087.80

GSM8K—

Free commercial

Claude Sonnet 3.7 Anthropic

AIME202554.80

FrontierMath - Tier 4—

MATH-50082.20

GSM8K—

Proprietary

Step 3.5 Flash StepFunAI

AIME202599.80

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

OpenAI o4 - mini OpenAI

AIME202599.50

FrontierMath - Tier 46.30

MATH-500—

GSM8K—

Proprietary

GLM-4.6 智谱AI

AIME202598.60

FrontierMath - Tier 42.10

MATH-500—

GSM8K—

Free commercial

Kimi K2.5 Moonshot AI

AIME202596.10

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

Free commercial

GLM-4.7 智谱AI

AIME202595.70

FrontierMath - Tier 42.10

MATH-500—

GSM8K—

Free commercial

DeepSeek V3.2 DeepSeek-AI

AIME202593.10

FrontierMath - Tier 42.10

MATH-500—

GSM8K—

Free commercial

Qwen3-235B-A22B-Thinking-2507 阿里巴巴

AIME202592.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

DeepSeek-V3.1 Terminus DeepSeek-AI

AIME202590.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

DeepSeek V3.2-Exp DeepSeek-AI

AIME202589.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

ERNIE 5.0 百度

AIME202589.06

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

DeepSeek-V3.1 DeepSeek-AI

AIME202588.40

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

MiniMax M2.5 MiniMaxAI

AIME202586.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Intern-S1 上海人工智能实验室

AIME202586.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Step3 StepFunAI

AIME202582.90

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

M2.1 MiniMaxAI

AIME202581.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

MiniMax M2 MiniMaxAI

AIME202578.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Grok 3 xAI

AIME202577.10

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Kimi K2 0905 Moonshot AI

AIME202575.20

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Gemini 2.5 Flash Google Deep Mind

AIME202572.00

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

Proprietary

Qwen3-235B-A22B-2507 阿里巴巴

AIME202570.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Magistral-Medium-2506 MistralAI

AIME202564.95

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Gemini 2.5 Flash-Lite Google Deep Mind

AIME202563.10

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

ERNIE-4.5-VL-424B-A47B-Base 百度

AIME202535.10

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Gemini 2.0 Flash Experimental DeepMind

AIME202529.70

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Kimi K2 Thinking Moonshot AI

AIME2025100.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Llama3.1-405B Instruct Facebook AI研究实验室

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Grok 3.5 xAI

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Sort by:

Showing 50 of 55 modelsView MATH-500 benchmark page