LLM Math Reasoning Benchmark Leaderboard

Name: LLM Math Reasoning Benchmark Leaderboard
Creator: DataLearner
License: https://creativecommons.org/licenses/by/4.0/

This page provides the most comprehensive LLM math reasoning benchmark leaderboard. We evaluate models including GPT, Claude, Qwen, and DeepSeek using authoritative math benchmarks such as AIME 2025, FrontierMath-Tier4, MATH-500, and GSM8K.

Updated on 2026-07-18 08:01:51

As of 2026-07, this page covers AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K and related benchmarks for LLM Math Reasoning Benchmark Leaderboard, making it straightforward to compare within the same task family.

Click any model name to check context length, licensing, and pricing on its detail page. See Data Methodology for scoring details.

Benchmark

AIME2025 FrontierMath - Tier 4 MATH-500 GSM8K

More Benchmarks

Model Size:All 3B and below 7B 13B 34B 65B 100B and above

Model Type:All Reasoning Models Foundation Models Instruction/Chat Models Coding Models

Source:All Open Source Closed Source

Origin:All China

Model release cutoff:

Top picks

Ranked by GSM8K

Current SOTA

ERNIE-4.5-300B-A47B

百度

96.60GSM8K

View model

Best Open-Source

ERNIE-4.5-300B-A47B

百度

96.60GSM8K

View model

Best China-Made

ERNIE-4.5-300B-A47B

百度

96.60GSM8K

View model

LLM Performance Results

Data source: DataLearnerAI

Click any row to open the model page. Tick the checkboxes to compare up to 4 models side by side.

Rank	Model					License
	ERNIE-4.5-300B-A47B 百度	35.10	—	96.40	96.60	Free commercial	Details
	Qwen3-235B-A22B 阿里巴巴	81.50	—	98.00	96.40	Free commercial	Details
	DeepSeek-V3-0324 DeepSeek-AI	47.70	—	94.00	96.30	Free commercial	Details
4	GPT-4.1 OpenAI	36.70	—	92.80	95.90	Proprietary	Details
5	Qwen2.5-Max 阿里巴巴	—	—	—	94.50	Proprietary	Details
6	Step 3.5 Flash StepFunAI	99.80	—	—	—	Free commercial	Details
7	OpenAI o4 - mini OpenAI	99.50	6.30	—	—	Proprietary	Details
8	GLM-4.6 智谱AI	98.60	2.10	—	—	Free commercial	Details
9	Kimi K2.5 Moonshot AI	96.10	4.20	—	—	Free commercial	Details
10	GLM-4.7 智谱AI	95.70	2.10	—	—	Free commercial	Details
11	DeepSeek V3.2 DeepSeek-AI	93.10	2.10	—	—	Free commercial	Details
12	Qwen3-235B-A22B-Thinking-2507 阿里巴巴	92.30	—	—	—	Free commercial	Details
13	DeepSeek-V3.1 Terminus DeepSeek-AI	90.00	—	—	—	Free commercial	Details
14	DeepSeek V3.2-Exp DeepSeek-AI	89.30	—	—	—	Free commercial	Details
15	ERNIE 5.0 百度	89.06	—	—	—	Proprietary	Details
16	DeepSeek-V3.1 DeepSeek-AI	88.40	—	—	—	Free commercial	Details
17	DeepSeek-R1-0528 DeepSeek-AI	87.50	—	98.00	—	Free commercial	Details
18	MiniMax M2.5 MiniMaxAI	86.30	—	—	—	Free commercial	Details
19	Intern-S1 上海人工智能实验室	86.00	—	—	—	Free commercial	Details
20	Gemini-2.5-Pro-Preview-05-06 Google Deep Mind	83.00	2.10	98.80	—	Proprietary	Details
21	Step3 StepFunAI	82.90	—	—	—	Free commercial	Details
22	M2.1 MiniMaxAI	81.00	—	—	—	Free commercial	Details
23	MiniMax M2 MiniMaxAI	78.00	—	—	—	Free commercial	Details
24	Grok 3 xAI	77.10	—	—	—	Proprietary	Details
25	MiniMax-M1-80k MiniMaxAI	76.90	—	96.80	—	Free commercial	Details
26	Claude Opus 4 Anthropic	75.50	4.20	98.20	—	Proprietary	Details
27	Kimi K2 0905 Moonshot AI	75.20	—	—	—	Free commercial	Details
28	MiniMax-M1-40k MiniMaxAI	74.60	—	96.00	—	Free commercial	Details
29	Gemini 2.5 Flash Google Deep Mind	72.00	4.20	—	—	Proprietary	Details
30	Qwen3-235B-A22B-2507 阿里巴巴	70.30	—	—	—	Free commercial	Details
31	DeepSeek-R1 DeepSeek-AI	70.00	—	97.30	—	Free commercial	Details
32	Magistral-Medium-2506 MistralAI	64.95	—	—	—	Proprietary	Details
33	Gemini 2.5 Flash-Lite Google Deep Mind	63.10	—	—	—	Proprietary	Details
34	Claude Sonnet 3.7 Anthropic	54.80	—	82.20	—	Proprietary	Details
35	Kimi K2 Moonshot AI	54.00	0.01	97.40	—	Free commercial	Details
36	ERNIE-4.5-VL-424B-A47B-Base 百度	35.10	—	—	—	Free commercial	Details
37	Gemini 2.0 Flash Experimental DeepMind	29.70	—	—	—	Proprietary	Details
38	Kimi K2 Thinking Moonshot AI	100.00	—	—	—	Free commercial	Details
39	Llama3.1-405B Instruct Facebook AI研究实验室	—	—	—	—	Free commercial	Details
40	Grok 3.5 xAI	—	—	—	—	Proprietary	Details
41	Gemini 2.5 Pro Deep Think Google Deep Mind	—	10.40	—	—	Proprietary	Details
42	GLM-5 智谱AI	—	2.10	—	—	Free commercial	Details
43	Claude 3.5 Sonnet Anthropic	—	—	—	—	Proprietary	Details
44	Kimi k1.5 (Long-CoT) Moonshot AI	—	—	96.20	—	Proprietary	Details
45	Amazon Nova Pro 亚马逊	—	—	—	—	Proprietary	Details
46	GLM-4.5 智谱AI	—	—	98.20	—	Free commercial	Details
47	GLM-4.5-Air 智谱AI	—	—	98.10	—	Free commercial	Details
48	OpenAI o3-mini (high) OpenAI	—	4.20	97.90	—	Proprietary	Details
49	OpenAI o1 OpenAI	—	—	96.40	—	Proprietary	Details
50	DeepSeek-V3 DeepSeek-AI	—	—	87.80	—	Free commercial	Details

ERNIE-4.5-300B-A47B 百度

AIME202535.10

FrontierMath - Tier 4—

MATH-50096.40

GSM8K96.60

Free commercial

Qwen3-235B-A22B 阿里巴巴

AIME202581.50

FrontierMath - Tier 4—

MATH-50098.00

GSM8K96.40

Free commercial

DeepSeek-V3-0324 DeepSeek-AI

AIME202547.70

FrontierMath - Tier 4—

MATH-50094.00

GSM8K96.30

Free commercial

GPT-4.1 OpenAI

AIME202536.70

FrontierMath - Tier 4—

MATH-50092.80

GSM8K95.90

Proprietary

Qwen2.5-Max 阿里巴巴

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K94.50

Proprietary

Step 3.5 Flash StepFunAI

AIME202599.80

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

OpenAI o4 - mini OpenAI

AIME202599.50

FrontierMath - Tier 46.30

MATH-500—

GSM8K—

Proprietary

GLM-4.6 智谱AI

AIME202598.60

FrontierMath - Tier 42.10

MATH-500—

GSM8K—

Free commercial

Kimi K2.5 Moonshot AI

AIME202596.10

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

Free commercial

GLM-4.7 智谱AI

AIME202595.70

FrontierMath - Tier 42.10

MATH-500—

GSM8K—

Free commercial

DeepSeek V3.2 DeepSeek-AI

AIME202593.10

FrontierMath - Tier 42.10

MATH-500—

GSM8K—

Free commercial

Qwen3-235B-A22B-Thinking-2507 阿里巴巴

AIME202592.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

DeepSeek-V3.1 Terminus DeepSeek-AI

AIME202590.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

DeepSeek V3.2-Exp DeepSeek-AI

AIME202589.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

ERNIE 5.0 百度

AIME202589.06

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

DeepSeek-V3.1 DeepSeek-AI

AIME202588.40

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

DeepSeek-R1-0528 DeepSeek-AI

AIME202587.50

FrontierMath - Tier 4—

MATH-50098.00

GSM8K—

Free commercial

MiniMax M2.5 MiniMaxAI

AIME202586.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Intern-S1 上海人工智能实验室

AIME202586.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Gemini-2.5-Pro-Preview-05-06 Google Deep Mind

AIME202583.00

FrontierMath - Tier 42.10

MATH-50098.80

GSM8K—

Proprietary

Step3 StepFunAI

AIME202582.90

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

M2.1 MiniMaxAI

AIME202581.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

MiniMax M2 MiniMaxAI

AIME202578.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Grok 3 xAI

AIME202577.10

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

MiniMax-M1-80k MiniMaxAI

AIME202576.90

FrontierMath - Tier 4—

MATH-50096.80

GSM8K—

Free commercial

Claude Opus 4 Anthropic

AIME202575.50

FrontierMath - Tier 44.20

MATH-50098.20

GSM8K—

Proprietary

Kimi K2 0905 Moonshot AI

AIME202575.20

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

MiniMax-M1-40k MiniMaxAI

AIME202574.60

FrontierMath - Tier 4—

MATH-50096.00

GSM8K—

Free commercial

Gemini 2.5 Flash Google Deep Mind

AIME202572.00

FrontierMath - Tier 44.20

MATH-500—

GSM8K—

Proprietary

Qwen3-235B-A22B-2507 阿里巴巴

AIME202570.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

DeepSeek-R1 DeepSeek-AI

AIME202570.00

FrontierMath - Tier 4—

MATH-50097.30

GSM8K—

Free commercial

Magistral-Medium-2506 MistralAI

AIME202564.95

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Gemini 2.5 Flash-Lite Google Deep Mind

AIME202563.10

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Claude Sonnet 3.7 Anthropic

AIME202554.80

FrontierMath - Tier 4—

MATH-50082.20

GSM8K—

Proprietary

Kimi K2 Moonshot AI

AIME202554.00

FrontierMath - Tier 40.01

MATH-50097.40

GSM8K—

Free commercial

ERNIE-4.5-VL-424B-A47B-Base 百度

AIME202535.10

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Gemini 2.0 Flash Experimental DeepMind

AIME202529.70

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Kimi K2 Thinking Moonshot AI

AIME2025100.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Llama3.1-405B Instruct Facebook AI研究实验室

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Grok 3.5 xAI

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Gemini 2.5 Pro Deep Think Google Deep Mind

AIME2025—

FrontierMath - Tier 410.40

MATH-500—

GSM8K—

Proprietary

GLM-5 智谱AI

AIME2025—

FrontierMath - Tier 42.10

MATH-500—

GSM8K—

Free commercial

Claude 3.5 Sonnet Anthropic

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Kimi k1.5 (Long-CoT)Moonshot AI

AIME2025—

FrontierMath - Tier 4—

MATH-50096.20

GSM8K—

Proprietary

Amazon Nova Pro 亚马逊

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

GLM-4.5 智谱AI

AIME2025—

FrontierMath - Tier 4—

MATH-50098.20

GSM8K—

Free commercial

GLM-4.5-Air 智谱AI

AIME2025—

FrontierMath - Tier 4—

MATH-50098.10

GSM8K—

Free commercial

OpenAI o3-mini (high)OpenAI

AIME2025—

FrontierMath - Tier 44.20

MATH-50097.90

GSM8K—

Proprietary

OpenAI o1 OpenAI

AIME2025—

FrontierMath - Tier 4—

MATH-50096.40

GSM8K—

Proprietary

DeepSeek-V3 DeepSeek-AI

AIME2025—

FrontierMath - Tier 4—

MATH-50087.80

GSM8K—

Free commercial

Sort by:

Showing 50 of 55 modelsView GSM8K benchmark page