LLM Math Reasoning Benchmark Leaderboard

Name: LLM Math Reasoning Benchmark Leaderboard
Creator: DataLearner
License: https://creativecommons.org/licenses/by/4.0/

This page provides the most comprehensive LLM math reasoning benchmark leaderboard. We evaluate models including GPT, Claude, Qwen, and DeepSeek using authoritative math benchmarks such as AIME 2025, FrontierMath-Tier4, MATH-500, and GSM8K.

Updated on 2026-07-18 08:01:51

As of 2026-07, this page covers AIME2025, FrontierMath - Tier 4, MATH-500, GSM8K and related benchmarks for LLM Math Reasoning Benchmark Leaderboard, making it straightforward to compare within the same task family.

Click any model name to check context length, licensing, and pricing on its detail page. See Data Methodology for scoring details.

Benchmark

AIME2025 FrontierMath - Tier 4 MATH-500 GSM8K

More Benchmarks

Model Size:All 3B and below 7B 13B 34B 65B 100B and above

Model Type:All Reasoning Models Foundation Models Instruction/Chat Models Coding Models

Source:All Open Source Closed Source

Origin:All China

Model release cutoff:

Top picks

Ranked by GSM8K

Current SOTA

ERNIE-4.5-300B-A47B

百度

96.60GSM8K

View model

Best Open-Source

ERNIE-4.5-300B-A47B

百度

96.60GSM8K

View model

Best China-Made

ERNIE-4.5-300B-A47B

百度

96.60GSM8K

View model

LLM Performance Results

Data source: DataLearnerAI

Click any row to open the model page. Tick the checkboxes to compare up to 4 models side by side.

Rank	Model					License
	ERNIE-4.5-300B-A47B 百度	35.10	—	96.40	96.60	Free commercial	Details
	Qwen3-235B-A22B 阿里巴巴	24.70	—	96.20	96.40	Free commercial	Details
	DeepSeek-V3-0324 DeepSeek-AI	47.70	—	94.00	96.30	Free commercial	Details
4	Pangu Embedded 华为	—	—	92.40	95.98	Free commercial	Details
5	GPT-4.1 OpenAI	36.70	—	92.80	95.90	Proprietary	Details
6	Qwen2.5-32B 阿里巴巴	—	—	—	95.90	Free commercial	Details
7	Gemma 3 - 27B (IT) Google Deep Mind	—	—	—	95.90	Free commercial	Details
8	Claude3-Opus Anthropic	—	—	—	95.00	Proprietary	Details
9	Qwen2.5-Max 阿里巴巴	—	—	—	94.50	Proprietary	Details
10	Hunyuan-A13B-Instruct 腾讯AI实验室	76.80	—	—	91.83	Free commercial	Details
11	Qwen2.5-72B 阿里巴巴	—	—	—	91.50	Free commercial	Details
12	GPT-4o mini OpenAI	—	—	—	91.30	Proprietary	Details
13	Qwen3-Next 阿里巴巴	69.50	—	—	90.30	Free commercial	Details
14	Phi-4-mini-instruct (3.8B) Microsoft Azure	—	—	71.80	88.60	Free commercial	Details
15	Qwen2.5-7B 阿里巴巴	—	—	—	85.40	Free commercial	Details
16	Llama3.1-8B-Instruct Facebook AI研究实验室	—	—	—	82.40	Free commercial	Details
17	Qwen2.5-3B 阿里巴巴	—	—	—	79.10	Free commercial	Details
18	Moonlight-16B-A3B-Instruct Moonshot AI	—	—	—	77.40	Free commercial	Details
19	Gemma2-27B Google Deep Mind	—	—	—	74.00	Free commercial	Details
20	Gemma 2 - 9B Google Research	—	—	—	70.70	Free commercial	Details
21	Llama3.1-8B Facebook AI研究实验室	—	—	—	55.30	Free commercial	Details
22	Mistral-7B-Instruct-v0.3 MistralAI	—	—	—	36.20	Free commercial	Details
23	Llama-3.2-3B Facebook AI研究实验室	—	—	—	34.00	Free commercial	Details
24	Step 3.5 Flash Thinking EnabledTools StepFunAI	99.80	—	—	—	Free commercial	Details
25	Claude Opus 4.6 Extended Thinking Anthropic	99.79	—	97.60	—	Proprietary	Details
26	Gemini 3.0 Flash Thinking EnabledTools Google Deep Mind	99.70	—	—	—	Proprietary	Details
27	GPT-5 Thinking EnabledTools OpenAI	99.60	—	—	—	Proprietary	Details
28	OpenAI o4 - mini Thinking EnabledTools OpenAI	99.50	—	—	—	Proprietary	Details
29	Gemini 2.5 Deep Think Deep Thinking Mode Google Deep Mind	99.20	—	—	—	Proprietary	Details
30	Kimi K2 Thinking Thinking EnabledTools Moonshot AI	99.10	—	—	—	Free commercial	Details
31	Grok 4 Thinking EnabledTools xAI	98.80	—	—	—	Proprietary	Details
32	GPT OSS 20B Thinking EnabledTools OpenAI	98.70	—	—	—	Free commercial	Details
33	GLM-4.6 Thinking Enabled 智谱AI	98.60	—	—	—	Free commercial	Details
34	GLM-4.6 Thinking EnabledTools 智谱AI	98.60	—	—	—	Free commercial	Details
35	GPT OSS 120B Thinking EnabledTools OpenAI	97.90	—	—	—	Free commercial	Details
36	Step 3.5 Flash Thinking Enabled StepFunAI	97.30	—	—	—	Free commercial	Details
37	GPT-5-Pro Thinking Enabled OpenAI	96.70	14.60	—	—	Proprietary	Details
38	Haiku 4.5 Thinking EnabledTools Anthropic	96.30	—	—	—	Proprietary	Details
39	Kimi K2.5 Thinking Enabled Moonshot AI	96.10	—	—	—	Free commercial	Details
40	DeepSeek V3.2 Speciale Thinking Enabled DeepSeek-AI	96.00	—	—	—	Free commercial	Details
41	GLM-4.7 Thinking Enabled 智谱AI	95.70	—	—	—	Free commercial	Details
42	Gemini 3.0 Flash Thinking Enabled Google Deep Mind	95.20	—	—	—	Proprietary	Details
43	Gemini 3.0 Pro (Preview 11-2025) Thinking Enabled Google Deep Mind	95.00	18.80	—	—	Proprietary	Details
44	GPT-5 Thinking Enabled OpenAI	94.60	—	—	—	Proprietary	Details
45	Kimi K2 Thinking Thinking Enabled Moonshot AI	94.50	—	—	—	Free commercial	Details
46	GPT-5.1 Thinking Level · High OpenAI	94.00	—	—	—	Proprietary	Details
47	GPT-5.1 Thinking Enabled OpenAI	94.00	—	—	—	Proprietary	Details
48	DeepSeek V3.2 Thinking Enabled DeepSeek-AI	93.10	2.10	—	—	Free commercial	Details
49	o3-pro OpenAI	93.00	—	—	—	Proprietary	Details
50	OpenAI o4 - mini Thinking Enabled OpenAI	92.70	—	—	—	Proprietary	Details

ERNIE-4.5-300B-A47B 百度

AIME202535.10

FrontierMath - Tier 4—

MATH-50096.40

GSM8K96.60

Free commercial

Qwen3-235B-A22B 阿里巴巴

AIME202524.70

FrontierMath - Tier 4—

MATH-50096.20

GSM8K96.40

Free commercial

DeepSeek-V3-0324 DeepSeek-AI

AIME202547.70

FrontierMath - Tier 4—

MATH-50094.00

GSM8K96.30

Free commercial

Pangu Embedded 华为

AIME2025—

FrontierMath - Tier 4—

MATH-50092.40

GSM8K95.98

Free commercial

GPT-4.1 OpenAI

AIME202536.70

FrontierMath - Tier 4—

MATH-50092.80

GSM8K95.90

Proprietary

Qwen2.5-32B 阿里巴巴

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K95.90

Free commercial

Gemma 3 - 27B (IT)Google Deep Mind

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K95.90

Free commercial

Claude3-Opus Anthropic

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K95.00

Proprietary

Qwen2.5-Max 阿里巴巴

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K94.50

Proprietary

Hunyuan-A13B-Instruct 腾讯AI实验室

AIME202576.80

FrontierMath - Tier 4—

MATH-500—

GSM8K91.83

Free commercial

Qwen2.5-72B 阿里巴巴

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K91.50

Free commercial

GPT-4o mini OpenAI

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K91.30

Proprietary

Qwen3-Next 阿里巴巴

AIME202569.50

FrontierMath - Tier 4—

MATH-500—

GSM8K90.30

Free commercial

Phi-4-mini-instruct (3.8B)Microsoft Azure

AIME2025—

FrontierMath - Tier 4—

MATH-50071.80

GSM8K88.60

Free commercial

Qwen2.5-7B 阿里巴巴

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K85.40

Free commercial

Llama3.1-8B-Instruct Facebook AI研究实验室

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K82.40

Free commercial

Qwen2.5-3B 阿里巴巴

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K79.10

Free commercial

Moonlight-16B-A3B-Instruct Moonshot AI

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K77.40

Free commercial

Gemma2-27B Google Deep Mind

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K74.00

Free commercial

Gemma 2 - 9B Google Research

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K70.70

Free commercial

Llama3.1-8B Facebook AI研究实验室

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K55.30

Free commercial

Mistral-7B-Instruct-v0.3 MistralAI

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K36.20

Free commercial

Llama-3.2-3B Facebook AI研究实验室

AIME2025—

FrontierMath - Tier 4—

MATH-500—

GSM8K34.00

Free commercial

Step 3.5 Flash StepFunAI

Thinking EnabledTools

AIME202599.80

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Claude Opus 4.6 Anthropic

Extended Thinking

AIME202599.79

FrontierMath - Tier 4—

MATH-50097.60

GSM8K—

Proprietary

Gemini 3.0 Flash Google Deep Mind

Thinking EnabledTools

AIME202599.70

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

GPT-5 OpenAI

Thinking EnabledTools

AIME202599.60

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

OpenAI o4 - mini OpenAI

Thinking EnabledTools

AIME202599.50

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Gemini 2.5 Deep Think Google Deep Mind

Deep Thinking Mode

AIME202599.20

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Kimi K2 Thinking Moonshot AI

Thinking EnabledTools

AIME202599.10

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Grok 4 xAI

Thinking EnabledTools

AIME202598.80

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

GPT OSS 20B OpenAI

Thinking EnabledTools

AIME202598.70

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

GLM-4.6 智谱AI

Thinking Enabled

AIME202598.60

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

GLM-4.6 智谱AI

Thinking EnabledTools

AIME202598.60

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

GPT OSS 120B OpenAI

Thinking EnabledTools

AIME202597.90

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Step 3.5 Flash StepFunAI

Thinking Enabled

AIME202597.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

GPT-5-Pro OpenAI

Thinking Enabled

AIME202596.70

FrontierMath - Tier 414.60

MATH-500—

GSM8K—

Proprietary

Haiku 4.5 Anthropic

Thinking EnabledTools

AIME202596.30

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Kimi K2.5 Moonshot AI

Thinking Enabled

AIME202596.10

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

DeepSeek V3.2 Speciale DeepSeek-AI

Thinking Enabled

AIME202596.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

GLM-4.7 智谱AI

Thinking Enabled

AIME202595.70

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

Gemini 3.0 Flash Google Deep Mind

Thinking Enabled

AIME202595.20

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind

Thinking Enabled

AIME202595.00

FrontierMath - Tier 418.80

MATH-500—

GSM8K—

Proprietary

GPT-5 OpenAI

Thinking Enabled

AIME202594.60

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Kimi K2 Thinking Moonshot AI

Thinking Enabled

AIME202594.50

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Free commercial

GPT-5.1 OpenAI

Thinking Level · High

AIME202594.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

GPT-5.1 OpenAI

Thinking Enabled

AIME202594.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

DeepSeek V3.2 DeepSeek-AI

Thinking Enabled

AIME202593.10

FrontierMath - Tier 42.10

MATH-500—

GSM8K—

Free commercial

o3-pro OpenAI

AIME202593.00

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

OpenAI o4 - mini OpenAI

Thinking Enabled

AIME202592.70

FrontierMath - Tier 4—

MATH-500—

GSM8K—

Proprietary

Sort by:

Showing 50 of 222 modelsView GSM8K benchmark page