加载中...

大模型评测基准与性能对比

对比大模型在 MMLU Pro、HLE、SWE-Bench 等评测上的表现，选择评测查看排名。

各个评测基准的详细介绍可见：LLM 评测基准列表与介绍

数据更新于: 2025/11/08 22:10:24

评测切换

在这里切换评测，图表和表格会同步更新

MMLU Pro GPQA Diamond SWE-bench Verified MATH-500 AIME 2024 LiveCodeBench

还有更多评测基准

进入评测基准列表，按类别/语言快速筛选

更多评测

筛选

已筛选

参数规模

全部 3B及以下

大模型性能评测结果

数据来源：DataLearnerAI

排名	模型	MMLU Pro	GPQA Diamond	SWE-bench Verified	MATH-500	AIME 2024	LiveCodeBench	参数(亿)	开源情况
1	M2.1	88.00	81.00	74.80	0.00	0.00	0.00	2300B	免费商用
2	Claude Sonnet 4.5	88.00	83.40	82.00

M2.1

2300B

MMLU Pro88.00

GPQA Diamond81.00

SWE-bench Verified74.80

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Claude Sonnet 4.5

MMLU Pro88.00

GPQA Diamond83.40

SWE-bench Verified82.00

MATH-5000.00

AIME 20240.00

LiveCodeBench71.00

不开源

GPT-4.5

MMLU Pro86.10

GPQA Diamond71.40

SWE-bench Verified38.00

MATH-50090.70

AIME 202436.70

LiveCodeBench46.40

不开源

DeepSeek-V3.1

6710B

MMLU Pro85.00

GPQA Diamond80.10

SWE-bench Verified66.00

MATH-5000.00

AIME 202493.10

LiveCodeBench74.80

免费商用

DeepSeek-V3.1 Terminus

6710B

MMLU Pro85.00

GPQA Diamond80.70

SWE-bench Verified68.40

MATH-5000.00

AIME 20240.00

LiveCodeBench80.00

免费商用

GLM-4.7

3580B

MMLU Pro84.30

GPQA Diamond85.70

SWE-bench Verified73.80

MATH-5000.00

AIME 20240.00

LiveCodeBench84.90

免费商用

Qwen3 Max (Preview)

MMLU Pro84.00

GPQA Diamond76.00

SWE-bench Verified69.60

MATH-5000.00

AIME 20240.00

LiveCodeBench57.50

不开源

Qwen3-235B-A22B-2507

2350B

MMLU Pro83.00

GPQA Diamond77.50

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench51.80

免费商用

GLM-4.6

3550B

MMLU Pro83.00

GPQA Diamond82.90

SWE-bench Verified68.00

MATH-5000.00

AIME 20240.00

LiveCodeBench84.50

免费商用

Pangu Pro MoE

719B

MMLU Pro82.60

GPQA Diamond73.70

SWE-bench Verified0.00

MATH-50096.80

AIME 202479.20

LiveCodeBench59.60

免费商用

MiniMax M2

2300B

MMLU Pro82.00

GPQA Diamond78.00

SWE-bench Verified69.40

MATH-5000.00

AIME 20240.00

LiveCodeBench83.00

免费商用

DeepSeek-V3-0324

6710B

MMLU Pro81.20

GPQA Diamond68.40

SWE-bench Verified38.80

MATH-50094.00

AIME 202459.40

LiveCodeBench49.20

免费商用

Kimi K2

10000B

MMLU Pro81.10

GPQA Diamond75.10

SWE-bench Verified51.80

MATH-50097.40

AIME 202469.60

LiveCodeBench53.70

免费商用

GPT-4.1

MMLU Pro80.50

GPQA Diamond66.30

SWE-bench Verified54.60

MATH-50092.80

AIME 202448.10

LiveCodeBench40.50

不开源

GPT-4o(2025-03-27)

MMLU Pro79.80

GPQA Diamond66.90

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench35.80

不开源

Gemini 2.0 Pro Experimental

MMLU Pro79.10

GPQA Diamond64.70

SWE-bench Verified0.00

MATH-5000.00

AIME 202436.00

LiveCodeBench0.00

不开源

Pangu Embedded

70B

MMLU Pro79.00

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-50092.40

AIME 202481.90

LiveCodeBench67.10

免费商用

ERNIE-4.5-300B-A47B

3000B

MMLU Pro78.40

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-50096.40

AIME 202454.80

LiveCodeBench38.80

免费商用

Qwen3-30B-A3B-2507

305B

MMLU Pro78.40

GPQA Diamond70.40

SWE-bench Verified22.00

MATH-5000.00

AIME 20240.00

LiveCodeBench43.20

免费商用

Claude 3.5 Sonnet New

MMLU Pro78.00

GPQA Diamond65.00

SWE-bench Verified49.00

MATH-50078.00

AIME 202416.00

LiveCodeBench38.70

不开源

GPT-4o(2024-11-20)

MMLU Pro77.90

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

Qwen2.5-Max

MMLU Pro76.10

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

DeepSeek-V3

6810B

MMLU Pro75.90

GPQA Diamond59.10

SWE-bench Verified0.00

MATH-50087.80

AIME 202439.00

LiveCodeBench34.60

免费商用

Grok 2

2690B

MMLU Pro75.50

GPQA Diamond56.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

GLM-4-9B-Chat

90B

MMLU Pro72.40

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 202476.40

LiveCodeBench51.80

免费商用

Gemini 2.0 Flash-Lite

MMLU Pro71.60

GPQA Diamond51.50

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench28.90

不开源

Mistral-Small-3.2

240B

MMLU Pro69.06

GPQA Diamond46.13

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Llama3.3-70B-Instruct

700B

MMLU Pro68.90

GPQA Diamond50.50

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench33.30

免费商用

Gemma 3 - 27B (IT)

270B

MMLU Pro67.50

GPQA Diamond42.40

SWE-bench Verified0.00

MATH-5000.00

AIME 202425.30

LiveCodeBench29.70

免费商用

Qwen3-Next

800B

MMLU Pro66.05

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench56.60

免费商用

Mixtral-8x22B-Instruct-v0.1

1410B

MMLU Pro56.33

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Llama3-70B-Instruct

700B

MMLU Pro56.20

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Phi-4-mini-instruct (3.8B)

38B

MMLU Pro52.80

GPQA Diamond36.00

SWE-bench Verified0.00

MATH-50071.80

AIME 202410.00

LiveCodeBench0.00

免费商用

Llama3-70B

700B

MMLU Pro52.78

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Grok-1.5

MMLU Pro51.00

GPQA Diamond35.90

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

Llama3.1-8B-Instruct

80B

MMLU Pro44.00

GPQA Diamond26.30

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Moonlight-16B-A3B-Instruct

160B

MMLU Pro42.40

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Mistral-7B-Instruct-v0.3

70B

MMLU Pro30.90

GPQA Diamond24.70

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Gemini 2.5 Deep Think

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench87.60

不开源

Gemini 2.5 Flash-Preview-09-2025

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified54.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

Kimi K2 0905

10000B

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified69.20

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Step 3.5 Flash

1960B

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified74.40

MATH-5000.00

AIME 20240.00

LiveCodeBench86.40

免费商用

GPT-4.1 nano

MMLU Pro0.00

GPQA Diamond50.30

SWE-bench Verified0.00

MATH-5000.00

AIME 202429.40

LiveCodeBench0.00

不开源

Hunyuan-7B

70B

MMLU Pro0.00

GPQA Diamond60.10

SWE-bench Verified0.00

MATH-50093.70

AIME 202481.10

LiveCodeBench57.00

免费商用

Qwen3-4B-2507

40B

MMLU Pro0.00

GPQA Diamond62.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench35.10

免费商用

GPT-4.1 mini

MMLU Pro0.00

GPQA Diamond65.00

SWE-bench Verified23.60

MATH-5000.00

AIME 202449.60

LiveCodeBench0.00

不开源

Qwen3-4B-Thinking-2507

40B

MMLU Pro0.00

GPQA Diamond65.80

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench55.20

免费商用

Claude Sonnet 3.7

MMLU Pro0.00

GPQA Diamond68.00

SWE-bench Verified70.30

MATH-50082.20

AIME 202423.30

LiveCodeBench0.00

不开源

Grok 3

MMLU Pro0.00

GPQA Diamond80.40

SWE-bench Verified0.00

MATH-5000.00

AIME 202484.20

LiveCodeBench70.60

不开源

Grok 4 Fast

MMLU Pro0.00

GPQA Diamond85.70

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench80.00

不开源

Grok 4 Heavy

MMLU Pro0.00

GPQA Diamond88.90

SWE-bench Verified73.50

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

Gemini 3.0 Flash

MMLU Pro0.00

GPQA Diamond90.40

SWE-bench Verified68.70

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

GPT-5.2

MMLU Pro0.00

GPQA Diamond92.40

SWE-bench Verified80.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源