加载中...

大模型评测基准与性能对比

对比大模型在 MMLU Pro、HLE、SWE-Bench 等评测上的表现，选择评测查看排名。

各个评测基准的详细介绍可见：LLM 评测基准列表与介绍

数据更新于: 2025/11/08 22:10:24

评测切换

在这里切换评测，图表和表格会同步更新

MMLU Pro GPQA Diamond SWE-bench Verified MATH-500 AIME 2024 LiveCodeBench

还有更多评测基准

进入评测基准列表，按类别/语言快速筛选

更多评测

筛选

已筛选

参数规模

全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型

全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

大模型性能评测结果

数据来源：DataLearnerAI

排名	模型	MMLU Pro	GPQA Diamond	SWE-bench Verified	MATH-500	AIME 2024	LiveCodeBench	参数(亿)	开源情况
1	Pangu Embedded	79.00	0.00	0.00	92.40	81.90	67.10	70B	免费商用
2	Qwen3-8B	72.50	62.00	0.00	97.40	79.40	61.80	80B	免费商用
3	GLM-4-9B-Chat	72.40	0.00	0.00	0.00	76.40	51.80	90B	免费商用
4	Qwen2.5-7B	45.00	36.40	0.00	0.00	0.00	0.00	70B	免费商用
5	Gemma 2 - 9B	44.70	32.80	0.00	0.00	0.00	0.00	90B	免费商用
6	Llama3.1-8B-Instruct	44.00	26.30	0.00	0.00	0.00	0.00	80B	免费商用
7	Llama3.1-8B	35.40	25.80	0.00	0.00	0.00	0.00	80B	免费商用
8	Mistral-7B-Instruct-v0.3	30.90	24.70	0.00	0.00	0.00	0.00	70B	免费商用
9	Qwen3-4B-Thinking-2507	0.00	65.80	0.00	0.00	0.00	55.20	40B	免费商用
10	Qwen3-4B-2507	0.00	62.00	0.00	0.00	0.00	35.10	40B	免费商用
11	Hunyuan-7B	0.00	60.10	0.00	93.70	81.10	57.00	70B	免费商用
12	DeepSeek-R1-Distill-Qwen-7B	0.00	49.50	0.00	91.40	53.30	0.00	70B	免费商用
13	Qwen3-Coder-Next	0.00	0.00	70.60	0.00	0.00	0.00	80B	免费商用

Pangu Embedded

70B

MMLU Pro79.00

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-50092.40

AIME 202481.90

LiveCodeBench67.10

免费商用

Qwen3-8B

80B

MMLU Pro72.50

GPQA Diamond62.00

SWE-bench Verified0.00

MATH-50097.40

AIME 202479.40

LiveCodeBench61.80

免费商用

GLM-4-9B-Chat

90B

MMLU Pro72.40

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 202476.40

LiveCodeBench51.80

免费商用

Qwen2.5-7B

70B

MMLU Pro45.00

GPQA Diamond36.40

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Gemma 2 - 9B

90B

MMLU Pro44.70

GPQA Diamond32.80

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Llama3.1-8B-Instruct

80B

MMLU Pro44.00

GPQA Diamond26.30

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Llama3.1-8B

80B

MMLU Pro35.40

GPQA Diamond25.80

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Mistral-7B-Instruct-v0.3

70B

MMLU Pro30.90

GPQA Diamond24.70

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Qwen3-4B-Thinking-2507

40B

MMLU Pro0.00

GPQA Diamond65.80

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench55.20

免费商用

Qwen3-4B-2507

40B

MMLU Pro0.00

GPQA Diamond62.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench35.10

免费商用

Hunyuan-7B

70B

MMLU Pro0.00

GPQA Diamond60.10

SWE-bench Verified0.00

MATH-50093.70

AIME 202481.10

LiveCodeBench57.00

免费商用

DeepSeek-R1-Distill-Qwen-7B

70B

MMLU Pro0.00

GPQA Diamond49.50

SWE-bench Verified0.00

MATH-50091.40

AIME 202453.30

LiveCodeBench0.00

免费商用

Qwen3-Coder-Next

80B

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified70.60

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

加载中...

大模型评测基准与性能对比

对比大模型在 MMLU Pro、HLE、SWE-Bench 等评测上的表现，选择评测查看排名。

各个评测基准的详细介绍可见：LLM 评测基准列表与介绍

数据更新于: 2025/11/08 22:10:24

评测切换

在这里切换评测，图表和表格会同步更新

MMLU Pro GPQA Diamond SWE-bench Verified MATH-500 AIME 2024 LiveCodeBench

还有更多评测基准

进入评测基准列表，按类别/语言快速筛选

更多评测

筛选

已筛选

参数规模

全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型

全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

大模型性能评测结果

数据来源：DataLearnerAI

排名	模型	MMLU Pro	GPQA Diamond	SWE-bench Verified	MATH-500	AIME 2024	LiveCodeBench	参数(亿)	开源情况
1	Pangu Embedded	79.00	0.00	0.00	92.40	81.90	67.10	70B	免费商用
2	Qwen3-8B	72.50	62.00	0.00	97.40	79.40	61.80	80B	免费商用
3	GLM-4-9B-Chat	72.40	0.00	0.00	0.00	76.40	51.80	90B	免费商用
4	Qwen2.5-7B	45.00	36.40	0.00	0.00	0.00	0.00	70B	免费商用
5	Gemma 2 - 9B	44.70	32.80	0.00	0.00	0.00	0.00	90B	免费商用
6	Llama3.1-8B-Instruct	44.00	26.30	0.00	0.00	0.00	0.00	80B	免费商用
7	Llama3.1-8B	35.40	25.80	0.00	0.00	0.00	0.00	80B	免费商用
8	Mistral-7B-Instruct-v0.3	30.90	24.70	0.00	0.00	0.00	0.00	70B	免费商用
9	Qwen3-4B-Thinking-2507	0.00	65.80	0.00	0.00	0.00	55.20	40B	免费商用
10	Qwen3-4B-2507	0.00	62.00	0.00	0.00	0.00	35.10	40B	免费商用
11	Hunyuan-7B	0.00	60.10	0.00	93.70	81.10	57.00	70B	免费商用
12	DeepSeek-R1-Distill-Qwen-7B	0.00	49.50	0.00	91.40	53.30	0.00	70B	免费商用
13	Qwen3-Coder-Next	0.00	0.00	70.60	0.00	0.00	0.00	80B	免费商用

Pangu Embedded

70B

MMLU Pro79.00

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-50092.40

AIME 202481.90

LiveCodeBench67.10

免费商用

Qwen3-8B

80B

MMLU Pro72.50

GPQA Diamond62.00

SWE-bench Verified0.00

MATH-50097.40

AIME 202479.40

LiveCodeBench61.80

免费商用

GLM-4-9B-Chat

90B

MMLU Pro72.40

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 202476.40

LiveCodeBench51.80

免费商用

Qwen2.5-7B

70B

MMLU Pro45.00

GPQA Diamond36.40

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Gemma 2 - 9B

90B

MMLU Pro44.70

GPQA Diamond32.80

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Llama3.1-8B-Instruct

80B

MMLU Pro44.00

GPQA Diamond26.30

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Llama3.1-8B

80B

MMLU Pro35.40

GPQA Diamond25.80

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Mistral-7B-Instruct-v0.3

70B

MMLU Pro30.90

GPQA Diamond24.70

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Qwen3-4B-Thinking-2507

40B

MMLU Pro0.00

GPQA Diamond65.80

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench55.20

免费商用

Qwen3-4B-2507

40B

MMLU Pro0.00

GPQA Diamond62.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench35.10

免费商用

Hunyuan-7B

70B

MMLU Pro0.00

GPQA Diamond60.10

SWE-bench Verified0.00

MATH-50093.70

AIME 202481.10

LiveCodeBench57.00

免费商用

DeepSeek-R1-Distill-Qwen-7B

70B

MMLU Pro0.00

GPQA Diamond49.50

SWE-bench Verified0.00

MATH-50091.40

AIME 202453.30

LiveCodeBench0.00

免费商用

Qwen3-Coder-Next

80B

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified70.60

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用