加载中...

大模型评测基准与性能对比

对比大模型在 MMLU Pro、HLE、SWE-Bench 等评测上的表现，选择评测查看排名。

各个评测基准的详细介绍可见：LLM 评测基准列表与介绍

数据更新于: 2025/11/08 22:10:24

评测切换

在这里切换评测，图表和表格会同步更新

MMLU Pro GPQA Diamond SWE-bench Verified MATH-500 AIME 2024 LiveCodeBench

还有更多评测基准

进入评测基准列表，按类别/语言快速筛选

更多评测

筛选

已筛选

参数规模

全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型

全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

大模型性能评测结果

数据来源：DataLearnerAI

排名	模型	MMLU Pro	GPQA Diamond	MATH-500	AIME 2024	LiveCodeBench	参数(亿)	开源情况
1	Pangu Pro MoE	82.60	73.70	96.80	79.20	59.60	719B	免费商用
2	Llama3.3-70B-Instruct	68.90	50.50	0.00	0.00	33.30	700B	免费商用
3	Hunyuan-A13B-Instruct	67.23	71.20	0.00	87.30	63.90	800B	免费商用
4	Llama3.1-70B-Instruct	66.40	48.00	0.00	0.00	33.30	700B	免费商用
5	Qwen3-Next	66.05	0.00	0.00	0.00	56.60	800B	免费商用
6	Qwen2.5-72B	58.10	45.90	0.00	0.00	0.00	727B	免费商用
7	Llama3-70B-Instruct	56.20	0.00	0.00	0.00	0.00	700B	免费商用
8	Llama3-70B	52.78	0.00	0.00	0.00	0.00	700B	免费商用
9	Llama3.1-70B	52.47	0.00	0.00	0.00	0.00	700B	免费商用
10	DeepSeek-R1-Distill-Llama-70B	0.00	65.20	94.50	0.00	0.00	700B	免费商用

Pangu Pro MoE

719B

MMLU Pro82.60

GPQA Diamond73.70

SWE-bench Verified0.00

MATH-50096.80

AIME 202479.20

LiveCodeBench59.60

免费商用

Llama3.3-70B-Instruct

700B

MMLU Pro68.90

GPQA Diamond50.50

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench33.30

免费商用

Hunyuan-A13B-Instruct

800B

MMLU Pro67.23

GPQA Diamond71.20

SWE-bench Verified0.00

MATH-5000.00

AIME 202487.30

LiveCodeBench63.90

免费商用

Llama3.1-70B-Instruct

700B

MMLU Pro66.40

GPQA Diamond48.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench33.30

免费商用

Qwen3-Next

800B

MMLU Pro66.05

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench56.60

免费商用

Qwen2.5-72B

727B

MMLU Pro58.10

GPQA Diamond45.90

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Llama3-70B-Instruct

700B

MMLU Pro56.20

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Llama3-70B

700B

MMLU Pro52.78

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Llama3.1-70B

700B

MMLU Pro52.47

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

DeepSeek-R1-Distill-Llama-70B

700B

MMLU Pro0.00

GPQA Diamond65.20

SWE-bench Verified0.00

MATH-50094.50

AIME 20240.00

LiveCodeBench0.00

免费商用

加载中...

大模型评测基准与性能对比

对比大模型在 MMLU Pro、HLE、SWE-Bench 等评测上的表现，选择评测查看排名。

各个评测基准的详细介绍可见：LLM 评测基准列表与介绍

数据更新于: 2025/11/08 22:10:24

评测切换

在这里切换评测，图表和表格会同步更新

MMLU Pro GPQA Diamond SWE-bench Verified MATH-500 AIME 2024 LiveCodeBench

还有更多评测基准

进入评测基准列表，按类别/语言快速筛选

更多评测

筛选

已筛选

参数规模

全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型

全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

大模型性能评测结果

数据来源：DataLearnerAI

排名	模型	MMLU Pro	GPQA Diamond	MATH-500	AIME 2024	LiveCodeBench	参数(亿)	开源情况
1	Pangu Pro MoE	82.60	73.70	96.80	79.20	59.60	719B	免费商用
2	Llama3.3-70B-Instruct	68.90	50.50	0.00	0.00	33.30	700B	免费商用
3	Hunyuan-A13B-Instruct	67.23	71.20	0.00	87.30	63.90	800B	免费商用
4	Llama3.1-70B-Instruct	66.40	48.00	0.00	0.00	33.30	700B	免费商用
5	Qwen3-Next	66.05	0.00	0.00	0.00	56.60	800B	免费商用
6	Qwen2.5-72B	58.10	45.90	0.00	0.00	0.00	727B	免费商用
7	Llama3-70B-Instruct	56.20	0.00	0.00	0.00	0.00	700B	免费商用
8	Llama3-70B	52.78	0.00	0.00	0.00	0.00	700B	免费商用
9	Llama3.1-70B	52.47	0.00	0.00	0.00	0.00	700B	免费商用
10	DeepSeek-R1-Distill-Llama-70B	0.00	65.20	94.50	0.00	0.00	700B	免费商用

Pangu Pro MoE

719B

MMLU Pro82.60

GPQA Diamond73.70

SWE-bench Verified0.00

MATH-50096.80

AIME 202479.20

LiveCodeBench59.60

免费商用

Llama3.3-70B-Instruct

700B

MMLU Pro68.90

GPQA Diamond50.50

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench33.30

免费商用

Hunyuan-A13B-Instruct

800B

MMLU Pro67.23

GPQA Diamond71.20

SWE-bench Verified0.00

MATH-5000.00

AIME 202487.30

LiveCodeBench63.90

免费商用

Llama3.1-70B-Instruct

700B

MMLU Pro66.40

GPQA Diamond48.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench33.30

免费商用

Qwen3-Next

800B

MMLU Pro66.05

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench56.60

免费商用

Qwen2.5-72B

727B

MMLU Pro58.10

GPQA Diamond45.90

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Llama3-70B-Instruct

700B

MMLU Pro56.20

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Llama3-70B

700B

MMLU Pro52.78

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Llama3.1-70B

700B

MMLU Pro52.47

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

DeepSeek-R1-Distill-Llama-70B

700B

MMLU Pro0.00

GPQA Diamond65.20

SWE-bench Verified0.00

MATH-50094.50

AIME 20240.00

LiveCodeBench0.00

免费商用