加载中...

大模型评测基准与性能对比

对比大模型在 MMLU Pro、HLE、SWE-Bench 等评测上的表现，选择评测查看排名。

各个评测基准的详细介绍可见：LLM 评测基准列表与介绍

数据更新于: 2025/11/08 22:10:24

评测切换

在这里切换评测，图表和表格会同步更新

MMLU Pro GPQA Diamond SWE-bench Verified MATH-500 AIME 2024 LiveCodeBench

还有更多评测基准

进入评测基准列表，按类别/语言快速筛选

更多评测

筛选

已筛选

参数规模

全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型

全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

大模型性能评测结果

数据来源：DataLearnerAI

排名	模型	MMLU Pro	GPQA Diamond	SWE-bench Verified	AIME 2024	LiveCodeBench	参数(亿)	开源情况
1	GPT-5-mini	78.00	69.00	0.00	0.00	55.00	—	不开源
2	Gemini 1.5 Pro	76.10	53.50	0.00	0.00	0.00	—	不开源
3	Llama3.1-405B Instruct	73.40	49.00	0.00	0.00	30.20	4050B	免费商用
4	Phi 4 - 14B	70.40	0.00	0.00	0.00	0.00	140B	不可商用
5	Qwen2.5-32B	69.23	0.00	0.00	0.00	51.20	320B	免费商用
6	Hunyuan-A13B-Instruct	67.23	71.20	0.00	87.30	63.90	800B	免费商用
7	Mistral-Small-3.1-24B-Instruct-2503	66.76	45.96	0.00	0.00	0.00	240B	免费商用
8	Llama3.1-70B-Instruct	66.40	48.00	0.00	0.00	33.30	700B	免费商用
9	Claude 3.5 Haiku	65.00	41.60	0.00	0.00	0.00	—	不开源
10	Qwen2.5-14B	63.69	0.00	0.00	0.00	0.00	140B	免费商用
11	GPT-4o mini	61.70	41.10	0.00	0.00	0.00	—	不开源
12	Llama3.1-405B	61.60	0.00	0.00	0.00	0.00	4050B	免费商用
13	Gemma 3 - 12B (IT)	60.60	40.90	0.00	0.00	24.60	120B	免费商用
14	Qwen2.5-72B	58.10	45.90	0.00	0.00	0.00	727B	免费商用
15	Gemma2-27B	56.54	0.00	0.00	0.00	0.00	270B	免费商用
16	Llama3.1-70B	52.47	0.00	0.00	0.00	0.00	700B	免费商用
17	Qwen2.5-7B	45.00	36.40	0.00	0.00	0.00	70B	免费商用
18	Gemma 2 - 9B	44.70	32.80	0.00	0.00	0.00	90B	免费商用
19	Llama3.1-8B	35.40	25.80	0.00	0.00	0.00	80B	免费商用
20	Qwen2.5-3B	34.60	24.30	0.00	0.00	0.00	30B	免费商用
21	Llama-3.2-3B	25.00	26.60	0.00	0.00	0.00	32B	免费商用
22	GPT-5	0.00	87.30	72.80	0.00	0.00	—	不开源
23	Grok 3 mini	0.00	65.00	0.00	40.00	0.00	—	不开源

GPT-5-mini

MMLU Pro78.00

GPQA Diamond69.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench55.00

不开源

Gemini 1.5 Pro

MMLU Pro76.10

GPQA Diamond53.50

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

Llama3.1-405B Instruct

4050B

MMLU Pro73.40

GPQA Diamond49.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench30.20

免费商用

Phi 4 - 14B

140B

MMLU Pro70.40

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不可商用

Qwen2.5-32B

320B

MMLU Pro69.23

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench51.20

免费商用

Hunyuan-A13B-Instruct

800B

MMLU Pro67.23

GPQA Diamond71.20

SWE-bench Verified0.00

MATH-5000.00

AIME 202487.30

LiveCodeBench63.90

免费商用

Mistral-Small-3.1-24B-Instruct-2503

240B

MMLU Pro66.76

GPQA Diamond45.96

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Llama3.1-70B-Instruct

700B

MMLU Pro66.40

GPQA Diamond48.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench33.30

免费商用

Claude 3.5 Haiku

MMLU Pro65.00

GPQA Diamond41.60

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

Qwen2.5-14B

140B

MMLU Pro63.69

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

GPT-4o mini

MMLU Pro61.70

GPQA Diamond41.10

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

Llama3.1-405B

4050B

MMLU Pro61.60

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Gemma 3 - 12B (IT)

120B

MMLU Pro60.60

GPQA Diamond40.90

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench24.60

免费商用

Qwen2.5-72B

727B

MMLU Pro58.10

GPQA Diamond45.90

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Gemma2-27B

270B

MMLU Pro56.54

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Llama3.1-70B

700B

MMLU Pro52.47

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Qwen2.5-7B

70B

MMLU Pro45.00

GPQA Diamond36.40

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Gemma 2 - 9B

90B

MMLU Pro44.70

GPQA Diamond32.80

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Llama3.1-8B

80B

MMLU Pro35.40

GPQA Diamond25.80

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Qwen2.5-3B

30B

MMLU Pro34.60

GPQA Diamond24.30

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Llama-3.2-3B

32B

MMLU Pro25.00

GPQA Diamond26.60

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

GPT-5

MMLU Pro0.00

GPQA Diamond87.30

SWE-bench Verified72.80

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

Grok 3 mini

MMLU Pro0.00

GPQA Diamond65.00

SWE-bench Verified0.00

MATH-5000.00

AIME 202440.00

LiveCodeBench0.00

不开源

加载中...

大模型评测基准与性能对比

对比大模型在 MMLU Pro、HLE、SWE-Bench 等评测上的表现，选择评测查看排名。

各个评测基准的详细介绍可见：LLM 评测基准列表与介绍

数据更新于: 2025/11/08 22:10:24

评测切换

在这里切换评测，图表和表格会同步更新

MMLU Pro GPQA Diamond SWE-bench Verified MATH-500 AIME 2024 LiveCodeBench

还有更多评测基准

进入评测基准列表，按类别/语言快速筛选

更多评测

筛选

已筛选

参数规模

全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型

全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

大模型性能评测结果

数据来源：DataLearnerAI

排名	模型	MMLU Pro	GPQA Diamond	SWE-bench Verified	AIME 2024	LiveCodeBench	参数(亿)	开源情况
1	GPT-5-mini	78.00	69.00	0.00	0.00	55.00	—	不开源
2	Gemini 1.5 Pro	76.10	53.50	0.00	0.00	0.00	—	不开源
3	Llama3.1-405B Instruct	73.40	49.00	0.00	0.00	30.20	4050B	免费商用
4	Phi 4 - 14B	70.40	0.00	0.00	0.00	0.00	140B	不可商用
5	Qwen2.5-32B	69.23	0.00	0.00	0.00	51.20	320B	免费商用
6	Hunyuan-A13B-Instruct	67.23	71.20	0.00	87.30	63.90	800B	免费商用
7	Mistral-Small-3.1-24B-Instruct-2503	66.76	45.96	0.00	0.00	0.00	240B	免费商用
8	Llama3.1-70B-Instruct	66.40	48.00	0.00	0.00	33.30	700B	免费商用
9	Claude 3.5 Haiku	65.00	41.60	0.00	0.00	0.00	—	不开源
10	Qwen2.5-14B	63.69	0.00	0.00	0.00	0.00	140B	免费商用
11	GPT-4o mini	61.70	41.10	0.00	0.00	0.00	—	不开源
12	Llama3.1-405B	61.60	0.00	0.00	0.00	0.00	4050B	免费商用
13	Gemma 3 - 12B (IT)	60.60	40.90	0.00	0.00	24.60	120B	免费商用
14	Qwen2.5-72B	58.10	45.90	0.00	0.00	0.00	727B	免费商用
15	Gemma2-27B	56.54	0.00	0.00	0.00	0.00	270B	免费商用
16	Llama3.1-70B	52.47	0.00	0.00	0.00	0.00	700B	免费商用
17	Qwen2.5-7B	45.00	36.40	0.00	0.00	0.00	70B	免费商用
18	Gemma 2 - 9B	44.70	32.80	0.00	0.00	0.00	90B	免费商用
19	Llama3.1-8B	35.40	25.80	0.00	0.00	0.00	80B	免费商用
20	Qwen2.5-3B	34.60	24.30	0.00	0.00	0.00	30B	免费商用
21	Llama-3.2-3B	25.00	26.60	0.00	0.00	0.00	32B	免费商用
22	GPT-5	0.00	87.30	72.80	0.00	0.00	—	不开源
23	Grok 3 mini	0.00	65.00	0.00	40.00	0.00	—	不开源

GPT-5-mini

MMLU Pro78.00

GPQA Diamond69.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench55.00

不开源

Gemini 1.5 Pro

MMLU Pro76.10

GPQA Diamond53.50

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

Llama3.1-405B Instruct

4050B

MMLU Pro73.40

GPQA Diamond49.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench30.20

免费商用

Phi 4 - 14B

140B

MMLU Pro70.40

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不可商用

Qwen2.5-32B

320B

MMLU Pro69.23

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench51.20

免费商用

Hunyuan-A13B-Instruct

800B

MMLU Pro67.23

GPQA Diamond71.20

SWE-bench Verified0.00

MATH-5000.00

AIME 202487.30

LiveCodeBench63.90

免费商用

Mistral-Small-3.1-24B-Instruct-2503

240B

MMLU Pro66.76

GPQA Diamond45.96

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Llama3.1-70B-Instruct

700B

MMLU Pro66.40

GPQA Diamond48.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench33.30

免费商用

Claude 3.5 Haiku

MMLU Pro65.00

GPQA Diamond41.60

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

Qwen2.5-14B

140B

MMLU Pro63.69

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

GPT-4o mini

MMLU Pro61.70

GPQA Diamond41.10

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

Llama3.1-405B

4050B

MMLU Pro61.60

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Gemma 3 - 12B (IT)

120B

MMLU Pro60.60

GPQA Diamond40.90

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench24.60

免费商用

Qwen2.5-72B

727B

MMLU Pro58.10

GPQA Diamond45.90

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Gemma2-27B

270B

MMLU Pro56.54

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Llama3.1-70B

700B

MMLU Pro52.47

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Qwen2.5-7B

70B

MMLU Pro45.00

GPQA Diamond36.40

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Gemma 2 - 9B

90B

MMLU Pro44.70

GPQA Diamond32.80

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Llama3.1-8B

80B

MMLU Pro35.40

GPQA Diamond25.80

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Qwen2.5-3B

30B

MMLU Pro34.60

GPQA Diamond24.30

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Llama-3.2-3B

32B

MMLU Pro25.00

GPQA Diamond26.60

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

GPT-5

MMLU Pro0.00

GPQA Diamond87.30

SWE-bench Verified72.80

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

Grok 3 mini

MMLU Pro0.00

GPQA Diamond65.00

SWE-bench Verified0.00

MATH-5000.00

AIME 202440.00

LiveCodeBench0.00

不开源