大模型评测基准与性能对比

本页面展示了多个主流大模型在各项评测基准上的表现,包括MMLU、GSM8K、HumanEval等多个标准数据集。我们通过实时更新的评测结果,帮助开发者和研究人员了解不同大模型在各种任务下的表现。用户可以选择自定义模型与评测基准进行对比,快速获取不同模型在实际应用中的优劣势。

各个评测基准的详细介绍可见: LLM 评测基准列表与介绍

自定义评测选择

+
+
模型名称
MMLU Pro
知识问答
MMLU
知识问答
GSM8K
数学推理
MATH
数学推理
GPQA Diamond
常识推理
HumanEval
代码生成
MATH-500
数学推理
LiveCodeBench
代码生成
参数数量 开源情况 发布机构
Qwen2.5-7B 45.00 74.20 85.40 49.80 36.40 57.90 0.00 0.00 70.0 阿里巴巴
Gemma 2 - 9B 44.70 71.30 70.70 37.70 32.80 37.80 0.00 0.00 90.0 Google Research
Llama3.1-8B-Instruct 44.00 68.10 82.40 47.60 26.30 66.50 0.00 0.00 80.0 Facebook AI研究实验室
Llama3.1-8B 35.40 66.60 55.30 20.50 25.80 33.50 0.00 0.00 80.0 Facebook AI研究实验室
Mistral-7B-Instruct-v0.3 30.90 64.20 36.20 10.20 24.70 29.30 0.00 0.00 70.0 MistralAI
DeepSeek-R1-Distill-Qwen-7B 0.00 0.00 0.00 0.00 49.50 0.00 91.40 0.00 70.0 DeepSeek-AI
MMLU Pro
45.00
MMLU
74.20
GSM8K
85.40
MATH
49.80
GPQA Diamond
36.40
HumanEval
57.90
MATH-500
0.00
LiveCodeBench
0.00
MMLU Pro
44.70
MMLU
71.30
GSM8K
70.70
MATH
37.70
GPQA Diamond
32.80
HumanEval
37.80
MATH-500
0.00
LiveCodeBench
0.00
MMLU Pro
44.00
MMLU
68.10
GSM8K
82.40
MATH
47.60
GPQA Diamond
26.30
HumanEval
66.50
MATH-500
0.00
LiveCodeBench
0.00
MMLU Pro
35.40
MMLU
66.60
GSM8K
55.30
MATH
20.50
GPQA Diamond
25.80
HumanEval
33.50
MATH-500
0.00
LiveCodeBench
0.00
MMLU Pro
30.90
MMLU
64.20
GSM8K
36.20
MATH
10.20
GPQA Diamond
24.70
HumanEval
29.30
MATH-500
0.00
LiveCodeBench
0.00
MMLU Pro
0.00
MMLU
0.00
GSM8K
0.00
MATH
0.00
GPQA Diamond
49.50
HumanEval
0.00
MATH-500
91.40
LiveCodeBench
0.00