MMLU - 一种针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,任务涵盖的知识很广泛,语言是英文,用以评测大模型基本的知识覆盖范围和理解能力。
C Eval - C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。用以评测大模型中文理解能力。
AGI Eval - 微软发布的大模型基础能力评测基准,主要评测大模型在人类认知和解决问题的一般能力,涵盖全球20种面向普通人类考生的官方、公共和高标准录取和资格考试,包含中英文数据。
GSM8K - OpenAI发布的大模型数学推理能力评测基准,涵盖了8500个中学水平的高质量数学题数据集。数据集比之前的数学文字题数据集规模更大,语言更具多样性,题目也更具挑战性。
- 免费商用授权
- 收费商用授权
- 开源不可商用
- 不开源
模型名称 | 参数大小 | MMLU平均分 | CEval平均分 | AGIEval平均分 | GSM8K平均分 | 发布者 | 开源情况 | 模型地址 |
---|---|---|---|---|---|---|---|---|
GPT-3 |
1750 |
53.9 |
/ |
/ |
/ |
![]() |
GPT-3模型地址 | |
GPT-3.5 |
1750 |
70.0 |
54.4 |
/ |
57.1 |
![]() |
GPT-3.5模型地址 | |
GPT-4 |
1750 |
86.4 |
68.7 |
/ |
92.0 |
![]() |
GPT-4模型地址 | |
PaLM |
5400 |
69.3 |
/ |
/ |
56.5 |
![]() |
PaLM模型地址 | |
PaLM 2 |
3400 |
78.3 |
/ |
/ |
80.7 |
![]() |
PaLM 2模型地址 | |
LLaMA 7B |
70 |
35.1 |
27.1 |
23.9 |
11.0 |
![]() |
LLaMA 7B模型地址 | |
LLaMA 13B |
130 |
46.94 |
/ |
33.9 |
17.8 |
![]() |
LLaMA 13B模型地址 | |
LLaMA 33B |
330 |
57.8 |
/ |
41.7 |
35.6 |
![]() |
LLaMA 33B模型地址 | |
LLaMA 65B |
650 |
63.4 |
38.8 |
47.6 |
50.9 |
![]() |
LLaMA 65B模型地址 | |
LLaMA2 7B |
70 |
45.3 |
/ |
29.3 |
14.6 |
![]() |
LLaMA2 7B模型地址 | |
LLaMA2 13B |
130 |
54.84 |
/ |
39.1 |
28.7 |
![]() |
LLaMA2 13B模型地址 | |
LLaMA2 34B |
340 |
62.6 |
/ |
43.4 |
42.2 |
![]() |
LLaMA2 34B模型地址 | |
LLaMA2 70B |
700 |
68.9 |
/ |
54.2 |
56.8 |
![]() |
LLaMA2 70B模型地址 | |
Baichuan 7B |
70 |
42.3 |
42.8 |
34.44 |
9.7 |
![]() |
Baichuan 7B模型地址 | |
Baichuan 13B - Base |
130 |
51.62 |
52.4 |
/ |
26.6 |
![]() |
Baichuan 13B - Base模型地址 | |
Baichuan 13B - Chat |
130 |
52.1 |
51.5 |
/ |
26.6 |
![]() |
Baichuan 13B - Chat模型地址 | |
Baichuan2-7B-Base |
70 |
54.16 |
54.0 |
42.73 |
24.49 |
![]() |
Baichuan2-7B-Base模型地址 | |
Baichuan2-13B-Base |
130 |
59.17 |
58.1 |
48.17 |
52.77 |
![]() |
Baichuan2-13B-Base模型地址 | |
CPM-Bee |
100 |
/ |
54.1 |
/ |
/ |
![]() |
CPM-Bee模型地址 | |
Aquila-7B |
70 |
/ |
25.5 |
25.58 |
/ |
![]() |
Aquila-7B模型地址 | |
GLM-130B |
1300 |
44.8 |
44.0 |
/ |
/ |
![]() |
GLM-130B模型地址 | |
ChatGLM-6B |
62 |
36.9 |
38.9 |
/ |
4.82 |
![]() |
ChatGLM-6B模型地址 | |
ChatGLM2-6B |
62 |
47.86 |
51.7 |
/ |
32.37 |
![]() |
ChatGLM2-6B模型地址 | |
ChatGLM2 12B |
120 |
56.18 |
61.6 |
/ |
40.94 |
![]() |
ChatGLM2 12B模型地址 | |
Qwen-7B |
70 |
56.7 |
59.6 |
/ |
51.6 |
![]() |
Qwen-7B模型地址 | |
XVERSE-13B |
130 |
55.1 |
54.7 |
41.4 |
/ |
![]() |
XVERSE-13B模型地址 | |
XVERSE-13B-Chat |
130 |
60.2 |
53.1 |
48.3 |
/ |
![]() |
XVERSE-13B-Chat模型地址 | |
OpenLLaMA 13B |
130 |
42.4 |
24.7 |
24.0 |
/ |
![]() |
OpenLLaMA 13B模型地址 | |
OPT |
1750 |
25.2 |
25.0 |
24.2 |
/ |
![]() |
OPT模型地址 | |
Pythia |
120 |
25.1 |
26.2 |
25.3 |
/ |
![]() |
Pythia模型地址 | |
Ziya-LLaMA-13B-Pretrain-v1 |
130 |
43.9 |
30.2 |
27.2 |
/ |
![]() |
Ziya-LLaMA-13B-Pretrain-v1模型地址 | |
MOSS |
160 |
27.4 |
33.13 |
26.8 |
/ |
![]() |
MOSS模型地址 | |
InternLM 7B |
70 |
51.0 |
53.4 |
37.6 |
31.2 |
![]() |
InternLM 7B模型地址 | |
InternLM Chat 7B 8K |
70 |
50.8 |
53.2 |
42.5 |
31.2 |
![]() |
InternLM Chat 7B 8K模型地址 |
数据说明:所有数据来源于论文或者GitHub上的评测结果,以官方论文为主,部分数据来源第三方评测!