大模型综合能力评测对比表

模型名称 参数大小 MMLU平均分 CEval平均分 AGIEval平均分 GSM8K平均分 发布者 开源情况 模型地址

GPT-3

1750

53.9

/

/

/

OpenAI

GPT-3.5

1750

70.0

54.4

/

57.1

OpenAI

GPT-4

1750

86.4

68.7

/

92.0

OpenAI

PaLM

5400

69.3

/

/

56.5

Google Research

PaLM 2

3400

78.3

/

/

80.7

Google Research

LLaMA 7B

70

35.1

27.1

23.9

11.0

Facebook AI研究实验室

LLaMA 13B

130

46.94

/

33.9

17.8

Facebook AI研究实验室

LLaMA 33B

330

57.8

/

41.7

35.6

Facebook AI研究实验室

LLaMA 65B

650

63.4

38.8

47.6

50.9

Facebook AI研究实验室

LLaMA2 7B

70

45.3

/

29.3

14.6

Facebook AI研究实验室

LLaMA2 13B

130

54.84

/

39.1

28.7

Facebook AI研究实验室

LLaMA2 34B

340

62.6

/

43.4

42.2

Facebook AI研究实验室

LLaMA2 70B

700

68.9

/

54.2

56.8

Facebook AI研究实验室

Baichuan 7B

70

42.3

42.8

34.44

9.7

Baichuan Intelligent Technology

Baichuan 13B - Base

130

51.62

52.4

/

26.6

Baichuan Intelligent Technology

Baichuan 13B - Chat

130

52.1

51.5

/

26.6

Baichuan Intelligent Technology

Baichuan2-7B-Base

70

54.16

54.0

42.73

24.49

Baichuan Intelligent Technology

Baichuan2-13B-Base

130

59.17

58.1

48.17

52.77

Baichuan Intelligent Technology

CPM-Bee

100

/

54.1

/

/

OpenBMB

Aquila-7B

70

/

25.5

25.58

/

北京智源人工智能研究院

GLM-130B

1300

44.8

44.0

/

/

清华大学

ChatGLM-6B

62

36.9

38.9

/

4.82

清华大学

ChatGLM2-6B

62

47.86

51.7

/

32.37

清华大学

ChatGLM2 12B

120

56.18

61.6

/

40.94

清华大学

Qwen-7B

70

56.7

59.6

/

51.6

阿里巴巴

XVERSE-13B

130

55.1

54.7

41.4

/

元象XVERSE

XVERSE-13B-Chat

130

60.2

53.1

48.3

/

元象XVERSE

OpenLLaMA 13B

130

42.4

24.7

24.0

/

Berkeley Artificial Intelligence Research

OPT

1750

25.2

25.0

24.2

/

Facebook AI研究实验室

Pythia

120

25.1

26.2

25.3

/

EleutherAI

Ziya-LLaMA-13B-Pretrain-v1

130

43.9

30.2

27.2

/

IDEA研究院

MOSS

160

27.4

33.13

26.8

/

OpenLMLab

InternLM 7B

70

51.0

53.4

37.6

31.2

Shanghai Artificial Intelligence Laboratory

InternLM Chat 7B 8K

70

50.8

53.2

42.5

31.2

Shanghai Artificial Intelligence Laboratory
模型名称
GPT-3
MMLU评分
53.9
C-Eval评分
0.0
AGI Eval评分
0.0
GSM8K评分
0.0
模型名称
GPT-3.5
MMLU评分
70.0
C-Eval评分
54.4
AGI Eval评分
0.0
GSM8K评分
57.1
模型名称
GPT-4
MMLU评分
86.4
C-Eval评分
68.7
AGI Eval评分
0.0
GSM8K评分
92.0
模型名称
PaLM
MMLU评分
69.3
C-Eval评分
0.0
AGI Eval评分
0.0
GSM8K评分
56.5
模型名称
PaLM 2
MMLU评分
78.3
C-Eval评分
0.0
AGI Eval评分
0.0
GSM8K评分
80.7
模型名称
LLaMA 7B
MMLU评分
35.1
C-Eval评分
27.1
AGI Eval评分
23.9
GSM8K评分
11.0
模型名称
LLaMA 13B
MMLU评分
46.94
C-Eval评分
0.0
AGI Eval评分
33.9
GSM8K评分
17.8
模型名称
LLaMA 33B
MMLU评分
57.8
C-Eval评分
0.0
AGI Eval评分
41.7
GSM8K评分
35.6
模型名称
LLaMA 65B
MMLU评分
63.4
C-Eval评分
38.8
AGI Eval评分
47.6
GSM8K评分
50.9
模型名称
LLaMA2 7B
MMLU评分
45.3
C-Eval评分
0.0
AGI Eval评分
29.3
GSM8K评分
14.6
模型名称
LLaMA2 13B
MMLU评分
54.84
C-Eval评分
0.0
AGI Eval评分
39.1
GSM8K评分
28.7
模型名称
LLaMA2 34B
MMLU评分
62.6
C-Eval评分
0.0
AGI Eval评分
43.4
GSM8K评分
42.2
模型名称
LLaMA2 70B
MMLU评分
68.9
C-Eval评分
0.0
AGI Eval评分
54.2
GSM8K评分
56.8
模型名称
Baichuan 7B
MMLU评分
42.3
C-Eval评分
42.8
AGI Eval评分
34.44
GSM8K评分
9.7
模型名称
Baichuan 13B - Base
MMLU评分
51.62
C-Eval评分
52.4
AGI Eval评分
0.0
GSM8K评分
26.6
模型名称
Baichuan 13B - Chat
MMLU评分
52.1
C-Eval评分
51.5
AGI Eval评分
0.0
GSM8K评分
26.6
模型名称
Baichuan2-7B-Base
MMLU评分
54.16
C-Eval评分
54.0
AGI Eval评分
42.73
GSM8K评分
24.49
模型名称
Baichuan2-13B-Base
MMLU评分
59.17
C-Eval评分
58.1
AGI Eval评分
48.17
GSM8K评分
52.77
模型名称
CPM-Bee
MMLU评分
0.0
C-Eval评分
54.1
AGI Eval评分
0.0
GSM8K评分
0.0
模型名称
Aquila-7B
MMLU评分
0.0
C-Eval评分
25.5
AGI Eval评分
25.58
GSM8K评分
0.0
模型名称
GLM-130B
MMLU评分
44.8
C-Eval评分
44.0
AGI Eval评分
0.0
GSM8K评分
0.0
模型名称
ChatGLM-6B
MMLU评分
36.9
C-Eval评分
38.9
AGI Eval评分
0.0
GSM8K评分
4.82
模型名称
ChatGLM2-6B
MMLU评分
47.86
C-Eval评分
51.7
AGI Eval评分
0.0
GSM8K评分
32.37
模型名称
ChatGLM2 12B
MMLU评分
56.18
C-Eval评分
61.6
AGI Eval评分
0.0
GSM8K评分
40.94
模型名称
Qwen-7B
MMLU评分
56.7
C-Eval评分
59.6
AGI Eval评分
0.0
GSM8K评分
51.6
模型名称
XVERSE-13B
MMLU评分
55.1
C-Eval评分
54.7
AGI Eval评分
41.4
GSM8K评分
0.0
模型名称
XVERSE-13B-Chat
MMLU评分
60.2
C-Eval评分
53.1
AGI Eval评分
48.3
GSM8K评分
0.0
模型名称
OpenLLaMA 13B
MMLU评分
42.4
C-Eval评分
24.7
AGI Eval评分
24.0
GSM8K评分
0.0
模型名称
OPT
MMLU评分
25.2
C-Eval评分
25.0
AGI Eval评分
24.2
GSM8K评分
0.0
模型名称
Pythia
MMLU评分
25.1
C-Eval评分
26.2
AGI Eval评分
25.3
GSM8K评分
0.0
模型名称
Ziya-LLaMA-13B-Pretrain-v1
MMLU评分
43.9
C-Eval评分
30.2
AGI Eval评分
27.2
GSM8K评分
0.0
模型名称
MOSS
MMLU评分
27.4
C-Eval评分
33.13
AGI Eval评分
26.8
GSM8K评分
0.0
模型名称
InternLM 7B
MMLU评分
51.0
C-Eval评分
53.4
AGI Eval评分
37.6
GSM8K评分
31.2
模型名称
InternLM Chat 7B 8K
MMLU评分
50.8
C-Eval评分
53.2
AGI Eval评分
42.5
GSM8K评分
31.2

数据说明:所有数据来源于论文或者GitHub上的评测结果,以官方论文为主,部分数据来源第三方评测!