大模型综合能力评测对比表

模型名称 参数大小 MMLU CEval AGIEval GSM8K MATH BBH MT Bench 发布者 开源情况 模型地址

GPT-3

1750.0

53.9

/

/

/

/

/

/

OpenAI

OPT

1750.0

25.2

25.0

24.2

/

/

/

/

Facebook AI研究实验室

PaLM

5400.0

69.3

/

/

56.5

/

/

/

Google Research

GPT-3.5

1750.0

70.0

54.4

/

57.1

/

/

8.39

OpenAI

ChatGLM-6B

62.0

36.9

38.9

/

4.82

/

/

/

智谱AI

GLM-130B

1300.0

44.8

44.0

/

/

/

/

/

智谱AI

GPT-4

1750.0

86.4

68.7

/

87.1

42.5

/

9.32

OpenAI

Pythia

120.0

25.1

26.2

25.3

/

/

/

/

EleutherAI

MOSS

160.0

27.4

33.13

26.8

/

/

/

/

OpenLMLab

PaLM 2

3400.0

78.3

/

/

80.7

/

/

/

Google Research

CPM-Bee

100.0

/

54.1

/

/

/

/

/

面壁智能

InternLM Chat 7B 8K

70.0

50.8

53.2

42.5

31.2

/

/

/

上海人工智能实验室

Aquila-7B

70.0

/

25.5

25.58

/

/

/

/

北京智源人工智能研究院

Baichuan 7B

70.0

42.3

42.8

34.44

9.7

/

/

/

百川智能

OpenLLaMA 13B

130.0

42.4

24.7

24.0

/

/

/

/

Berkeley Artificial Intelligence Research

ChatGLM2-6B

62.0

47.86

51.7

/

32.37

/

/

/

智谱AI

Qwen-7B

70.0

56.7

59.6

/

51.6

/

/

/

阿里巴巴

XVERSE-13B

130.0

55.1

54.7

41.4

/

/

/

/

元象XVERSE

Baichuan 13B - Base

130.0

51.62

52.4

/

26.6

/

/

/

百川智能

Baichuan 13B - Chat

130.0

52.1

51.5

/

26.6

/

/

/

百川智能

LLaMA 7B

70.0

35.1

27.1

23.9

11.0

/

/

/

Facebook AI研究实验室

LLaMA 13B

130.0

46.94

/

33.9

17.8

/

/

/

Facebook AI研究实验室

LLaMA 33B

330.0

57.8

/

41.7

35.6

/

/

/

Facebook AI研究实验室

LLaMA 65B

650.0

63.4

38.8

47.6

50.9

/

/

/

Facebook AI研究实验室

LLaMA2 70B

700.0

68.9

/

54.2

56.8

/

/

/

Facebook AI研究实验室

LLaMA2 34B

340.0

62.6

/

43.4

42.2

/

/

/

Facebook AI研究实验室

LLaMA2 13B

130.0

54.84

/

39.1

28.7

/

/

/

Facebook AI研究实验室

LLaMA2 7B

70.0

45.3

/

29.3

14.6

/

/

/

Facebook AI研究实验室

Ziya-LLaMA-13B-Pretrain-v1

130.0

43.9

30.2

27.2

/

/

/

/

IDEA研究院

ChatGLM2 12B

120.0

56.18

61.6

/

40.94

/

/

/

智谱AI

XVERSE-13B-Chat

130.0

60.2

53.1

48.3

/

/

/

/

元象XVERSE

InternLM 7B

70.0

51.0

53.4

37.6

31.2

/

/

/

上海人工智能实验室

Baichuan2-7B-Base

70.0

54.16

54.0

42.73

24.49

/

/

/

百川智能

Baichuan2-13B-Base

130.0

59.17

58.1

48.17

52.77

/

/

/

百川智能

Qwen-14B

140.0

66.3

72.1

/

61.3

/

/

/

阿里巴巴

Mistral 7B

73.0

60.1

/

43.0

52.1

/

/

/

MistralAI

ChatGLM3-6B-Base

60.0

61.4

69.0

53.7

72.3

/

/

/

智谱AI

Grok-1

330.0

73.0

/

/

62.9

/

/

/

xAI

Grok-0

330.0

65.7

/

/

56.8

/

/

/

xAI

XVERSE-65B

650.0

70.8

/

61.8

60.3

/

/

/

元象XVERSE

Aquila2-34B

340.0

67.79

63.07

/

58.4

/

/

/

北京智源人工智能研究院

Yi-6B

60.0

63.2

72.0

/

/

/

/

/

零一万物

Yi-6B-200K

60.0

64.0

73.5

/

/

/

/

/

零一万物

Yi-34B

340.0

76.3

81.4

/

/

/

/

/

零一万物

Yi-34B-200K

340.0

76.1

81.9

/

/

/

/

/

零一万物

Qwen-72B

720.0

77.4

83.3

62.5

78.9

/

/

/

阿里巴巴

Qwen-1.8B

18.0

45.3

/

/

32.3

/

/

/

阿里巴巴

Gemini-ultra

0.0

83.7

/

/

88.9

53.2

/

/

DeepMind

Gemini-pro

1000.0

79.13

/

/

86.5

/

/

/

DeepMind

Mistral-7B-MoE

450.0

70.6

/

/

74.4

28.4

/

8.3

MistralAI

Phi-2

27.0

56.7

/

/

61.1

/

/

/

Microsoft

Phi-1

13.0

/

/

/

/

/

/

/

Microsoft

Phi-1.5

13.0

37.6

/

/

40.2

/

/

/

Microsoft

DeciLM-7B

70.4

59.76

/

/

47.38

/

/

/

Deci

YAYI2-30B

300.0

80.5

80.9

62.0

71.2

/

/

/

中科闻歌

TinyLlama

11.0

24.3

25.02

/

2.27

/

/

/

新加坡科技与设计大学

Gemini 1.5 Pro

0.0

81.9

/

/

91.7

58.5

/

/

Google Deep Mind

Qwen1.5-72B-Chat

720.0

77.5

84.1

/

79.5

34.1

65.5

8.67

阿里巴巴

Gemma 7B

70.0

64.3

/

41.7

46.4

24.3

55.1

/

Google Research

Gemma 2B

20.0

42.3

/

24.2

17.7

11.8

35.2

/

Google Research

Gemma 2B - It

20.0

42.3

/

24.2

17.7

11.8

35.2

/

Google Research
模型名称
GPT-3
MMLU评分
53.9
C-Eval评分
0.0
AGI Eval评分
0.0
GSM8K评分
0.0
模型名称
OPT
MMLU评分
25.2
C-Eval评分
25.0
AGI Eval评分
24.2
GSM8K评分
0.0
模型名称
PaLM
MMLU评分
69.3
C-Eval评分
0.0
AGI Eval评分
0.0
GSM8K评分
56.5
模型名称
GPT-3.5
MMLU评分
70.0
C-Eval评分
54.4
AGI Eval评分
0.0
GSM8K评分
57.1
模型名称
ChatGLM-6B
MMLU评分
36.9
C-Eval评分
38.9
AGI Eval评分
0.0
GSM8K评分
4.82
模型名称
GLM-130B
MMLU评分
44.8
C-Eval评分
44.0
AGI Eval评分
0.0
GSM8K评分
0.0
模型名称
GPT-4
MMLU评分
86.4
C-Eval评分
68.7
AGI Eval评分
0.0
GSM8K评分
87.1
模型名称
Pythia
MMLU评分
25.1
C-Eval评分
26.2
AGI Eval评分
25.3
GSM8K评分
0.0
模型名称
MOSS
MMLU评分
27.4
C-Eval评分
33.13
AGI Eval评分
26.8
GSM8K评分
0.0
模型名称
PaLM 2
MMLU评分
78.3
C-Eval评分
0.0
AGI Eval评分
0.0
GSM8K评分
80.7
模型名称
CPM-Bee
MMLU评分
0.0
C-Eval评分
54.1
AGI Eval评分
0.0
GSM8K评分
0.0
模型名称
InternLM Chat 7B 8K
MMLU评分
50.8
C-Eval评分
53.2
AGI Eval评分
42.5
GSM8K评分
31.2
模型名称
Aquila-7B
MMLU评分
0.0
C-Eval评分
25.5
AGI Eval评分
25.58
GSM8K评分
0.0
模型名称
Baichuan 7B
MMLU评分
42.3
C-Eval评分
42.8
AGI Eval评分
34.44
GSM8K评分
9.7
模型名称
OpenLLaMA 13B
MMLU评分
42.4
C-Eval评分
24.7
AGI Eval评分
24.0
GSM8K评分
0.0
模型名称
ChatGLM2-6B
MMLU评分
47.86
C-Eval评分
51.7
AGI Eval评分
0.0
GSM8K评分
32.37
模型名称
Qwen-7B
MMLU评分
56.7
C-Eval评分
59.6
AGI Eval评分
0.0
GSM8K评分
51.6
模型名称
XVERSE-13B
MMLU评分
55.1
C-Eval评分
54.7
AGI Eval评分
41.4
GSM8K评分
0.0
模型名称
Baichuan 13B - Base
MMLU评分
51.62
C-Eval评分
52.4
AGI Eval评分
0.0
GSM8K评分
26.6
模型名称
Baichuan 13B - Chat
MMLU评分
52.1
C-Eval评分
51.5
AGI Eval评分
0.0
GSM8K评分
26.6
模型名称
LLaMA 7B
MMLU评分
35.1
C-Eval评分
27.1
AGI Eval评分
23.9
GSM8K评分
11.0
模型名称
LLaMA 13B
MMLU评分
46.94
C-Eval评分
0.0
AGI Eval评分
33.9
GSM8K评分
17.8
模型名称
LLaMA 33B
MMLU评分
57.8
C-Eval评分
0.0
AGI Eval评分
41.7
GSM8K评分
35.6
模型名称
LLaMA 65B
MMLU评分
63.4
C-Eval评分
38.8
AGI Eval评分
47.6
GSM8K评分
50.9
模型名称
LLaMA2 70B
MMLU评分
68.9
C-Eval评分
0.0
AGI Eval评分
54.2
GSM8K评分
56.8
模型名称
LLaMA2 34B
MMLU评分
62.6
C-Eval评分
0.0
AGI Eval评分
43.4
GSM8K评分
42.2
模型名称
LLaMA2 13B
MMLU评分
54.84
C-Eval评分
0.0
AGI Eval评分
39.1
GSM8K评分
28.7
模型名称
LLaMA2 7B
MMLU评分
45.3
C-Eval评分
0.0
AGI Eval评分
29.3
GSM8K评分
14.6
模型名称
Ziya-LLaMA-13B-Pretrain-v1
MMLU评分
43.9
C-Eval评分
30.2
AGI Eval评分
27.2
GSM8K评分
0.0
模型名称
ChatGLM2 12B
MMLU评分
56.18
C-Eval评分
61.6
AGI Eval评分
0.0
GSM8K评分
40.94
模型名称
XVERSE-13B-Chat
MMLU评分
60.2
C-Eval评分
53.1
AGI Eval评分
48.3
GSM8K评分
0.0
模型名称
InternLM 7B
MMLU评分
51.0
C-Eval评分
53.4
AGI Eval评分
37.6
GSM8K评分
31.2
模型名称
Baichuan2-7B-Base
MMLU评分
54.16
C-Eval评分
54.0
AGI Eval评分
42.73
GSM8K评分
24.49
模型名称
Baichuan2-13B-Base
MMLU评分
59.17
C-Eval评分
58.1
AGI Eval评分
48.17
GSM8K评分
52.77
模型名称
Qwen-14B
MMLU评分
66.3
C-Eval评分
72.1
AGI Eval评分
0.0
GSM8K评分
61.3
模型名称
Mistral 7B
MMLU评分
60.1
C-Eval评分
0.0
AGI Eval评分
43.0
GSM8K评分
52.1
模型名称
ChatGLM3-6B-Base
MMLU评分
61.4
C-Eval评分
69.0
AGI Eval评分
53.7
GSM8K评分
72.3
模型名称
Grok-1
MMLU评分
73.0
C-Eval评分
0.0
AGI Eval评分
0.0
GSM8K评分
62.9
模型名称
Grok-0
MMLU评分
65.7
C-Eval评分
0.0
AGI Eval评分
0.0
GSM8K评分
56.8
模型名称
XVERSE-65B
MMLU评分
70.8
C-Eval评分
0.0
AGI Eval评分
61.8
GSM8K评分
60.3
模型名称
Aquila2-34B
MMLU评分
67.79
C-Eval评分
63.07
AGI Eval评分
0.0
GSM8K评分
58.4
模型名称
Yi-6B
MMLU评分
63.2
C-Eval评分
72.0
AGI Eval评分
0.0
GSM8K评分
0.0
模型名称
Yi-6B-200K
MMLU评分
64.0
C-Eval评分
73.5
AGI Eval评分
0.0
GSM8K评分
0.0
模型名称
Yi-34B
MMLU评分
76.3
C-Eval评分
81.4
AGI Eval评分
0.0
GSM8K评分
0.0
模型名称
Yi-34B-200K
MMLU评分
76.1
C-Eval评分
81.9
AGI Eval评分
0.0
GSM8K评分
0.0
模型名称
Qwen-72B
MMLU评分
77.4
C-Eval评分
83.3
AGI Eval评分
62.5
GSM8K评分
78.9
模型名称
Qwen-1.8B
MMLU评分
45.3
C-Eval评分
0.0
AGI Eval评分
0.0
GSM8K评分
32.3
模型名称
Gemini-ultra
MMLU评分
83.7
C-Eval评分
0.0
AGI Eval评分
0.0
GSM8K评分
88.9
模型名称
Gemini-pro
MMLU评分
79.13
C-Eval评分
0.0
AGI Eval评分
0.0
GSM8K评分
86.5
模型名称
Mistral-7B-MoE
MMLU评分
70.6
C-Eval评分
0.0
AGI Eval评分
0.0
GSM8K评分
74.4
模型名称
Phi-2
MMLU评分
56.7
C-Eval评分
0.0
AGI Eval评分
0.0
GSM8K评分
61.1
模型名称
Phi-1
MMLU评分
0.0
C-Eval评分
0.0
AGI Eval评分
0.0
GSM8K评分
0.0
模型名称
Phi-1.5
MMLU评分
37.6
C-Eval评分
0.0
AGI Eval评分
0.0
GSM8K评分
40.2
模型名称
DeciLM-7B
MMLU评分
59.76
C-Eval评分
0.0
AGI Eval评分
0.0
GSM8K评分
47.38
模型名称
YAYI2-30B
MMLU评分
80.5
C-Eval评分
80.9
AGI Eval评分
62.0
GSM8K评分
71.2
模型名称
TinyLlama
MMLU评分
24.3
C-Eval评分
25.02
AGI Eval评分
0.0
GSM8K评分
2.27
模型名称
Gemini 1.5 Pro
MMLU评分
81.9
C-Eval评分
0.0
AGI Eval评分
0.0
GSM8K评分
91.7
模型名称
Qwen1.5-72B-Chat
MMLU评分
77.5
C-Eval评分
84.1
AGI Eval评分
0.0
GSM8K评分
79.5
模型名称
Gemma 7B
MMLU评分
64.3
C-Eval评分
0.0
AGI Eval评分
41.7
GSM8K评分
46.4
模型名称
Gemma 2B
MMLU评分
42.3
C-Eval评分
0.0
AGI Eval评分
24.2
GSM8K评分
17.7
模型名称
Gemma 2B - It
MMLU评分
42.3
C-Eval评分
0.0
AGI Eval评分
24.2
GSM8K评分
17.7

数据说明:所有数据来源于论文或者GitHub上的评测结果,以官方论文为主,部分数据来源第三方评测!