大模型编程能力评测对比表

模型名称 参数大小 HumanEval Pass@1 HumanEval Pass@10 HumanEval Pass@100 MBPP Pass@1 MBPP Pass@10 MBPP Pass@100 发布者 开源情况 模型地址

GPT-3.5

1750

48.1

/

/

52.2

/

/

OpenAI GPT-3.5模型地址

GPT-4

1750

82.0

/

/

/

/

/

OpenAI GPT-4模型地址

PaLM

5400

26.2

/

88.4

47.0

/

/

Google Research PaLM模型地址

PaLM-Coder

5400

35.9

/

88.4

47.0

/

/

Google Research PaLM-Coder模型地址

PaLM2-S

0

37.6

/

88.4

50.0

/

/

Google Research PaLM2-S模型地址

StarCodeBase

155

30.4

/

/

49.0

/

/

BigCode StarCodeBase模型地址

StarCoder

155

33.6

/

/

52.7

/

/

BigCode StarCoder模型地址

LLaMA2 7B

70

12.2

25.2

44.4

20.8

41.8

/

Facebook AI研究实验室 LLaMA2 7B模型地址

LLaMA2 13B

130

20.1

34.8

61.2

27.6

48.1

/

Facebook AI研究实验室 LLaMA2 13B模型地址

LLaMA2 34B

340

22.6

47.0

79.5

33.8

56.9

/

Facebook AI研究实验室 LLaMA2 34B模型地址

LLaMA2 70B

700

30.5

59.4

87.0

45.4

66.2

/

Facebook AI研究实验室 LLaMA2 70B模型地址

CodeLLaMA-7B

70

33.5

59.6

85.9

41.4

66.7

/

Facebook AI研究实验室 CodeLLaMA-7B模型地址

CodeLLaMA-13B

130

36.0

69.4

89.8

47.0

71.7

/

Facebook AI研究实验室 CodeLLaMA-13B模型地址

CodeLLaMA-34B

340

48.8

76.8

93.0

55.0

76.2

/

Facebook AI研究实验室 CodeLLaMA-34B模型地址

CodeLLaMA-Python-7B

70

38.4

70.3

90.6

47.6

70.3

/

Facebook AI研究实验室 CodeLLaMA-Python-7B模型地址

CodeLLaMA-Python-13B

130

43.3

77.4

94.1

49.0

74.0

/

Facebook AI研究实验室 CodeLLaMA-Python-13B模型地址

CodeLLaMA-Python-34B

340

53.7

82.8

94.7

56.2

76.4

/

Facebook AI研究实验室 CodeLLaMA-Python-34B模型地址

CodeLLaMA-Instruct-7B

70

34.8

64.3

88.1

44.4

65.4

/

Facebook AI研究实验室 CodeLLaMA-Instruct-7B模型地址

CodeLLaMA-Instruct-13B

130

42.7

71.6

91.6

49.4

71.2

/

Facebook AI研究实验室 CodeLLaMA-Instruct-13B模型地址

CodeLLaMA-Instruct-34B

340

41.5

77.2

93.5

57.0

74.6

/

Facebook AI研究实验室 CodeLLaMA-Instruct-34B模型地址

CodeGeeX

130

22.9

39.57

60.92

/

/

/

清华大学 CodeGeeX模型地址

CodeGeeX2-6B

60

35.9

62.6

88.3

/

/

/

清华大学 CodeGeeX2-6B模型地址

WizardLM-30B-V1

300

37.8

/

/

/

/

/

WizardLM Team WizardLM-30B-V1模型地址

WizardCoder-15B-V1.0

150

57.3

73.32

90.46

/

/

/

WizardLM Team WizardCoder-15B-V1.0模型地址

WizardCoder-3B-V1.0

30

34.8

/

/

37.4

/

/

WizardLM Team WizardCoder-3B-V1.0模型地址

WizardCoder-1B-V1.0

10

23.8

/

/

28.6

/

/

WizardLM Team WizardCoder-1B-V1.0模型地址

WizardCoder-Python-34B

340

73.2

/

/

/

/

/

WizardLM Team WizardCoder-Python-34B模型地址

WizardCoder-Python-13B-V1.0

130

64.0

/

/

54.6

/

/

WizardLM Team WizardCoder-Python-13B-V1.0模型地址

PanGu-Coder2

150

61.64

79.55

91.76

/

/

/

华为 PanGu-Coder2模型地址

Codex

1750

28.81

46.81

72.31

/

/

/

OpenAI Codex模型地址

AquilaCode-7B-multi

70

22.0

/

/

/

/

/

北京智源人工智能研究院 AquilaCode-7B-multi模型地址

AquilaCode-7B-py

70

28.8

/

/

/

/

/

北京智源人工智能研究院 AquilaCode-7B-py模型地址

Phind-CodeLlama-34B-Python-v1

340

69.5

/

/

/

/

/

Phind Phind-CodeLlama-34B-Python-v1模型地址

Phind-CodeLlama-34B-v1

340

67.6

/

/

/

/

/

Phind Phind-CodeLlama-34B-v1模型地址

Baichuan 7B

70

9.2

/

/

6.6

/

/

Baichuan Intelligent Technology Baichuan 7B模型地址

Baichuan 13B - Base

130

11.59

/

/

22.9

/

/

Baichuan Intelligent Technology Baichuan 13B - Base模型地址

Baichuan2-7B-Base

70

18.29

/

/

24.2

/

/

Baichuan Intelligent Technology Baichuan2-7B-Base模型地址

Baichuan2-13B-Base

130

17.07

/

/

30.2

/

/

Baichuan Intelligent Technology Baichuan2-13B-Base模型地址
模型名称
GPT-3.5
HumanEval Pass@1
48.1
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
52.2
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
GPT-4
HumanEval Pass@1
82.0
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
PaLM
HumanEval Pass@1
26.2
HumanEval Pass@10
0.0
HumanEval Pass@100
88.4
MBPP Pass@1
47.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
PaLM-Coder
HumanEval Pass@1
35.9
HumanEval Pass@10
0.0
HumanEval Pass@100
88.4
MBPP Pass@1
47.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
PaLM2-S
HumanEval Pass@1
37.6
HumanEval Pass@10
0.0
HumanEval Pass@100
88.4
MBPP Pass@1
50.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
StarCodeBase
HumanEval Pass@1
30.4
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
49.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
StarCoder
HumanEval Pass@1
33.6
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
52.7
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
LLaMA2 7B
HumanEval Pass@1
12.2
HumanEval Pass@10
25.2
HumanEval Pass@100
44.4
MBPP Pass@1
20.8
MBPP Pass@10
41.8
MBPP Pass@100
0.0
模型名称
LLaMA2 13B
HumanEval Pass@1
20.1
HumanEval Pass@10
34.8
HumanEval Pass@100
61.2
MBPP Pass@1
27.6
MBPP Pass@10
48.1
MBPP Pass@100
0.0
模型名称
LLaMA2 34B
HumanEval Pass@1
22.6
HumanEval Pass@10
47.0
HumanEval Pass@100
79.5
MBPP Pass@1
33.8
MBPP Pass@10
56.9
MBPP Pass@100
0.0
模型名称
LLaMA2 70B
HumanEval Pass@1
30.5
HumanEval Pass@10
59.4
HumanEval Pass@100
87.0
MBPP Pass@1
45.4
MBPP Pass@10
66.2
MBPP Pass@100
0.0
模型名称
CodeLLaMA-7B
HumanEval Pass@1
33.5
HumanEval Pass@10
59.6
HumanEval Pass@100
85.9
MBPP Pass@1
41.4
MBPP Pass@10
66.7
MBPP Pass@100
0.0
模型名称
CodeLLaMA-13B
HumanEval Pass@1
36.0
HumanEval Pass@10
69.4
HumanEval Pass@100
89.8
MBPP Pass@1
47.0
MBPP Pass@10
71.7
MBPP Pass@100
0.0
模型名称
CodeLLaMA-34B
HumanEval Pass@1
48.8
HumanEval Pass@10
76.8
HumanEval Pass@100
93.0
MBPP Pass@1
55.0
MBPP Pass@10
76.2
MBPP Pass@100
0.0
模型名称
CodeLLaMA-Python-7B
HumanEval Pass@1
38.4
HumanEval Pass@10
70.3
HumanEval Pass@100
90.6
MBPP Pass@1
47.6
MBPP Pass@10
70.3
MBPP Pass@100
0.0
模型名称
CodeLLaMA-Python-13B
HumanEval Pass@1
43.3
HumanEval Pass@10
77.4
HumanEval Pass@100
94.1
MBPP Pass@1
49.0
MBPP Pass@10
74.0
MBPP Pass@100
0.0
模型名称
CodeLLaMA-Python-34B
HumanEval Pass@1
53.7
HumanEval Pass@10
82.8
HumanEval Pass@100
94.7
MBPP Pass@1
56.2
MBPP Pass@10
76.4
MBPP Pass@100
0.0
模型名称
CodeLLaMA-Instruct-7B
HumanEval Pass@1
34.8
HumanEval Pass@10
64.3
HumanEval Pass@100
88.1
MBPP Pass@1
44.4
MBPP Pass@10
65.4
MBPP Pass@100
0.0
模型名称
CodeLLaMA-Instruct-13B
HumanEval Pass@1
42.7
HumanEval Pass@10
71.6
HumanEval Pass@100
91.6
MBPP Pass@1
49.4
MBPP Pass@10
71.2
MBPP Pass@100
0.0
模型名称
CodeLLaMA-Instruct-34B
HumanEval Pass@1
41.5
HumanEval Pass@10
77.2
HumanEval Pass@100
93.5
MBPP Pass@1
57.0
MBPP Pass@10
74.6
MBPP Pass@100
0.0
模型名称
CodeGeeX
HumanEval Pass@1
22.9
HumanEval Pass@10
39.57
HumanEval Pass@100
60.92
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
CodeGeeX2-6B
HumanEval Pass@1
35.9
HumanEval Pass@10
62.6
HumanEval Pass@100
88.3
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
WizardLM-30B-V1
HumanEval Pass@1
37.8
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
WizardCoder-15B-V1.0
HumanEval Pass@1
57.3
HumanEval Pass@10
73.32
HumanEval Pass@100
90.46
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
WizardCoder-3B-V1.0
HumanEval Pass@1
34.8
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
37.4
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
WizardCoder-1B-V1.0
HumanEval Pass@1
23.8
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
28.6
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
WizardCoder-Python-34B
HumanEval Pass@1
73.2
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
WizardCoder-Python-13B-V1.0
HumanEval Pass@1
64.0
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
54.6
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
PanGu-Coder2
HumanEval Pass@1
61.64
HumanEval Pass@10
79.55
HumanEval Pass@100
91.76
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
Codex
HumanEval Pass@1
28.81
HumanEval Pass@10
46.81
HumanEval Pass@100
72.31
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
AquilaCode-7B-multi
HumanEval Pass@1
22.0
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
AquilaCode-7B-py
HumanEval Pass@1
28.8
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
Phind-CodeLlama-34B-Python-v1
HumanEval Pass@1
69.5
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
Phind-CodeLlama-34B-v1
HumanEval Pass@1
67.6
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
Baichuan 7B
HumanEval Pass@1
9.2
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
6.6
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
Baichuan 13B - Base
HumanEval Pass@1
11.59
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
22.9
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
Baichuan2-7B-Base
HumanEval Pass@1
18.29
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
24.2
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
Baichuan2-13B-Base
HumanEval Pass@1
17.07
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
30.2
MBPP Pass@10
0.0
MBPP Pass@100
0.0

数据说明:所有数据来源于论文或者GitHub上的评测结果,以官方论文为主,部分数据来源第三方评测!