大模型编程能力评测对比表

模型名称 参数大小 HumanEval Pass@1 HumanEval Pass@10 HumanEval Pass@100 MBPP Pass@1 MBPP Pass@10 MBPP Pass@100 发布者 开源情况 模型地址

StarCodeBase

155.0

30.4

/

/

49.0

/

/

BigCode StarCodeBase模型地址

StarCoder

155.0

33.6

/

/

52.7

/

/

BigCode StarCoder模型地址

LLaMA2 13B

130.0

20.1

34.8

61.2

27.6

48.1

/

Facebook AI研究实验室 LLaMA2 13B模型地址

CodeLLaMA-13B

130.0

36.0

69.4

89.8

47.0

71.7

/

Facebook AI研究实验室 CodeLLaMA-13B模型地址

CodeLLaMA-Python-13B

130.0

43.3

77.4

94.1

49.0

74.0

/

Facebook AI研究实验室 CodeLLaMA-Python-13B模型地址

CodeLLaMA-Instruct-13B

130.0

42.7

71.6

91.6

49.4

71.2

/

Facebook AI研究实验室 CodeLLaMA-Instruct-13B模型地址

CodeGeeX

130.0

22.9

39.57

60.92

/

/

/

智谱AI CodeGeeX模型地址

WizardLM-30B-V1

300.0

37.8

/

/

/

/

/

WizardLM Team WizardLM-30B-V1模型地址

WizardCoder-15B-V1.0

150.0

57.3

73.32

90.46

/

/

/

WizardLM Team WizardCoder-15B-V1.0模型地址

WizardCoder-Python-13B-V1.0

130.0

64.0

/

/

54.6

/

/

WizardLM Team WizardCoder-Python-13B-V1.0模型地址

PanGu-Coder2

150.0

61.64

79.55

91.76

/

/

/

华为 PanGu-Coder2模型地址

Baichuan 13B - Base

130.0

11.59

/

/

22.9

/

/

百川智能 Baichuan 13B - Base模型地址

Baichuan2-13B-Base

130.0

17.07

/

/

30.2

/

/

百川智能 Baichuan2-13B-Base模型地址

Qwen-14B

140.0

32.3

/

/

40.8

/

/

阿里巴巴 Qwen-14B模型地址
模型名称
StarCodeBase
HumanEval Pass@1
30.4
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
49.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
StarCoder
HumanEval Pass@1
33.6
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
52.7
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
LLaMA2 13B
HumanEval Pass@1
20.1
HumanEval Pass@10
34.8
HumanEval Pass@100
61.2
MBPP Pass@1
27.6
MBPP Pass@10
48.1
MBPP Pass@100
0.0
模型名称
CodeLLaMA-13B
HumanEval Pass@1
36.0
HumanEval Pass@10
69.4
HumanEval Pass@100
89.8
MBPP Pass@1
47.0
MBPP Pass@10
71.7
MBPP Pass@100
0.0
模型名称
CodeLLaMA-Python-13B
HumanEval Pass@1
43.3
HumanEval Pass@10
77.4
HumanEval Pass@100
94.1
MBPP Pass@1
49.0
MBPP Pass@10
74.0
MBPP Pass@100
0.0
模型名称
CodeLLaMA-Instruct-13B
HumanEval Pass@1
42.7
HumanEval Pass@10
71.6
HumanEval Pass@100
91.6
MBPP Pass@1
49.4
MBPP Pass@10
71.2
MBPP Pass@100
0.0
模型名称
CodeGeeX
HumanEval Pass@1
22.9
HumanEval Pass@10
39.57
HumanEval Pass@100
60.92
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
WizardLM-30B-V1
HumanEval Pass@1
37.8
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
WizardCoder-15B-V1.0
HumanEval Pass@1
57.3
HumanEval Pass@10
73.32
HumanEval Pass@100
90.46
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
WizardCoder-Python-13B-V1.0
HumanEval Pass@1
64.0
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
54.6
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
PanGu-Coder2
HumanEval Pass@1
61.64
HumanEval Pass@10
79.55
HumanEval Pass@100
91.76
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
Baichuan 13B - Base
HumanEval Pass@1
11.59
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
22.9
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
Baichuan2-13B-Base
HumanEval Pass@1
17.07
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
30.2
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
Qwen-14B
HumanEval Pass@1
32.3
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
40.8
MBPP Pass@10
0.0
MBPP Pass@100
0.0

数据说明:所有数据来源于论文或者GitHub上的评测结果,以官方论文为主,部分数据来源第三方评测!