大模型编程能力评测对比表

模型名称 参数大小 HumanEval Pass@1 HumanEval Pass@10 HumanEval Pass@100 MBPP Pass@1 MBPP Pass@10 MBPP Pass@100 发布者 开源情况 模型地址

PaLM2-S

0.0

37.6

/

88.4

50.0

/

/

Google Research PaLM2-S模型地址

LLaMA2 7B

70.0

12.2

25.2

44.4

20.8

41.8

/

Facebook AI研究实验室 LLaMA2 7B模型地址

CodeLLaMA-7B

70.0

33.5

59.6

85.9

41.4

66.7

/

Facebook AI研究实验室 CodeLLaMA-7B模型地址

CodeLLaMA-Python-7B

70.0

38.4

70.3

90.6

47.6

70.3

/

Facebook AI研究实验室 CodeLLaMA-Python-7B模型地址

CodeLLaMA-Instruct-7B

70.0

34.8

64.3

88.1

44.4

65.4

/

Facebook AI研究实验室 CodeLLaMA-Instruct-7B模型地址

CodeGeeX2-6B

60.0

35.9

62.6

88.3

/

/

/

智谱AI CodeGeeX2-6B模型地址

WizardCoder-3B-V1.0

30.0

34.8

/

/

37.4

/

/

WizardLM Team WizardCoder-3B-V1.0模型地址

WizardCoder-1B-V1.0

10.0

23.8

/

/

28.6

/

/

WizardLM Team WizardCoder-1B-V1.0模型地址

AquilaCode-7B-multi

70.0

22.0

/

/

/

/

/

北京智源人工智能研究院 AquilaCode-7B-multi模型地址

AquilaCode-7B-py

70.0

28.8

/

/

/

/

/

北京智源人工智能研究院 AquilaCode-7B-py模型地址

Baichuan 7B

70.0

9.2

/

/

6.6

/

/

百川智能 Baichuan 7B模型地址

Baichuan2-7B-Base

70.0

18.29

/

/

24.2

/

/

百川智能 Baichuan2-7B-Base模型地址

Qwen-7B

70.0

29.9

/

/

31.6

/

/

阿里巴巴 Qwen-7B模型地址

Qwen-1.8B

18.0

15.2

/

/

/

/

/

阿里巴巴 Qwen-1.8B模型地址

Mistral 7B

73.0

30.5

/

/

47.5

/

/

MistralAI Mistral 7B模型地址
模型名称
PaLM2-S
HumanEval Pass@1
37.6
HumanEval Pass@10
0.0
HumanEval Pass@100
88.4
MBPP Pass@1
50.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
LLaMA2 7B
HumanEval Pass@1
12.2
HumanEval Pass@10
25.2
HumanEval Pass@100
44.4
MBPP Pass@1
20.8
MBPP Pass@10
41.8
MBPP Pass@100
0.0
模型名称
CodeLLaMA-7B
HumanEval Pass@1
33.5
HumanEval Pass@10
59.6
HumanEval Pass@100
85.9
MBPP Pass@1
41.4
MBPP Pass@10
66.7
MBPP Pass@100
0.0
模型名称
CodeLLaMA-Python-7B
HumanEval Pass@1
38.4
HumanEval Pass@10
70.3
HumanEval Pass@100
90.6
MBPP Pass@1
47.6
MBPP Pass@10
70.3
MBPP Pass@100
0.0
模型名称
CodeLLaMA-Instruct-7B
HumanEval Pass@1
34.8
HumanEval Pass@10
64.3
HumanEval Pass@100
88.1
MBPP Pass@1
44.4
MBPP Pass@10
65.4
MBPP Pass@100
0.0
模型名称
CodeGeeX2-6B
HumanEval Pass@1
35.9
HumanEval Pass@10
62.6
HumanEval Pass@100
88.3
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
WizardCoder-3B-V1.0
HumanEval Pass@1
34.8
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
37.4
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
WizardCoder-1B-V1.0
HumanEval Pass@1
23.8
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
28.6
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
AquilaCode-7B-multi
HumanEval Pass@1
22.0
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
AquilaCode-7B-py
HumanEval Pass@1
28.8
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
Baichuan 7B
HumanEval Pass@1
9.2
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
6.6
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
Baichuan2-7B-Base
HumanEval Pass@1
18.29
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
24.2
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
Qwen-7B
HumanEval Pass@1
29.9
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
31.6
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
Qwen-1.8B
HumanEval Pass@1
15.2
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
Mistral 7B
HumanEval Pass@1
30.5
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
47.5
MBPP Pass@10
0.0
MBPP Pass@100
0.0

数据说明:所有数据来源于论文或者GitHub上的评测结果,以官方论文为主,部分数据来源第三方评测!