大模型编程能力评测对比表

模型名称 参数大小 HumanEval Pass@1 HumanEval Pass@10 HumanEval Pass@100 MBPP Pass@1 MBPP Pass@10 MBPP Pass@100 发布者 开源情况 模型地址

LLaMA2 34B

340.0

22.6

47.0

79.5

33.8

56.9

/

Facebook AI研究实验室 LLaMA2 34B模型地址

CodeLLaMA-34B

340.0

48.8

76.8

93.0

55.0

76.2

/

Facebook AI研究实验室 CodeLLaMA-34B模型地址

CodeLLaMA-Python-34B

340.0

53.7

82.8

94.7

56.2

76.4

/

Facebook AI研究实验室 CodeLLaMA-Python-34B模型地址

CodeLLaMA-Instruct-34B

340.0

41.5

77.2

93.5

57.0

74.6

/

Facebook AI研究实验室 CodeLLaMA-Instruct-34B模型地址

WizardCoder-Python-34B

340.0

73.2

/

/

/

/

/

WizardLM Team WizardCoder-Python-34B模型地址

Aquila2-34B

340.0

35.4

/

/

/

/

/

北京智源人工智能研究院 Aquila2-34B模型地址

Phind-CodeLlama-34B-Python-v1

340.0

69.5

/

/

/

/

/

Phind Phind-CodeLlama-34B-Python-v1模型地址

Phind-CodeLlama-34B-v1

340.0

67.6

/

/

/

/

/

Phind Phind-CodeLlama-34B-v1模型地址

Grok-0

330.0

39.7

/

/

/

/

/

xAI Grok-0模型地址

Grok-1

330.0

63.2

/

/

/

/

/

xAI Grok-1模型地址
模型名称
LLaMA2 34B
HumanEval Pass@1
22.6
HumanEval Pass@10
47.0
HumanEval Pass@100
79.5
MBPP Pass@1
33.8
MBPP Pass@10
56.9
MBPP Pass@100
0.0
模型名称
CodeLLaMA-34B
HumanEval Pass@1
48.8
HumanEval Pass@10
76.8
HumanEval Pass@100
93.0
MBPP Pass@1
55.0
MBPP Pass@10
76.2
MBPP Pass@100
0.0
模型名称
CodeLLaMA-Python-34B
HumanEval Pass@1
53.7
HumanEval Pass@10
82.8
HumanEval Pass@100
94.7
MBPP Pass@1
56.2
MBPP Pass@10
76.4
MBPP Pass@100
0.0
模型名称
CodeLLaMA-Instruct-34B
HumanEval Pass@1
41.5
HumanEval Pass@10
77.2
HumanEval Pass@100
93.5
MBPP Pass@1
57.0
MBPP Pass@10
74.6
MBPP Pass@100
0.0
模型名称
WizardCoder-Python-34B
HumanEval Pass@1
73.2
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
Aquila2-34B
HumanEval Pass@1
35.4
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
Phind-CodeLlama-34B-Python-v1
HumanEval Pass@1
69.5
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
Phind-CodeLlama-34B-v1
HumanEval Pass@1
67.6
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
Grok-0
HumanEval Pass@1
39.7
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
Grok-1
HumanEval Pass@1
63.2
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0

数据说明:所有数据来源于论文或者GitHub上的评测结果,以官方论文为主,部分数据来源第三方评测!