大模型编程能力评测对比表

模型名称 参数大小 HumanEval Pass@1 MBPP Pass@1 发布者 开源情况 模型地址

PaLM

5400.0

26.2

47.0

Google Research PaLM模型地址

GPT-3.5

1750.0

48.1

52.2

OpenAI GPT-3.5模型地址

GPT-4

1750.0

82.0

/

OpenAI GPT-4模型地址

CodeGeeX

130.0

22.9

/

智谱AI CodeGeeX模型地址

StarCoder

155.0

33.6

52.7

BigCode StarCoder模型地址

StarCodeBase

155.0

30.4

49.0

BigCode StarCodeBase模型地址

Baichuan 7B

70.0

9.2

6.6

百川智能 Baichuan 7B模型地址

AquilaCode-7B-multi

70.0

22.0

/

北京智源人工智能研究院 AquilaCode-7B-multi模型地址

AquilaCode-7B-py

70.0

28.8

/

北京智源人工智能研究院 AquilaCode-7B-py模型地址

CodeGeeX2-6B

60.0

35.9

/

智谱AI CodeGeeX2-6B模型地址

PanGu-Coder2

150.0

61.64

/

华为 PanGu-Coder2模型地址

Qwen-7B

70.0

29.9

31.6

阿里巴巴 Qwen-7B模型地址

WizardCoder-15B-V1.0

150.0

57.3

/

WizardLM Team WizardCoder-15B-V1.0模型地址

Baichuan 13B - Base

130.0

11.59

22.9

百川智能 Baichuan 13B - Base模型地址

LLaMA2 70B

700.0

30.5

45.4

Facebook AI研究实验室 LLaMA2 70B模型地址

LLaMA2 34B

340.0

22.6

33.8

Facebook AI研究实验室 LLaMA2 34B模型地址

LLaMA2 13B

130.0

20.1

27.6

Facebook AI研究实验室 LLaMA2 13B模型地址

LLaMA2 7B

70.0

12.2

20.8

Facebook AI研究实验室 LLaMA2 7B模型地址

CodeLLaMA-7B

70.0

33.5

41.4

Facebook AI研究实验室 CodeLLaMA-7B模型地址

CodeLLaMA-Python-7B

70.0

38.4

47.6

Facebook AI研究实验室 CodeLLaMA-Python-7B模型地址

CodeLLaMA-Instruct-7B

70.0

34.8

44.4

Facebook AI研究实验室 CodeLLaMA-Instruct-7B模型地址

CodeLLaMA-Instruct-13B

130.0

42.7

49.4

Facebook AI研究实验室 CodeLLaMA-Instruct-13B模型地址

CodeLLaMA-Instruct-34B

340.0

41.5

57.0

Facebook AI研究实验室 CodeLLaMA-Instruct-34B模型地址

CodeLLaMA-Python-34B

340.0

53.7

56.2

Facebook AI研究实验室 CodeLLaMA-Python-34B模型地址

CodeLLaMA-Python-13B

130.0

43.3

49.0

Facebook AI研究实验室 CodeLLaMA-Python-13B模型地址

CodeLLaMA-13B

130.0

36.0

47.0

Facebook AI研究实验室 CodeLLaMA-13B模型地址

CodeLLaMA-34B

340.0

48.8

55.0

Facebook AI研究实验室 CodeLLaMA-34B模型地址

WizardLM-30B-V1

300.0

37.8

/

WizardLM Team WizardLM-30B-V1模型地址

WizardCoder-Python-34B

340.0

73.2

/

WizardLM Team WizardCoder-Python-34B模型地址

Codex

1750.0

28.81

/

OpenAI Codex模型地址

PaLM-Coder

5400.0

35.9

47.0

Google Research PaLM-Coder模型地址

PaLM2-S

0.0

37.6

50.0

Google Research PaLM2-S模型地址

WizardCoder-Python-13B-V1.0

130.0

64.0

54.6

WizardLM Team WizardCoder-Python-13B-V1.0模型地址

WizardCoder-3B-V1.0

30.0

34.8

37.4

WizardLM Team WizardCoder-3B-V1.0模型地址

WizardCoder-1B-V1.0

10.0

23.8

28.6

WizardLM Team WizardCoder-1B-V1.0模型地址

Phind-CodeLlama-34B-Python-v1

340.0

69.5

/

Phind Phind-CodeLlama-34B-Python-v1模型地址

Phind-CodeLlama-34B-v1

340.0

67.6

/

Phind Phind-CodeLlama-34B-v1模型地址

Baichuan2-7B-Base

70.0

18.29

24.2

百川智能 Baichuan2-7B-Base模型地址

Baichuan2-13B-Base

130.0

17.07

30.2

百川智能 Baichuan2-13B-Base模型地址

Qwen-14B

140.0

32.3

40.8

阿里巴巴 Qwen-14B模型地址

Mistral 7B

73.0

30.5

47.5

MistralAI Mistral 7B模型地址

Grok-1

330.0

63.2

/

xAI Grok-1模型地址

Grok-0

330.0

39.7

/

xAI Grok-0模型地址

XVERSE-65B

650.0

26.8

/

元象XVERSE XVERSE-65B模型地址

Aquila2-34B

340.0

35.4

/

北京智源人工智能研究院 Aquila2-34B模型地址

Qwen-72B

720.0

35.4

52.2

阿里巴巴 Qwen-72B模型地址

Qwen-1.8B

18.0

15.2

/

阿里巴巴 Qwen-1.8B模型地址

Gemini-ultra

0.0

74.4

/

DeepMind Gemini-ultra模型地址

Gemini-pro

1000.0

67.7

/

DeepMind Gemini-pro模型地址

Mistral-7B-MoE

450.0

40.2

60.7

MistralAI Mistral-7B-MoE模型地址

Phi-2

27.0

48.3

59.1

Microsoft Phi-2模型地址

Phi-1

13.0

50.6

55.5

Microsoft Phi-1模型地址

Phi-1.5

13.0

34.1

37.7

Microsoft Phi-1.5模型地址

YAYI2-30B

300.0

53.1

45.8

中科闻歌 YAYI2-30B模型地址

TinyLlama

11.0

6.71

19.91

新加坡科技与设计大学 TinyLlama模型地址

Gemini 1.5 Pro

0.0

71.9

/

Google Deep Mind Gemini 1.5 Pro模型地址

Qwen1.5-72B-Chat

720.0

41.5

53.4

阿里巴巴 Qwen1.5-72B-Chat模型地址

Gemma 7B

70.0

32.3

44.4

Google Research Gemma 7B模型地址

Gemma 2B

20.0

22.0

29.2

Google Research Gemma 2B模型地址

Gemma 2B - It

20.0

22.0

29.2

Google Research Gemma 2B - It模型地址
模型名称
PaLM
HumanEval Pass@1
26.2
MBPP Pass@1
47.0
模型名称
GPT-3.5
HumanEval Pass@1
48.1
MBPP Pass@1
52.2
模型名称
GPT-4
HumanEval Pass@1
82.0
MBPP Pass@1
0.0
模型名称
CodeGeeX
HumanEval Pass@1
22.9
MBPP Pass@1
0.0
模型名称
StarCoder
HumanEval Pass@1
33.6
MBPP Pass@1
52.7
模型名称
StarCodeBase
HumanEval Pass@1
30.4
MBPP Pass@1
49.0
模型名称
Baichuan 7B
HumanEval Pass@1
9.2
MBPP Pass@1
6.6
模型名称
AquilaCode-7B-multi
HumanEval Pass@1
22.0
MBPP Pass@1
0.0
模型名称
AquilaCode-7B-py
HumanEval Pass@1
28.8
MBPP Pass@1
0.0
模型名称
CodeGeeX2-6B
HumanEval Pass@1
35.9
MBPP Pass@1
0.0
模型名称
PanGu-Coder2
HumanEval Pass@1
61.64
MBPP Pass@1
0.0
模型名称
Qwen-7B
HumanEval Pass@1
29.9
MBPP Pass@1
31.6
模型名称
WizardCoder-15B-V1.0
HumanEval Pass@1
57.3
MBPP Pass@1
0.0
模型名称
Baichuan 13B - Base
HumanEval Pass@1
11.59
MBPP Pass@1
22.9
模型名称
LLaMA2 70B
HumanEval Pass@1
30.5
MBPP Pass@1
45.4
模型名称
LLaMA2 34B
HumanEval Pass@1
22.6
MBPP Pass@1
33.8
模型名称
LLaMA2 13B
HumanEval Pass@1
20.1
MBPP Pass@1
27.6
模型名称
LLaMA2 7B
HumanEval Pass@1
12.2
MBPP Pass@1
20.8
模型名称
CodeLLaMA-7B
HumanEval Pass@1
33.5
MBPP Pass@1
41.4
模型名称
CodeLLaMA-Python-7B
HumanEval Pass@1
38.4
MBPP Pass@1
47.6
模型名称
CodeLLaMA-Instruct-7B
HumanEval Pass@1
34.8
MBPP Pass@1
44.4
模型名称
CodeLLaMA-Instruct-13B
HumanEval Pass@1
42.7
MBPP Pass@1
49.4
模型名称
CodeLLaMA-Instruct-34B
HumanEval Pass@1
41.5
MBPP Pass@1
57.0
模型名称
CodeLLaMA-Python-34B
HumanEval Pass@1
53.7
MBPP Pass@1
56.2
模型名称
CodeLLaMA-Python-13B
HumanEval Pass@1
43.3
MBPP Pass@1
49.0
模型名称
CodeLLaMA-13B
HumanEval Pass@1
36.0
MBPP Pass@1
47.0
模型名称
CodeLLaMA-34B
HumanEval Pass@1
48.8
MBPP Pass@1
55.0
模型名称
WizardLM-30B-V1
HumanEval Pass@1
37.8
MBPP Pass@1
0.0
模型名称
WizardCoder-Python-34B
HumanEval Pass@1
73.2
MBPP Pass@1
0.0
模型名称
Codex
HumanEval Pass@1
28.81
MBPP Pass@1
0.0
模型名称
PaLM-Coder
HumanEval Pass@1
35.9
MBPP Pass@1
47.0
模型名称
PaLM2-S
HumanEval Pass@1
37.6
MBPP Pass@1
50.0
模型名称
WizardCoder-Python-13B-V1.0
HumanEval Pass@1
64.0
MBPP Pass@1
54.6
模型名称
WizardCoder-3B-V1.0
HumanEval Pass@1
34.8
MBPP Pass@1
37.4
模型名称
WizardCoder-1B-V1.0
HumanEval Pass@1
23.8
MBPP Pass@1
28.6
模型名称
Phind-CodeLlama-34B-Python-v1
HumanEval Pass@1
69.5
MBPP Pass@1
0.0
模型名称
Phind-CodeLlama-34B-v1
HumanEval Pass@1
67.6
MBPP Pass@1
0.0
模型名称
Baichuan2-7B-Base
HumanEval Pass@1
18.29
MBPP Pass@1
24.2
模型名称
Baichuan2-13B-Base
HumanEval Pass@1
17.07
MBPP Pass@1
30.2
模型名称
Qwen-14B
HumanEval Pass@1
32.3
MBPP Pass@1
40.8
模型名称
Mistral 7B
HumanEval Pass@1
30.5
MBPP Pass@1
47.5
模型名称
Grok-1
HumanEval Pass@1
63.2
MBPP Pass@1
0.0
模型名称
Grok-0
HumanEval Pass@1
39.7
MBPP Pass@1
0.0
模型名称
XVERSE-65B
HumanEval Pass@1
26.8
MBPP Pass@1
0.0
模型名称
Aquila2-34B
HumanEval Pass@1
35.4
MBPP Pass@1
0.0
模型名称
Qwen-72B
HumanEval Pass@1
35.4
MBPP Pass@1
52.2
模型名称
Qwen-1.8B
HumanEval Pass@1
15.2
MBPP Pass@1
0.0
模型名称
Gemini-ultra
HumanEval Pass@1
74.4
MBPP Pass@1
0.0
模型名称
Gemini-pro
HumanEval Pass@1
67.7
MBPP Pass@1
0.0
模型名称
Mistral-7B-MoE
HumanEval Pass@1
40.2
MBPP Pass@1
60.7
模型名称
Phi-2
HumanEval Pass@1
48.3
MBPP Pass@1
59.1
模型名称
Phi-1
HumanEval Pass@1
50.6
MBPP Pass@1
55.5
模型名称
Phi-1.5
HumanEval Pass@1
34.1
MBPP Pass@1
37.7
模型名称
YAYI2-30B
HumanEval Pass@1
53.1
MBPP Pass@1
45.8
模型名称
TinyLlama
HumanEval Pass@1
6.71
MBPP Pass@1
19.91
模型名称
Gemini 1.5 Pro
HumanEval Pass@1
71.9
MBPP Pass@1
0.0
模型名称
Qwen1.5-72B-Chat
HumanEval Pass@1
41.5
MBPP Pass@1
53.4
模型名称
Gemma 7B
HumanEval Pass@1
32.3
MBPP Pass@1
44.4
模型名称
Gemma 2B
HumanEval Pass@1
22.0
MBPP Pass@1
29.2
模型名称
Gemma 2B - It
HumanEval Pass@1
22.0
MBPP Pass@1
29.2

数据说明:所有数据来源于论文或者GitHub上的评测结果,以官方论文为主,部分数据来源第三方评测!