大模型编程能力评测对比表

模型名称 参数大小 HumanEval Pass@1 HumanEval Pass@10 HumanEval Pass@100 MBPP Pass@1 MBPP Pass@10 MBPP Pass@100 发布者 开源情况 模型地址

GPT-3.5

1750.0

48.1

/

/

52.2

/

/

OpenAI GPT-3.5模型地址

GPT-4

1750.0

82.0

/

/

/

/

/

OpenAI GPT-4模型地址

PaLM

5400.0

26.2

/

88.4

47.0

/

/

Google Research PaLM模型地址

PaLM-Coder

5400.0

35.9

/

88.4

47.0

/

/

Google Research PaLM-Coder模型地址

Codex

1750.0

28.81

46.81

72.31

/

/

/

OpenAI Codex模型地址
模型名称
GPT-3.5
HumanEval Pass@1
48.1
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
52.2
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
GPT-4
HumanEval Pass@1
82.0
HumanEval Pass@10
0.0
HumanEval Pass@100
0.0
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
PaLM
HumanEval Pass@1
26.2
HumanEval Pass@10
0.0
HumanEval Pass@100
88.4
MBPP Pass@1
47.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
PaLM-Coder
HumanEval Pass@1
35.9
HumanEval Pass@10
0.0
HumanEval Pass@100
88.4
MBPP Pass@1
47.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0
模型名称
Codex
HumanEval Pass@1
28.81
HumanEval Pass@10
46.81
HumanEval Pass@100
72.31
MBPP Pass@1
0.0
MBPP Pass@10
0.0
MBPP Pass@100
0.0

数据说明:所有数据来源于论文或者GitHub上的评测结果,以官方论文为主,部分数据来源第三方评测!