大模型编程能力评测排行榜

Name: 大模型编程能力评测排行榜
Creator: DataLearner
License: https://creativecommons.org/licenses/by/4.0/

本页面提供当前主流大模型在代码能力上的评测结果，包括HumanEval和MBPP等基准数据集。

榜首模型

Phi 4 - 14B

最高得分

模型数量

数据版本

数据来源: 论文或GitHub评测结果

榜单历史快照月份:

排名总表

模型名称	参数大小	HumanEval Pass@1	MBPP Pass@1	发布者	开源情况
Phi 4 - 14BMicrosoft Azure	140	82.60	—	Microsoft Azure	不可商用
WizardCoder-Python-13B-V1.0WizardLM Team	130	64.00	54.60	WizardLM Team	—
PanGu-Coder2华为	150	61.64	—	华为	闭源
WizardCoder-15B-V1.0WizardLM Team	150	57.30	—	WizardLM Team	—
Qwen2.5-14B阿里巴巴	140	56.70	76.70	阿里巴巴	—
Moonlight-16B-A3B-InstructMoonshot AI	160	48.10	63.80	Moonshot AI	—
CodeLLaMA-Python-13BFacebook AI研究实验室	130	43.30	49.00	Facebook AI研究实验室	—
CodeLLaMA-Instruct-13BFacebook AI研究实验室	130	42.70	49.40	Facebook AI研究实验室	—
WizardLM-30B-V1WizardLM Team	300	37.80	—	WizardLM Team	不可商用
CodeLLaMA-13BFacebook AI研究实验室	130	36.00	47.00	Facebook AI研究实验室	—
StarCoderBigCode	155	33.60	52.70	BigCode	—
Qwen-14B阿里巴巴	140	32.30	40.80	阿里巴巴	—
StarCodeBaseBigCode	155	30.40	49.00	BigCode	—
CodeGeeX智谱AI	130	22.90	—	智谱AI	闭源
LLaMA2 13BFacebook AI研究实验室	130	20.10	27.60	Facebook AI研究实验室	—
Baichuan2-13B-Base百川智能	130	17.07	30.20	百川智能	—
Baichuan 13B - Base百川智能	130	11.59	22.90	百川智能	—

数据仅供参考，以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。