大模型编程能力评测排行榜
本页面提供当前主流大模型在代码能力上的评测结果,包括HumanEval和MBPP等基准数据集。
榜首模型
Phi 4 - 14B
最高得分
-
模型数量
17
数据版本
-
数据来源: 论文或GitHub评测结果
排名总表
| 模型名称 | 参数大小 | HumanEval Pass@1 | MBPP Pass@1 | 发布者 | 开源情况 |
|---|---|---|---|---|---|
Phi 4 - 14BMicrosoft Azure | 140 | 82.60 | — | Microsoft Azure | 不可商用 |
WizardCoder-Python-13B-V1.0WizardLM Team | 130 | 64.00 | 54.60 | WizardLM Team | — |
PanGu-Coder2华为 | 150 | 61.64 | — | 华为 | 闭源 |
WizardCoder-15B-V1.0WizardLM Team | 150 | 57.30 | — | WizardLM Team | — |
Qwen2.5-14B阿里巴巴 | 140 | 56.70 | 76.70 | 阿里巴巴 | — |
Moonlight-16B-A3B-InstructMoonshot AI | 160 | 48.10 | 63.80 | Moonshot AI | — |
CodeLLaMA-Python-13BFacebook AI研究实验室 | 130 | 43.30 | 49.00 | Facebook AI研究实验室 | — |
CodeLLaMA-Instruct-13BFacebook AI研究实验室 | 130 | 42.70 | 49.40 | Facebook AI研究实验室 | — |
WizardLM-30B-V1WizardLM Team | 300 | 37.80 | — | WizardLM Team | 不可商用 |
CodeLLaMA-13BFacebook AI研究实验室 | 130 | 36.00 | 47.00 | Facebook AI研究实验室 | — |
StarCoderBigCode | 155 | 33.60 | 52.70 | BigCode | — |
Qwen-14B阿里巴巴 | 140 | 32.30 | 40.80 | 阿里巴巴 | — |
StarCodeBaseBigCode | 155 | 30.40 | 49.00 | BigCode | — |
CodeGeeX智谱AI | 130 | 22.90 | — | 智谱AI | 闭源 |
LLaMA2 13BFacebook AI研究实验室 | 130 | 20.10 | 27.60 | Facebook AI研究实验室 | — |
Baichuan2-13B-Base百川智能 | 130 | 17.07 | 30.20 | 百川智能 | — |
Baichuan 13B - Base百川智能 | 130 | 11.59 | 22.90 | 百川智能 | — |
数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。








