大模型编程能力评测排行榜

本页面提供当前主流大模型在代码能力上的评测结果,包括HumanEval和MBPP等基准数据集。

榜首模型

Phi 4 - 14B

最高得分

-

模型数量

17

数据版本

-

数据来源: 论文或GitHub评测结果

榜单历史快照月份:

排名总表

模型名称参数大小HumanEval Pass@1MBPP Pass@1发布者开源情况
Microsoft AzurePhi 4 - 14BMicrosoft Azure14082.60Microsoft Azure不可商用
WizardLM TeamWizardCoder-Python-13B-V1.0WizardLM Team13064.0054.60WizardLM Team
华为PanGu-Coder2华为15061.64华为闭源
WizardLM TeamWizardCoder-15B-V1.0WizardLM Team15057.30WizardLM Team
阿里巴巴Qwen2.5-14B阿里巴巴14056.7076.70阿里巴巴
Moonshot AIMoonlight-16B-A3B-InstructMoonshot AI16048.1063.80Moonshot AI
Facebook AI研究实验室CodeLLaMA-Python-13BFacebook AI研究实验室13043.3049.00Facebook AI研究实验室
Facebook AI研究实验室CodeLLaMA-Instruct-13BFacebook AI研究实验室13042.7049.40Facebook AI研究实验室
WizardLM TeamWizardLM-30B-V1WizardLM Team30037.80WizardLM Team不可商用
Facebook AI研究实验室CodeLLaMA-13BFacebook AI研究实验室13036.0047.00Facebook AI研究实验室
BigCodeStarCoderBigCode15533.6052.70BigCode
阿里巴巴Qwen-14B阿里巴巴14032.3040.80阿里巴巴
BigCodeStarCodeBaseBigCode15530.4049.00BigCode
智谱AICodeGeeX智谱AI13022.90智谱AI闭源
Facebook AI研究实验室LLaMA2 13BFacebook AI研究实验室13020.1027.60Facebook AI研究实验室
百川智能Baichuan2-13B-Base百川智能13017.0730.20百川智能
百川智能Baichuan 13B - Base百川智能13011.5922.90百川智能

数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。