大模型编程能力评测排行榜

本页面提供当前主流大模型在代码能力上的评测结果,包括HumanEval和MBPP等基准数据集。

榜首模型

Phi-3-mini 3.8B

最高得分

-

模型数量

17

数据版本

-

数据来源: 论文或GitHub评测结果

榜单历史快照月份:

排名总表

模型名称参数大小HumanEval Pass@1MBPP Pass@1发布者开源情况
Microsoft AzurePhi-3-mini 3.8BMicrosoft Azure3858.5070.00Microsoft Azure
Microsoft AzurePhi-1Microsoft Azure1350.6055.50Microsoft Azure不可商用
面壁智能MiniCPM-2B-DPO面壁智能2450.0047.31面壁智能
Microsoft Azure Phi-2Microsoft Azure2748.3059.10Microsoft Azure
阿里巴巴Qwen2.5-3B阿里巴巴3042.1057.10阿里巴巴
阿里巴巴Qwen2.5-1.5B阿里巴巴1537.2060.20阿里巴巴
Stability AIStable LM Zephyr 3BStability AI3035.3731.85Stability AI不可商用
Microsoft AzurePhi-1.5Microsoft Azure1334.1037.70Microsoft Azure不可商用
阿里巴巴Qwen2-1.5B阿里巴巴1531.1037.40阿里巴巴
阿里巴巴Qwen2.5-0.5B阿里巴巴530.5039.30阿里巴巴
Google ResearchGemma 2BGoogle Research2022.0029.20Google Research
Google ResearchGemma 2B - ItGoogle Research2022.0029.20Google Research
Google ResearchCodeGemma-2BGoogle Research2022.0029.20Google Research
阿里巴巴Qwen2-0.5B阿里巴巴422.0022.00阿里巴巴
Google ResearchRecurrentGemma-2BGoogle Research2721.3028.80Google Research
阿里巴巴Qwen-1.8B阿里巴巴1815.20阿里巴巴
新加坡科技与设计大学TinyLlama新加坡科技与设计大学116.7119.91新加坡科技与设计大学

数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。