大模型编程能力评测排行榜
本页面提供当前主流大模型在代码能力上的评测结果,包括HumanEval和MBPP等基准数据集。
榜首模型
Phi-3-mini 3.8B
最高得分
-
模型数量
17
数据版本
-
数据来源: 论文或GitHub评测结果
排名总表
| 模型名称 | 参数大小 | HumanEval Pass@1 | MBPP Pass@1 | 发布者 | 开源情况 |
|---|---|---|---|---|---|
Phi-3-mini 3.8BMicrosoft Azure | 38 | 58.50 | 70.00 | Microsoft Azure | — |
Phi-1Microsoft Azure | 13 | 50.60 | 55.50 | Microsoft Azure | 不可商用 |
MiniCPM-2B-DPO面壁智能 | 24 | 50.00 | 47.31 | 面壁智能 | — |
Phi-2Microsoft Azure | 27 | 48.30 | 59.10 | Microsoft Azure | — |
Qwen2.5-3B阿里巴巴 | 30 | 42.10 | 57.10 | 阿里巴巴 | — |
Qwen2.5-1.5B阿里巴巴 | 15 | 37.20 | 60.20 | 阿里巴巴 | — |
Stable LM Zephyr 3BStability AI | 30 | 35.37 | 31.85 | Stability AI | 不可商用 |
Phi-1.5Microsoft Azure | 13 | 34.10 | 37.70 | Microsoft Azure | 不可商用 |
Qwen2-1.5B阿里巴巴 | 15 | 31.10 | 37.40 | 阿里巴巴 | — |
Qwen2.5-0.5B阿里巴巴 | 5 | 30.50 | 39.30 | 阿里巴巴 | — |
Gemma 2BGoogle Research | 20 | 22.00 | 29.20 | Google Research | — |
Gemma 2B - ItGoogle Research | 20 | 22.00 | 29.20 | Google Research | — |
CodeGemma-2BGoogle Research | 20 | 22.00 | 29.20 | Google Research | — |
Qwen2-0.5B阿里巴巴 | 4 | 22.00 | 22.00 | 阿里巴巴 | — |
RecurrentGemma-2BGoogle Research | 27 | 21.30 | 28.80 | Google Research | — |
Qwen-1.8B阿里巴巴 | 18 | 15.20 | — | 阿里巴巴 | — |
TinyLlama新加坡科技与设计大学 | 11 | 6.71 | 19.91 | 新加坡科技与设计大学 | — |
数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。





