大模型编程能力评测排行榜
本页面提供当前主流大模型在代码能力上的评测结果,包括HumanEval和MBPP等基准数据集。
榜首模型
DeepSeek V2.5
最高得分
-
模型数量
139
数据版本
-
数据来源: 论文或GitHub评测结果
排名总表
| 模型名称 | 参数大小 | HumanEval Pass@1 | MBPP Pass@1 | 发布者 | 开源情况 |
|---|---|---|---|---|---|
DeepSeek V2.5DeepSeek-AI | 2,360 | 89.00 | — | DeepSeek-AI | — |
DeepSeek-V3DeepSeek-AI | 6,810 | 82.60 | — | DeepSeek-AI | — |
DeepSeek Coder-33B InstructDeepSeek-AI | 330 | 79.30 | 70.00 | DeepSeek-AI | — |
DeepSeek-V2-236B-ChatDeepSeek-AI | 2,360 | 73.80 | 61.40 | DeepSeek-AI | — |
DeepSeek Coder-6.7B InstructDeepSeek-AI | 67 | 66.10 | 65.40 | DeepSeek-AI | — |
DeepSeek-V3-BaseDeepSeek-AI | 6,810 | 65.20 | 75.40 | DeepSeek-AI | — |
Moonlight-16B-A3B-InstructMoonshot AI | 160 | 48.10 | 63.80 | Moonshot AI | — |
DeepSeek-V2-236BDeepSeek-AI | 2,360 | 40.90 | 66.60 | DeepSeek-AI | — |
数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。

