大模型编程能力评测排行榜
本页面提供当前主流大模型在代码能力上的评测结果,包括HumanEval和MBPP等基准数据集。
榜首模型
Llama3.3-70B-Instruct
最高得分
-
模型数量
14
数据版本
-
数据来源: 论文或GitHub评测结果
排名总表
| 模型名称 | 参数大小 | HumanEval Pass@1 | MBPP Pass@1 | 发布者 | 开源情况 |
|---|---|---|---|---|---|
Llama3.3-70B-InstructFacebook AI研究实验室 | 700 | 88.40 | 87.60 | Facebook AI研究实验室 | — |
数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。




