大模型编程能力评测排行榜
本页面提供当前主流大模型在代码能力上的评测结果,包括HumanEval和MBPP等基准数据集。
榜首模型
OpenAI o1-mini
最高得分
-
模型数量
26
数据版本
-
数据来源: 论文或GitHub评测结果
排名总表
| 模型名称 | 参数大小 | HumanEval Pass@1 | MBPP Pass@1 | 发布者 | 开源情况 |
|---|---|---|---|---|---|
OpenAI o1-miniOpenAI | — | 92.40 | — | OpenAI | 闭源 |
Claude 3.5 SonnetAnthropic | — | 92.00 | — | Anthropic | 闭源 |
Llama3.1-405B InstructFacebook AI研究实验室 | 4,050 | 89.00 | 88.60 | Facebook AI研究实验室 | — |
DeepSeek V2.5DeepSeek-AI | 2,360 | 89.00 | — | DeepSeek-AI | — |
Amazon Nova Pro亚马逊 | — | 89.00 | — | 亚马逊 | 闭源 |
| 2,690 | 88.40 | — | xAI | — | |
Codestral 25.01MistralAI | — | 86.60 | 80.20 | MistralAI | 闭源 |
GPT-4OpenAI | 1,750 | 85.40 | 83.50 | OpenAI | 闭源 |
Amazon Nova Lite亚马逊 | — | 85.40 | — | 亚马逊 | 闭源 |
Llama3-400B-Instruct-InTrainingFacebook AI研究实验室 | 4,000 | 84.10 | — | Facebook AI研究实验室 | — |
DeepSeek-V3DeepSeek-AI | 6,810 | 82.60 | — | DeepSeek-AI | — |
Amazon Nova Micro亚马逊 | — | 81.10 | — | 亚马逊 | 闭源 |
C4AI Command A (202503)CohereAI | 1,110 | 80.00 | — | CohereAI | 不可商用 |
| — | 74.10 | — | xAI | 闭源 | |
DeepSeek-V2-236B-ChatDeepSeek-AI | 2,360 | 73.80 | 61.40 | DeepSeek-AI | — |
Qwen2.5-Max阿里巴巴 | — | 73.20 | 80.60 | 阿里巴巴 | 闭源 |
DBRX Instructdatabricks | 1,320 | 70.10 | — | databricks | — |
DeepSeek-V3-BaseDeepSeek-AI | 6,810 | 65.20 | 75.40 | DeepSeek-AI | — |
| 3,140 | 63.20 | — | xAI | — | |
Qwen1.5-110B阿里巴巴 | 1,100 | 52.40 | 58.10 | 阿里巴巴 | — |
GPT-3.5OpenAI | 1,750 | 48.10 | 52.20 | OpenAI | 闭源 |
Mixtral-8×22B-MoEMistralAI | 1,410 | 45.10 | 71.20 | MistralAI | — |
DeepSeek-V2-236BDeepSeek-AI | 2,360 | 40.90 | 66.60 | DeepSeek-AI | — |
PaLM-CoderGoogle Research | 5,400 | 35.90 | 47.00 | Google Research | 闭源 |
CodexOpenAI | 1,750 | 28.81 | — | OpenAI | 闭源 |
PaLMGoogle Research | 5,400 | 26.20 | 47.00 | Google Research | 闭源 |
数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。









