大模型编程能力评测排行榜
本页面提供当前主流大模型在代码能力上的评测结果,包括HumanEval和MBPP等基准数据集。
榜首模型
Claude 3.5 Sonnet New
最高得分
-
模型数量
139
数据版本
-
数据来源: 论文或GitHub评测结果
排名总表
| 模型名称 | 参数大小 | HumanEval Pass@1 | MBPP Pass@1 | 发布者 | 开源情况 |
|---|---|---|---|---|---|
Claude 3.5 Sonnet NewAnthropic | 0 | 93.70 | — | Anthropic | — |
Qwen2.5-Coder-32B-Instruct阿里巴巴 | 320 | 92.70 | 90.20 | 阿里巴巴 | — |
OpenAI o1-miniOpenAI | — | 92.40 | — | OpenAI | — |
Claude 3.5 SonnetAnthropic | — | 92.00 | — | Anthropic | — |
GPT-4oOpenAI | 0 | 90.20 | — | OpenAI | — |
Llama3.1-405B InstructFacebook AI研究实验室 | 4,050 | 89.00 | 88.60 | Facebook AI研究实验室 | — |
DeepSeek V2.5DeepSeek-AI | 2,360 | 89.00 | — | DeepSeek-AI | — |
Amazon Nova Pro亚马逊 | — | 89.00 | — | 亚马逊 | — |
Llama3.3-70B-InstructFacebook AI研究实验室 | 700 | 88.40 | 87.60 | Facebook AI研究实验室 | — |
| 2,690 | 88.40 | — | xAI | — | |
Claude 3.5 HaikuAnthropic | 0 | 88.10 | — | Anthropic | — |
GPT-4o miniOpenAI | 0 | 87.20 | — | OpenAI | — |
Codestral 25.01MistralAI | — | 86.60 | 80.20 | MistralAI | — |
Qwen2-72B-Instruct阿里巴巴 | 720 | 86.00 | 80.20 | 阿里巴巴 | — |
GPT-4OpenAI | 1,750 | 85.40 | 83.50 | OpenAI | — |
Amazon Nova Lite亚马逊 | — | 85.40 | — | 亚马逊 | — |
Claude3-OpusAnthropic | 0 | 84.90 | — | Anthropic | — |
Mistral Small 24B Instruct 2501MistralAI | 240 | 84.80 | — | MistralAI | — |
Qwen2.5-Omni-7B阿里巴巴 | 70 | 84.80 | 79.20 | 阿里巴巴 | — |
Llama3-400B-Instruct-InTrainingFacebook AI研究实验室 | 4,000 | 84.10 | — | Facebook AI研究实验室 | — |
CodeQwen1.5-7B-Chat阿里巴巴 | 70 | 83.50 | 77.70 | 阿里巴巴 | — |
Phi 4 - 14BMicrosoft Azure | 140 | 82.60 | — | Microsoft Azure | — |
DeepSeek-V3DeepSeek-AI | 6,810 | 82.60 | — | DeepSeek-AI | — |
Llama3-70BFacebook AI研究实验室 | 700 | 81.70 | — | Facebook AI研究实验室 | — |
Llama3-70B-InstructFacebook AI研究实验室 | 700 | 81.70 | — | Facebook AI研究实验室 | — |
Amazon Nova Micro亚马逊 | — | 81.10 | — | 亚马逊 | — |
Llama3.1-70B-InstructFacebook AI研究实验室 | 700 | 80.50 | 86.00 | Facebook AI研究实验室 | — |
C4AI Command A (202503)CohereAI | 1,110 | 80.00 | — | CohereAI | — |
DeepSeek Coder-33B InstructDeepSeek-AI | 330 | 79.30 | 70.00 | DeepSeek-AI | — |
Claude3-HaikuAnthropic | 0 | 75.90 | — | Anthropic | — |
Gemini-ultraDeepMind | 0 | 74.40 | — | DeepMind | — |
| — | 74.10 | — | xAI | — | |
DeepSeek-V2-236B-ChatDeepSeek-AI | 2,360 | 73.80 | 61.40 | DeepSeek-AI | — |
WizardCoder-Python-34BWizardLM Team | 340 | 73.20 | — | WizardLM Team | — |
Qwen2.5-Max阿里巴巴 | — | 73.20 | 80.60 | 阿里巴巴 | — |
Claude3-SonnetAnthropic | 0 | 73.00 | — | Anthropic | — |
Llama3.1-8B-InstructFacebook AI研究实验室 | 80 | 72.60 | 72.80 | Facebook AI研究实验室 | — |
GLM4智谱AI | 0 | 72.00 | — | 智谱AI | — |
Gemini 1.5 ProGoogle Deep Mind | 0 | 71.90 | — | Google Deep Mind | — |
GLM-4-9B-Chat智谱AI | 90 | 71.80 | — | 智谱AI | — |
DBRX Instructdatabricks | 1,320 | 70.10 | — | databricks | — |
GLM-4-9B智谱AI | 90 | 70.10 | — | 智谱AI | — |
| 340 | 69.50 | — | Phind | — | |
Gemini-proDeepMind | 1,000 | 67.70 | — | DeepMind | — |
| 340 | 67.60 | — | Phind | — | |
DeepSeek Coder-6.7B InstructDeepSeek-AI | 67 | 66.10 | 65.40 | DeepSeek-AI | — |
DeepSeek-V3-BaseDeepSeek-AI | 6,810 | 65.20 | 75.40 | DeepSeek-AI | — |
Qwen2-72B阿里巴巴 | 727 | 64.60 | 76.90 | 阿里巴巴 | — |
WizardCoder-Python-13B-V1.0WizardLM Team | 130 | 64.00 | 54.60 | WizardLM Team | — |
| 3,140 | 63.20 | — | xAI | — | |
Llama3-8BFacebook AI研究实验室 | 80 | 62.20 | — | Facebook AI研究实验室 | — |
Llama3-8B-InstructFacebook AI研究实验室 | 80 | 62.20 | — | Facebook AI研究实验室 | — |
PanGu-Coder2华为 | 150 | 61.64 | — | 华为 | — |
CodestralMistralAI | 220 | 61.50 | 78.20 | MistralAI | — |
Phi-3-small 7BMicrosoft Azure | 70 | 59.10 | 71.40 | Microsoft Azure | — |
Qwen2.5-72B阿里巴巴 | 727 | 59.10 | 84.70 | 阿里巴巴 | — |
Phi-3-mini 3.8BMicrosoft Azure | 38 | 58.50 | 70.00 | Microsoft Azure | — |
Qwen2.5-32B阿里巴巴 | 320 | 58.50 | 84.50 | 阿里巴巴 | — |
Qwen2.5-7B阿里巴巴 | 70 | 57.90 | 74.90 | 阿里巴巴 | — |
WizardCoder-15B-V1.0WizardLM Team | 150 | 57.30 | — | WizardLM Team | — |
Qwen2.5-14B阿里巴巴 | 140 | 56.70 | 76.70 | 阿里巴巴 | — |
CodeGemma-7B-ITGoogle Research | 70 | 56.10 | 54.20 | Google Research | — |
Phi-3-medium 14B-previewMicrosoft Azure | 140 | 55.50 | 74.40 | Microsoft Azure | — |
MiniCPM-MoE-8x2BOpenBMB | 136 | 55.49 | 41.68 | OpenBMB | — |
CodeLLaMA-Python-34BFacebook AI研究实验室 | 340 | 53.70 | 56.20 | Facebook AI研究实验室 | — |
YAYI2-30B中科闻歌 | 300 | 53.10 | 45.80 | 中科闻歌 | — |
Qwen2-57B-A14B阿里巴巴 | 570 | 53.00 | 71.90 | 阿里巴巴 | — |
Qwen1.5-110B阿里巴巴 | 1,100 | 52.40 | 58.10 | 阿里巴巴 | — |
CodeQwen1.5-7B阿里巴巴 | 70 | 51.80 | 72.20 | 阿里巴巴 | — |
Qwen2-7B阿里巴巴 | 70 | 51.20 | 65.90 | 阿里巴巴 | — |
Phi-1Microsoft Azure | 13 | 50.60 | 55.50 | Microsoft Azure | — |
MiniCPM-2B-DPO面壁智能 | 24 | 50.00 | 47.31 | 面壁智能 | — |
CodeLLaMA-34BFacebook AI研究实验室 | 340 | 48.80 | 55.00 | Facebook AI研究实验室 | — |
Phi-2Microsoft Azure | 27 | 48.30 | 59.10 | Microsoft Azure | — |
GPT-3.5OpenAI | 1,750 | 48.10 | 52.20 | OpenAI | — |
Moonlight-16B-A3B-InstructMoonshot AI | 160 | 48.10 | 63.80 | Moonshot AI | — |
Yi-1.5-34B零一万物 | 340 | 46.30 | 65.50 | 零一万物 | — |
Mixtral-8×22B-MoEMistralAI | 1,410 | 45.10 | 71.20 | MistralAI | — |
CodeGemma-7BGoogle Research | 70 | 44.50 | 56.20 | Google Research | — |
CodeLLaMA-Python-13BFacebook AI研究实验室 | 130 | 43.30 | 49.00 | Facebook AI研究实验室 | — |
CodeLLaMA-Instruct-13BFacebook AI研究实验室 | 130 | 42.70 | 49.40 | Facebook AI研究实验室 | — |
Qwen2.5-3B阿里巴巴 | 30 | 42.10 | 57.10 | 阿里巴巴 | — |
CodeLLaMA-Instruct-34BFacebook AI研究实验室 | 340 | 41.50 | 57.00 | Facebook AI研究实验室 | — |
Qwen1.5-72B-Chat阿里巴巴 | 720 | 41.50 | 53.40 | 阿里巴巴 | — |
Yi-1.5-9B零一万物 | 90 | 41.40 | 61.10 | 零一万物 | — |
DeepSeek-V2-236BDeepSeek-AI | 2,360 | 40.90 | 66.60 | DeepSeek-AI | — |
Mixtral-8×7B-MoEMistralAI | 450 | 40.20 | 60.70 | MistralAI | — |
Gemma 2 - 9BGoogle Research | 90 | 40.20 | 52.40 | Google Research | — |
| 330 | 39.70 | — | xAI | — | |
Yi-9B零一万物 | 90 | 39.00 | 54.40 | 零一万物 | — |
CodeLLaMA-Python-7BFacebook AI研究实验室 | 70 | 38.40 | 47.60 | Facebook AI研究实验室 | — |
WizardLM-30B-V1WizardLM Team | 300 | 37.80 | — | WizardLM Team | — |
PaLM2-SGoogle Research | 0 | 37.60 | 50.00 | Google Research | — |
Qwen1.5-32B阿里巴巴 | 320 | 37.20 | 49.40 | 阿里巴巴 | — |
Qwen2.5-1.5B阿里巴巴 | 15 | 37.20 | 60.20 | 阿里巴巴 | — |
CodeLLaMA-13BFacebook AI研究实验室 | 130 | 36.00 | 47.00 | Facebook AI研究实验室 | — |
CodeGeeX2-6B智谱AI | 60 | 35.90 | — | 智谱AI | — |
PaLM-CoderGoogle Research | 5,400 | 35.90 | 47.00 | Google Research | — |
Aquila2-34B北京智源人工智能研究院 | 340 | 35.40 | — | 北京智源人工智能研究院 | — |
Qwen-72B阿里巴巴 | 720 | 35.40 | 52.20 | 阿里巴巴 | — |
Stable LM Zephyr 3BStability AI | 30 | 35.37 | 31.85 | Stability AI | — |
CodeLLaMA-Instruct-7BFacebook AI研究实验室 | 70 | 34.80 | 44.40 | Facebook AI研究实验室 | — |
WizardCoder-3B-V1.0WizardLM Team | 30 | 34.80 | 37.40 | WizardLM Team | — |
Qwen1.5-MoE-A2.7B阿里巴巴 | 143 | 34.20 | — | 阿里巴巴 | — |
Phi-1.5Microsoft Azure | 13 | 34.10 | 37.70 | Microsoft Azure | — |
StarCoderBigCode | 155 | 33.60 | 52.70 | BigCode | — |
CodeLLaMA-7BFacebook AI研究实验室 | 70 | 33.50 | 41.40 | Facebook AI研究实验室 | — |
Qwen-14B阿里巴巴 | 140 | 32.30 | 40.80 | 阿里巴巴 | — |
Gemma 7BGoogle Research | 70 | 32.30 | 44.40 | Google Research | — |
Qwen2-1.5B阿里巴巴 | 15 | 31.10 | 37.40 | 阿里巴巴 | — |
LLaMA2 70BFacebook AI研究实验室 | 700 | 30.50 | 45.40 | Facebook AI研究实验室 | — |
Mistral 7BMistralAI | 73 | 30.50 | 47.50 | MistralAI | — |
Qwen2.5-0.5B阿里巴巴 | 5 | 30.50 | 39.30 | 阿里巴巴 | — |
StarCodeBaseBigCode | 155 | 30.40 | 49.00 | BigCode | — |
Qwen-7B阿里巴巴 | 70 | 29.90 | 31.60 | 阿里巴巴 | — |
XVERSE-MoE-A4.2B元象XVERSE | 258 | 29.90 | — | 元象XVERSE | — |
CodexOpenAI | 1,750 | 28.81 | — | OpenAI | — |
AquilaCode-7B-py北京智源人工智能研究院 | 70 | 28.80 | — | 北京智源人工智能研究院 | — |
XVERSE-65B元象XVERSE | 650 | 26.80 | — | 元象XVERSE | — |
PaLMGoogle Research | 5,400 | 26.20 | 47.00 | Google Research | — |
WizardCoder-1B-V1.0WizardLM Team | 10 | 23.80 | 28.60 | WizardLM Team | — |
CodeGeeX智谱AI | 130 | 22.90 | — | 智谱AI | — |
LLaMA2 34BFacebook AI研究实验室 | 340 | 22.60 | 33.80 | Facebook AI研究实验室 | — |
AquilaCode-7B-multi北京智源人工智能研究院 | 70 | 22.00 | — | 北京智源人工智能研究院 | — |
Gemma 2BGoogle Research | 20 | 22.00 | 29.20 | Google Research | — |
Gemma 2B - ItGoogle Research | 20 | 22.00 | 29.20 | Google Research | — |
CodeGemma-2BGoogle Research | 20 | 22.00 | 29.20 | Google Research | — |
Qwen2-0.5B阿里巴巴 | 4 | 22.00 | 22.00 | 阿里巴巴 | — |
RecurrentGemma-2BGoogle Research | 27 | 21.30 | 28.80 | Google Research | — |
LLaMA2 13BFacebook AI研究实验室 | 130 | 20.10 | 27.60 | Facebook AI研究实验室 | — |
Baichuan2-7B-Base百川智能 | 70 | 18.29 | 24.20 | 百川智能 | — |
Baichuan2-13B-Base百川智能 | 130 | 17.07 | 30.20 | 百川智能 | — |
Qwen-1.8B阿里巴巴 | 18 | 15.20 | — | 阿里巴巴 | — |
LLaMA2 7BFacebook AI研究实验室 | 70 | 12.20 | 20.80 | Facebook AI研究实验室 | — |
Baichuan 13B - Base百川智能 | 130 | 11.59 | 22.90 | 百川智能 | — |
Baichuan 7B百川智能 | 70 | 9.20 | 6.60 | 百川智能 | — |
TinyLlama新加坡科技与设计大学 | 11 | 6.71 | 19.91 | 新加坡科技与设计大学 | — |
Mistral LargeMistralAI | 0 | 4.10 | 7.10 | MistralAI | — |
Mistral Small 24B Base2501MistralAI | 240 | — | 69.64 | MistralAI | — |
数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。


























