大模型编程能力评测排行榜

本页面提供当前主流大模型在代码能力上的评测结果,包括HumanEval和MBPP等基准数据集。

榜首模型

Qwen2.5-Omni-7B

最高得分

-

模型数量

30

数据版本

-

数据来源: 论文或GitHub评测结果

榜单历史快照月份:

排名总表

模型名称参数大小HumanEval Pass@1MBPP Pass@1发布者开源情况
阿里巴巴Qwen2.5-Omni-7B阿里巴巴7084.8079.20阿里巴巴
阿里巴巴CodeQwen1.5-7B-Chat阿里巴巴7083.5077.70阿里巴巴
Facebook AI研究实验室Llama3.1-8B-InstructFacebook AI研究实验室8072.6072.80Facebook AI研究实验室
智谱AIGLM-4-9B-Chat智谱AI9071.80智谱AI
智谱AIGLM-4-9B智谱AI9070.10智谱AI
DeepSeek-AIDeepSeek Coder-6.7B InstructDeepSeek-AI6766.1065.40DeepSeek-AI
Facebook AI研究实验室Llama3-8BFacebook AI研究实验室8062.20Facebook AI研究实验室
Facebook AI研究实验室Llama3-8B-InstructFacebook AI研究实验室8062.20Facebook AI研究实验室
Microsoft AzurePhi-3-small 7BMicrosoft Azure7059.1071.40Microsoft Azure
阿里巴巴Qwen2.5-7B阿里巴巴7057.9074.90阿里巴巴
Google ResearchCodeGemma-7B-ITGoogle Research7056.1054.20Google Research
阿里巴巴CodeQwen1.5-7B阿里巴巴7051.8072.20阿里巴巴
阿里巴巴Qwen2-7B阿里巴巴7051.2065.90阿里巴巴
Google ResearchCodeGemma-7BGoogle Research7044.5056.20Google Research
Google ResearchGemma 2 - 9BGoogle Research9040.2052.40Google Research
Facebook AI研究实验室CodeLLaMA-Python-7BFacebook AI研究实验室7038.4047.60Facebook AI研究实验室
Google ResearchPaLM2-SGoogle Research037.6050.00Google Research闭源
智谱AICodeGeeX2-6B智谱AI6035.90智谱AI收费商用
Facebook AI研究实验室CodeLLaMA-Instruct-7BFacebook AI研究实验室7034.8044.40Facebook AI研究实验室
WizardLM TeamWizardCoder-3B-V1.0WizardLM Team3034.8037.40WizardLM Team
Facebook AI研究实验室CodeLLaMA-7BFacebook AI研究实验室7033.5041.40Facebook AI研究实验室
Google ResearchGemma 7BGoogle Research7032.3044.40Google Research
MistralAIMistral 7BMistralAI7330.5047.50MistralAI
阿里巴巴Qwen-7B阿里巴巴7029.9031.60阿里巴巴
北京智源人工智能研究院AquilaCode-7B-py北京智源人工智能研究院7028.80北京智源人工智能研究院
WizardLM TeamWizardCoder-1B-V1.0WizardLM Team1023.8028.60WizardLM Team
北京智源人工智能研究院AquilaCode-7B-multi北京智源人工智能研究院7022.00北京智源人工智能研究院
百川智能Baichuan2-7B-Base百川智能7018.2924.20百川智能
Facebook AI研究实验室LLaMA2 7BFacebook AI研究实验室7012.2020.80Facebook AI研究实验室
百川智能Baichuan 7B百川智能709.206.60百川智能

数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。