大模型编程能力评测排行榜

Name: 大模型编程能力评测排行榜
Creator: DataLearner
License: https://creativecommons.org/licenses/by/4.0/

本页面提供当前主流大模型在代码能力上的评测结果，包括HumanEval和MBPP等基准数据集。

榜首模型

Claude 3.5 Sonnet New

最高得分

模型数量

139

数据版本

数据来源: 论文或GitHub评测结果

按参数规模筛选:全部 3B及以下 7B 13B 34B 65B 100B及以上

来源：全部国产模型

榜单历史快照月份:

排名总表

模型名称	参数大小	HumanEval Pass@1	MBPP Pass@1	发布者	开源情况
Claude 3.5 Sonnet NewAnthropic	0	93.70	—	Anthropic	闭源
Qwen2.5-Coder-32B-Instruct阿里巴巴	320	92.70	90.20	阿里巴巴	—
OpenAI o1-miniOpenAI	—	92.40	—	OpenAI	闭源
Claude 3.5 SonnetAnthropic	—	92.00	—	Anthropic	闭源
GPT-4oOpenAI	0	90.20	—	OpenAI	闭源
Llama3.1-405B InstructFacebook AI研究实验室	4,050	89.00	88.60	Facebook AI研究实验室	—
DeepSeek V2.5DeepSeek-AI	2,360	89.00	—	DeepSeek-AI	—
Amazon Nova Pro亚马逊	—	89.00	—	亚马逊	闭源
Llama3.3-70B-InstructFacebook AI研究实验室	700	88.40	87.60	Facebook AI研究实验室	—
Grok 2xAI	2,690	88.40	—	xAI	—
Claude 3.5 HaikuAnthropic	0	88.10	—	Anthropic	闭源
GPT-4o miniOpenAI	0	87.20	—	OpenAI	闭源
Codestral 25.01MistralAI	—	86.60	80.20	MistralAI	闭源
Qwen2-72B-Instruct阿里巴巴	720	86.00	80.20	阿里巴巴	—
GPT-4OpenAI	1,750	85.40	83.50	OpenAI	闭源
Amazon Nova Lite亚马逊	—	85.40	—	亚马逊	闭源
Claude3-OpusAnthropic	0	84.90	—	Anthropic	闭源
Mistral Small 24B Instruct 2501MistralAI	240	84.80	—	MistralAI	—
Qwen2.5-Omni-7B阿里巴巴	70	84.80	79.20	阿里巴巴	—
Llama3-400B-Instruct-InTrainingFacebook AI研究实验室	4,000	84.10	—	Facebook AI研究实验室	—
CodeQwen1.5-7B-Chat阿里巴巴	70	83.50	77.70	阿里巴巴	—
Phi 4 - 14BMicrosoft Azure	140	82.60	—	Microsoft Azure	不可商用
DeepSeek-V3DeepSeek-AI	6,810	82.60	—	DeepSeek-AI	—
Llama3-70BFacebook AI研究实验室	700	81.70	—	Facebook AI研究实验室	—
Llama3-70B-InstructFacebook AI研究实验室	700	81.70	—	Facebook AI研究实验室	—
Amazon Nova Micro亚马逊	—	81.10	—	亚马逊	闭源
Llama3.1-70B-InstructFacebook AI研究实验室	700	80.50	86.00	Facebook AI研究实验室	—
C4AI Command A (202503)CohereAI	1,110	80.00	—	CohereAI	不可商用
DeepSeek Coder-33B InstructDeepSeek-AI	330	79.30	70.00	DeepSeek-AI	—
Claude3-HaikuAnthropic	0	75.90	—	Anthropic	闭源
Gemini-ultraDeepMind	0	74.40	—	DeepMind	闭源
Grok-1.5xAI	—	74.10	—	xAI	闭源
DeepSeek-V2-236B-ChatDeepSeek-AI	2,360	73.80	61.40	DeepSeek-AI	—
WizardCoder-Python-34BWizardLM Team	340	73.20	—	WizardLM Team	—
Qwen2.5-Max阿里巴巴	—	73.20	80.60	阿里巴巴	闭源
Claude3-SonnetAnthropic	0	73.00	—	Anthropic	闭源
Llama3.1-8B-InstructFacebook AI研究实验室	80	72.60	72.80	Facebook AI研究实验室	—
GLM4智谱AI	0	72.00	—	智谱AI	闭源
Gemini 1.5 ProGoogle Deep Mind	0	71.90	—	Google Deep Mind	闭源
GLM-4-9B-Chat智谱AI	90	71.80	—	智谱AI	—
DBRX Instructdatabricks	1,320	70.10	—	databricks	—
GLM-4-9B智谱AI	90	70.10	—	智谱AI	—
Phind-CodeLlama-34B-Python-v1Phind	340	69.50	—	Phind	—
Gemini-proDeepMind	1,000	67.70	—	DeepMind	闭源
Phind-CodeLlama-34B-v1Phind	340	67.60	—	Phind	—
DeepSeek Coder-6.7B InstructDeepSeek-AI	67	66.10	65.40	DeepSeek-AI	—
DeepSeek-V3-BaseDeepSeek-AI	6,810	65.20	75.40	DeepSeek-AI	—
Qwen2-72B阿里巴巴	727	64.60	76.90	阿里巴巴	—
WizardCoder-Python-13B-V1.0WizardLM Team	130	64.00	54.60	WizardLM Team	—
Grok-1xAI	3,140	63.20	—	xAI	—
Llama3-8BFacebook AI研究实验室	80	62.20	—	Facebook AI研究实验室	—
Llama3-8B-InstructFacebook AI研究实验室	80	62.20	—	Facebook AI研究实验室	—
PanGu-Coder2华为	150	61.64	—	华为	闭源
CodestralMistralAI	220	61.50	78.20	MistralAI	不可商用
Phi-3-small 7BMicrosoft Azure	70	59.10	71.40	Microsoft Azure	—
Qwen2.5-72B阿里巴巴	727	59.10	84.70	阿里巴巴	—
Phi-3-mini 3.8BMicrosoft Azure	38	58.50	70.00	Microsoft Azure	—
Qwen2.5-32B阿里巴巴	320	58.50	84.50	阿里巴巴	—
Qwen2.5-7B阿里巴巴	70	57.90	74.90	阿里巴巴	—
WizardCoder-15B-V1.0WizardLM Team	150	57.30	—	WizardLM Team	—
Qwen2.5-14B阿里巴巴	140	56.70	76.70	阿里巴巴	—
CodeGemma-7B-ITGoogle Research	70	56.10	54.20	Google Research	—
Phi-3-medium 14B-previewMicrosoft Azure	140	55.50	74.40	Microsoft Azure	—
MiniCPM-MoE-8x2BOpenBMB	136	55.49	41.68	OpenBMB	—
CodeLLaMA-Python-34BFacebook AI研究实验室	340	53.70	56.20	Facebook AI研究实验室	—
YAYI2-30B中科闻歌	300	53.10	45.80	中科闻歌	收费商用
Qwen2-57B-A14B阿里巴巴	570	53.00	71.90	阿里巴巴	—
Qwen1.5-110B阿里巴巴	1,100	52.40	58.10	阿里巴巴	—
CodeQwen1.5-7B阿里巴巴	70	51.80	72.20	阿里巴巴	—
Qwen2-7B阿里巴巴	70	51.20	65.90	阿里巴巴	—
Phi-1Microsoft Azure	13	50.60	55.50	Microsoft Azure	不可商用
MiniCPM-2B-DPO面壁智能	24	50.00	47.31	面壁智能	—
CodeLLaMA-34BFacebook AI研究实验室	340	48.80	55.00	Facebook AI研究实验室	—
Phi-2Microsoft Azure	27	48.30	59.10	Microsoft Azure	—
GPT-3.5OpenAI	1,750	48.10	52.20	OpenAI	闭源
Moonlight-16B-A3B-InstructMoonshot AI	160	48.10	63.80	Moonshot AI	—
Yi-1.5-34B零一万物	340	46.30	65.50	零一万物	—
Mixtral-8×22B-MoEMistralAI	1,410	45.10	71.20	MistralAI	—
CodeGemma-7BGoogle Research	70	44.50	56.20	Google Research	—
CodeLLaMA-Python-13BFacebook AI研究实验室	130	43.30	49.00	Facebook AI研究实验室	—
CodeLLaMA-Instruct-13BFacebook AI研究实验室	130	42.70	49.40	Facebook AI研究实验室	—
Qwen2.5-3B阿里巴巴	30	42.10	57.10	阿里巴巴	—
CodeLLaMA-Instruct-34BFacebook AI研究实验室	340	41.50	57.00	Facebook AI研究实验室	—
Qwen1.5-72B-Chat阿里巴巴	720	41.50	53.40	阿里巴巴	—
Yi-1.5-9B零一万物	90	41.40	61.10	零一万物	—
DeepSeek-V2-236BDeepSeek-AI	2,360	40.90	66.60	DeepSeek-AI	—
Mixtral-8×7B-MoEMistralAI	450	40.20	60.70	MistralAI	—
Gemma 2 - 9BGoogle Research	90	40.20	52.40	Google Research	—
Grok-0xAI	330	39.70	—	xAI	闭源
Yi-9B零一万物	90	39.00	54.40	零一万物	—
CodeLLaMA-Python-7BFacebook AI研究实验室	70	38.40	47.60	Facebook AI研究实验室	—
WizardLM-30B-V1WizardLM Team	300	37.80	—	WizardLM Team	不可商用
PaLM2-SGoogle Research	0	37.60	50.00	Google Research	闭源
Qwen1.5-32B阿里巴巴	320	37.20	49.40	阿里巴巴	—
Qwen2.5-1.5B阿里巴巴	15	37.20	60.20	阿里巴巴	—
CodeLLaMA-13BFacebook AI研究实验室	130	36.00	47.00	Facebook AI研究实验室	—
CodeGeeX2-6B智谱AI	60	35.90	—	智谱AI	收费商用
PaLM-CoderGoogle Research	5,400	35.90	47.00	Google Research	闭源
Aquila2-34B北京智源人工智能研究院	340	35.40	—	北京智源人工智能研究院	—
Qwen-72B阿里巴巴	720	35.40	52.20	阿里巴巴	—
Stable LM Zephyr 3BStability AI	30	35.37	31.85	Stability AI	不可商用
CodeLLaMA-Instruct-7BFacebook AI研究实验室	70	34.80	44.40	Facebook AI研究实验室	—
WizardCoder-3B-V1.0WizardLM Team	30	34.80	37.40	WizardLM Team	—
Qwen1.5-MoE-A2.7B阿里巴巴	143	34.20	—	阿里巴巴	—
Phi-1.5Microsoft Azure	13	34.10	37.70	Microsoft Azure	不可商用
StarCoderBigCode	155	33.60	52.70	BigCode	—
CodeLLaMA-7BFacebook AI研究实验室	70	33.50	41.40	Facebook AI研究实验室	—
Qwen-14B阿里巴巴	140	32.30	40.80	阿里巴巴	—
Gemma 7BGoogle Research	70	32.30	44.40	Google Research	—
Qwen2-1.5B阿里巴巴	15	31.10	37.40	阿里巴巴	—
LLaMA2 70BFacebook AI研究实验室	700	30.50	45.40	Facebook AI研究实验室	—
Mistral 7BMistralAI	73	30.50	47.50	MistralAI	—
Qwen2.5-0.5B阿里巴巴	5	30.50	39.30	阿里巴巴	—
StarCodeBaseBigCode	155	30.40	49.00	BigCode	—
Qwen-7B阿里巴巴	70	29.90	31.60	阿里巴巴	—
XVERSE-MoE-A4.2B元象XVERSE	258	29.90	—	元象XVERSE	—
CodexOpenAI	1,750	28.81	—	OpenAI	闭源
AquilaCode-7B-py北京智源人工智能研究院	70	28.80	—	北京智源人工智能研究院	—
XVERSE-65B元象XVERSE	650	26.80	—	元象XVERSE	—
PaLMGoogle Research	5,400	26.20	47.00	Google Research	闭源
WizardCoder-1B-V1.0WizardLM Team	10	23.80	28.60	WizardLM Team	—
CodeGeeX智谱AI	130	22.90	—	智谱AI	闭源
LLaMA2 34BFacebook AI研究实验室	340	22.60	33.80	Facebook AI研究实验室	—
AquilaCode-7B-multi北京智源人工智能研究院	70	22.00	—	北京智源人工智能研究院	—
Gemma 2BGoogle Research	20	22.00	29.20	Google Research	—
Gemma 2B - ItGoogle Research	20	22.00	29.20	Google Research	—
CodeGemma-2BGoogle Research	20	22.00	29.20	Google Research	—
Qwen2-0.5B阿里巴巴	4	22.00	22.00	阿里巴巴	—
RecurrentGemma-2BGoogle Research	27	21.30	28.80	Google Research	—
LLaMA2 13BFacebook AI研究实验室	130	20.10	27.60	Facebook AI研究实验室	—
Baichuan2-7B-Base百川智能	70	18.29	24.20	百川智能	—
Baichuan2-13B-Base百川智能	130	17.07	30.20	百川智能	—
Qwen-1.8B阿里巴巴	18	15.20	—	阿里巴巴	—
LLaMA2 7BFacebook AI研究实验室	70	12.20	20.80	Facebook AI研究实验室	—
Baichuan 13B - Base百川智能	130	11.59	22.90	百川智能	—
Baichuan 7B百川智能	70	9.20	6.60	百川智能	—
TinyLlama新加坡科技与设计大学	11	6.71	19.91	新加坡科技与设计大学	—
Mistral LargeMistralAI	0	4.10	7.10	MistralAI	闭源
Mistral Small 24B Base2501MistralAI	240	—	69.64	MistralAI	—

数据仅供参考，以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。