大模型编程能力评测排行榜

Name: 大模型编程能力评测排行榜
Creator: DataLearner
License: https://creativecommons.org/licenses/by/4.0/

本页面提供当前主流大模型在代码能力上的评测结果，包括HumanEval和MBPP等基准数据集。

榜首模型

Qwen2.5-Coder-32B-Instruct

最高得分

模型数量

数据版本

数据来源: 论文或GitHub评测结果

榜单历史快照月份:

排名总表

模型名称	参数大小	HumanEval Pass@1	MBPP Pass@1	发布者	开源情况
Qwen2.5-Coder-32B-Instruct阿里巴巴	320	92.70	90.20	阿里巴巴	—
Mistral Small 24B Instruct 2501MistralAI	240	84.80	—	MistralAI	—
DeepSeek Coder-33B InstructDeepSeek-AI	330	79.30	70.00	DeepSeek-AI	—
WizardCoder-Python-34BWizardLM Team	340	73.20	—	WizardLM Team	—
Phind-CodeLlama-34B-Python-v1Phind	340	69.50	—	Phind	—
Phind-CodeLlama-34B-v1Phind	340	67.60	—	Phind	—
CodestralMistralAI	220	61.50	78.20	MistralAI	不可商用
Qwen2.5-32B阿里巴巴	320	58.50	84.50	阿里巴巴	—
CodeLLaMA-Python-34BFacebook AI研究实验室	340	53.70	56.20	Facebook AI研究实验室	—
YAYI2-30B中科闻歌	300	53.10	45.80	中科闻歌	收费商用
CodeLLaMA-34BFacebook AI研究实验室	340	48.80	55.00	Facebook AI研究实验室	—
Yi-1.5-34B零一万物	340	46.30	65.50	零一万物	—
CodeLLaMA-Instruct-34BFacebook AI研究实验室	340	41.50	57.00	Facebook AI研究实验室	—
Grok-0xAI	330	39.70	—	xAI	闭源
Qwen1.5-32B阿里巴巴	320	37.20	49.40	阿里巴巴	—
Aquila2-34B北京智源人工智能研究院	340	35.40	—	北京智源人工智能研究院	—
XVERSE-MoE-A4.2B元象XVERSE	258	29.90	—	元象XVERSE	—
LLaMA2 34BFacebook AI研究实验室	340	22.60	33.80	Facebook AI研究实验室	—
Mistral Small 24B Base2501MistralAI	240	—	69.64	MistralAI	—

数据仅供参考，以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。