大模型编程能力评测排行榜

Name: 大模型编程能力评测排行榜
Creator: DataLearner
License: https://creativecommons.org/licenses/by/4.0/

本页面提供当前主流大模型在代码能力上的评测结果，包括HumanEval和MBPP等基准数据集。

榜首模型

Llama3.3-70B-Instruct

最高得分

模型数量

数据版本

数据来源: 论文或GitHub评测结果

榜单历史快照月份:

排名总表

模型名称	参数大小	HumanEval Pass@1	MBPP Pass@1	发布者	开源情况
Llama3.3-70B-InstructFacebook AI研究实验室	700	88.40	87.60	Facebook AI研究实验室	—
Qwen2-72B-Instruct阿里巴巴	720	86.00	80.20	阿里巴巴	—
Llama3-70BFacebook AI研究实验室	700	81.70	—	Facebook AI研究实验室	—
Llama3-70B-InstructFacebook AI研究实验室	700	81.70	—	Facebook AI研究实验室	—
Llama3.1-70B-InstructFacebook AI研究实验室	700	80.50	86.00	Facebook AI研究实验室	—
Gemini-proDeepMind	1,000	67.70	—	DeepMind	闭源
Qwen2-72B阿里巴巴	727	64.60	76.90	阿里巴巴	—
Qwen2.5-72B阿里巴巴	727	59.10	84.70	阿里巴巴	—
Qwen2-57B-A14B阿里巴巴	570	53.00	71.90	阿里巴巴	—
Qwen1.5-72B-Chat阿里巴巴	720	41.50	53.40	阿里巴巴	—
Mixtral-8×7B-MoEMistralAI	450	40.20	60.70	MistralAI	—
Qwen-72B阿里巴巴	720	35.40	52.20	阿里巴巴	—
LLaMA2 70BFacebook AI研究实验室	700	30.50	45.40	Facebook AI研究实验室	—
XVERSE-65B元象XVERSE	650	26.80	—	元象XVERSE	—

数据仅供参考，以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。