大模型编程能力评测排行榜

本页面提供当前主流大模型在代码能力上的评测结果,包括HumanEval和MBPP等基准数据集。

榜首模型

Llama3.3-70B-Instruct

最高得分

-

模型数量

14

数据版本

-

数据来源: 论文或GitHub评测结果

榜单历史快照月份:

排名总表

模型名称参数大小HumanEval Pass@1MBPP Pass@1发布者开源情况
Facebook AI研究实验室Llama3.3-70B-InstructFacebook AI研究实验室70088.4087.60Facebook AI研究实验室
阿里巴巴Qwen2-72B-Instruct阿里巴巴72086.0080.20阿里巴巴
Facebook AI研究实验室Llama3-70BFacebook AI研究实验室70081.70Facebook AI研究实验室
Facebook AI研究实验室Llama3-70B-InstructFacebook AI研究实验室70081.70Facebook AI研究实验室
Facebook AI研究实验室Llama3.1-70B-InstructFacebook AI研究实验室70080.5086.00Facebook AI研究实验室
DeepMindGemini-proDeepMind1,00067.70DeepMind闭源
阿里巴巴Qwen2-72B阿里巴巴72764.6076.90阿里巴巴
阿里巴巴Qwen2.5-72B阿里巴巴72759.1084.70阿里巴巴
阿里巴巴Qwen2-57B-A14B阿里巴巴57053.0071.90阿里巴巴
阿里巴巴Qwen1.5-72B-Chat阿里巴巴72041.5053.40阿里巴巴
MistralAIMixtral-8×7B-MoEMistralAI45040.2060.70MistralAI
阿里巴巴Qwen-72B阿里巴巴72035.4052.20阿里巴巴
Facebook AI研究实验室LLaMA2 70BFacebook AI研究实验室70030.5045.40Facebook AI研究实验室
元象XVERSEXVERSE-65B元象XVERSE65026.80元象XVERSE

数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。