加载中...
加载中...
本页面提供当前主流大模型在代码能力上的评测结果,包括HumanEval和MBPP等基准数据集。
数据来源: 论文或GitHub评测结果
| 模型名称 | 参数大小 | HumanEval Pass@1 | MBPP Pass@1 | 发布者 | 开源情况 |
|---|---|---|---|---|---|
| Llama3.3-70B-Instruct | 700.0 | 88.40 | 87.60 | Facebook AI研究实验室 | / |
| Qwen2-72B-Instruct | 720.0 | 86 | 80.20 | 阿里巴巴 | / |
| Llama3-70B | 700.0 | 81.70 | / | Facebook AI研究实验室 | / |
| Llama3-70B-Instruct | 700.0 | 81.70 | / | Facebook AI研究实验室 | / |
| Llama3.1-70B-Instruct | 700.0 | 80.50 | 86 | Facebook AI研究实验室 | / |
| Gemini-pro | 1000.0 | 67.70 | / | DeepMind | / |
| Qwen2-72B | 727.0 | 64.60 | 76.90 | 阿里巴巴 | / |
| Qwen2.5-72B | 727.0 | 59.10 | 84.70 | 阿里巴巴 | / |
| Qwen2-57B-A14B | 570.0 | 53 | 71.90 | 阿里巴巴 | / |
| Qwen1.5-72B-Chat | 720.0 | 41.50 | 53.40 | 阿里巴巴 | / |
| Mixtral-8×7B-MoE | 450.0 | 40.20 | 60.70 | MistralAI | / |
| Qwen-72B | 720.0 | 35.40 | 52.20 | 阿里巴巴 | / |
| LLaMA2 70B | 700.0 | 30.50 | 45.40 | Facebook AI研究实验室 | / |
| XVERSE-65B | 650.0 | 26.80 | / | 元象XVERSE | / |
数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。