加载中...
加载中...
本页面提供当前主流大模型在代码能力上的评测结果,包括HumanEval和MBPP等基准数据集。
数据来源: 论文或GitHub评测结果
| 模型名称 | 参数大小 | HumanEval Pass@1 | MBPP Pass@1 | 发布者 | 开源情况 |
|---|---|---|---|---|---|
| Qwen2.5-Coder-32B-Instruct | 320.0 | 92.70 | 90.20 | 阿里巴巴 | / |
| Mistral Small 24B Instruct 2501 | 240.0 | 84.80 | / | MistralAI | / |
| DeepSeek Coder-33B Instruct | 330.0 | 79.30 | 70 | DeepSeek-AI | / |
| WizardCoder-Python-34B | 340.0 | 73.20 | / | WizardLM Team | / |
| Phind-CodeLlama-34B-Python-v1 | 340.0 | 69.50 | / | Phind | / |
| Phind-CodeLlama-34B-v1 | 340.0 | 67.60 | / | Phind | / |
| Codestral | 220.0 | 61.50 | 78.20 | MistralAI | / |
| Qwen2.5-32B | 320.0 | 58.50 | 84.50 | 阿里巴巴 | / |
| CodeLLaMA-Python-34B | 340.0 | 53.70 | 56.20 | Facebook AI研究实验室 | / |
| YAYI2-30B | 300.0 | 53.10 | 45.80 | 中科闻歌 | / |
| CodeLLaMA-34B | 340.0 | 48.80 | 55 | Facebook AI研究实验室 | / |
| Yi-1.5-34B | 340.0 | 46.30 | 65.50 | 零一万物 | / |
| CodeLLaMA-Instruct-34B | 340.0 | 41.50 | 57 | Facebook AI研究实验室 | / |
| Grok-0 | 330.0 | 39.70 | / | xAI | / |
| Qwen1.5-32B | 320.0 | 37.20 | 49.40 | 阿里巴巴 | / |
| Aquila2-34B | 340.0 | 35.40 | / | 北京智源人工智能研究院 | / |
| XVERSE-MoE-A4.2B | 258.0 | 29.90 | / | 元象XVERSE | / |
| LLaMA2 34B | 340.0 | 22.60 | 33.80 | Facebook AI研究实验室 | / |
| Mistral Small 24B Base2501 | 240.0 | / | 69.64 | MistralAI | / |
数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。