大模型编程水平评测对比

大模型编程能力评测对比表

重磅！DataLearnerAI大模型评测推出新版，新版包含更多更新评测数据，并即将支持自定义对比功能，欢迎访问：https://www.datalearner.com/ai-models/ai-benchmarks-tests/benchmarks-for-all

欢迎访问我们的大模型代码能力评测页面！在这里，我们为您汇总了当前主流大模型在编程水平上的表现榜单。代码生成已经是大模型应用最好的领域之一。我们的页面旨在为研究者和开发者提供一个全面、权威的模型编程能力对比工具，帮助您在众多的模型中做出明智的选择。

关于大模型的其它综合能力排行（如文本理解、数学能力等）参考DataLearner大模型综合排行榜： https://www.datalearner.com/ai-models/llm-evaluation

当前选择的评测基准包括2个：

Human Eval - HumanEval是一个用于评估代码生成模型性能的数据集，由OpenAI在2021年推出。这个数据集包含164个手工编写的编程问题，每个问题都包括一个函数签名、文档字符串（docstring）、函数体以及几个单元测试。这些问题涵盖了语言理解、推理、算法和简单数学等方面。这些问题的难度也各不相同，有些甚至与简单的软件面试问题相当。这个数据集的一个重要特点是，它不仅仅依赖于代码的语法正确性，还依赖于功能正确性。也就是说，生成的代码需要通过所有相关的单元测试才能被认为是正确的。这种方法更接近于实际编程任务，因为在实际编程中，代码不仅需要语法正确，还需要能够正确执行预定任务。结果通过pass@k表示，其中k表示模型一次性生成多少种不同的答案中，至少包含1个正确的结果。例如Pass@1就是只生成一个答案，准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前，收集的包含Pass@1、Pass@10和Pass@100
MBPP - MBPP（Mostly Basic Programming Problems）是一个数据集，主要包含了974个短小的Python函数问题，由谷歌在2021年推出，这些问题主要是为初级程序员设计的。数据集还包含了这些程序的文本描述和用于检查功能正确性的测试用例。结果通过pass@k表示，其中k表示模型一次性生成多少种不同的答案中，至少包含1个正确的结果。例如Pass@1就是只生成一个答案，准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前，收集的包含Pass@1、Pass@10和Pass@100

欢迎大家收藏，随时使用~

开源标志含义：

- 免费商用授权
- 收费商用授权
- 开源不可商用
- 不开源

按条件筛选

全部

3B及以下

13B

34B

65B

100B及以上

模型名称	参数大小	HumanEval Pass@1	MBPP Pass@1	模型地址
Llama3.3-70B-Instruct	700.0	88.4	87.6	Llama3.3-70B-Instruct模型地址
Qwen2-72B-Instruct	720.0	86.0	80.2	Qwen2-72B-Instruct模型地址
Llama3-70B	700.0	81.7	/	Llama3-70B模型地址
Llama3-70B-Instruct	700.0	81.7	/	Llama3-70B-Instruct模型地址
Llama3.1-70B-Instruct	700.0	80.5	86.0	Llama3.1-70B-Instruct模型地址
Gemini-pro	1000.0	67.7	/	Gemini-pro模型地址
Qwen2-72B	727.0	64.6	76.9	Qwen2-72B模型地址
Qwen2.5-72B	727.0	59.1	84.7	Qwen2.5-72B模型地址
Qwen2-57B-A14B	570.0	53.0	71.9	Qwen2-57B-A14B模型地址
Qwen1.5-72B-Chat	720.0	41.5	53.4	Qwen1.5-72B-Chat模型地址
Mixtral-8×7B-MoE	450.0	40.2	60.7	Mixtral-8×7B-MoE模型地址
Qwen-72B	720.0	35.4	52.2	Qwen-72B模型地址
LLaMA2 70B	700.0	30.5	45.4	LLaMA2 70B模型地址
XVERSE-65B	650.0	26.8	/	XVERSE-65B模型地址

数据说明：所有数据来源于论文或者GitHub上的评测结果，以官方论文为主，部分数据来源第三方评测！