大模型编程水平评测对比

大模型编程能力评测对比表

重磅！DataLearnerAI大模型评测推出新版，新版包含更多更新评测数据，并即将支持自定义对比功能，欢迎访问：https://www.datalearner.com/ai-models/ai-benchmarks-tests/benchmarks-for-all

欢迎访问我们的大模型代码能力评测页面！在这里，我们为您汇总了当前主流大模型在编程水平上的表现榜单。代码生成已经是大模型应用最好的领域之一。我们的页面旨在为研究者和开发者提供一个全面、权威的模型编程能力对比工具，帮助您在众多的模型中做出明智的选择。

关于大模型的其它综合能力排行（如文本理解、数学能力等）参考DataLearner大模型综合排行榜： https://www.datalearner.com/ai-models/llm-evaluation

当前选择的评测基准包括2个：

Human Eval - HumanEval是一个用于评估代码生成模型性能的数据集，由OpenAI在2021年推出。这个数据集包含164个手工编写的编程问题，每个问题都包括一个函数签名、文档字符串（docstring）、函数体以及几个单元测试。这些问题涵盖了语言理解、推理、算法和简单数学等方面。这些问题的难度也各不相同，有些甚至与简单的软件面试问题相当。这个数据集的一个重要特点是，它不仅仅依赖于代码的语法正确性，还依赖于功能正确性。也就是说，生成的代码需要通过所有相关的单元测试才能被认为是正确的。这种方法更接近于实际编程任务，因为在实际编程中，代码不仅需要语法正确，还需要能够正确执行预定任务。结果通过pass@k表示，其中k表示模型一次性生成多少种不同的答案中，至少包含1个正确的结果。例如Pass@1就是只生成一个答案，准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前，收集的包含Pass@1、Pass@10和Pass@100
MBPP - MBPP（Mostly Basic Programming Problems）是一个数据集，主要包含了974个短小的Python函数问题，由谷歌在2021年推出，这些问题主要是为初级程序员设计的。数据集还包含了这些程序的文本描述和用于检查功能正确性的测试用例。结果通过pass@k表示，其中k表示模型一次性生成多少种不同的答案中，至少包含1个正确的结果。例如Pass@1就是只生成一个答案，准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前，收集的包含Pass@1、Pass@10和Pass@100

欢迎大家收藏，随时使用~

开源标志含义：

- 免费商用授权
- 收费商用授权
- 开源不可商用
- 不开源

按条件筛选

全部

3B及以下

13B

34B

65B

100B及以上

DataLearnerAI大模型评测推出新版，新版包含更多更新评测数据，并即将支持自定义对比功能，欢迎访问：https://www.datalearner.com/ai-models/ai-benchmarks-tests/benchmarks-for-all

模型名称	参数大小	HumanEval Pass@1	MBPP Pass@1	模型地址
Claude 3.5 Sonnet New	0.0	93.7	/	Claude 3.5 Sonnet New模型地址
Qwen2.5-Coder-32B-Instruct	320.0	92.7	90.2	Qwen2.5-Coder-32B-Instruct模型地址
OpenAI o1-mini		92.4	/	OpenAI o1-mini模型地址
Claude 3.5 Sonnet		92.0	/	Claude 3.5 Sonnet模型地址
GPT-4o	0.0	90.2	/	GPT-4o模型地址
Llama3.1-405B Instruct	4050.0	89.0	88.6	Llama3.1-405B Instruct模型地址
DeepSeek V2.5	2360.0	89.0	/	DeepSeek V2.5模型地址
Amazon Nova Pro		89.0	/	Amazon Nova Pro模型地址
Llama3.3-70B-Instruct	700.0	88.4	87.6	Llama3.3-70B-Instruct模型地址
Grok 2		88.4	/	Grok 2模型地址
Claude 3.5 Haiku	0.0	88.1	/	Claude 3.5 Haiku模型地址
GPT-4o mini	0.0	87.2	/	GPT-4o mini模型地址
Codestral 25.01		86.6	80.2	Codestral 25.01模型地址
Qwen2-72B-Instruct	720.0	86.0	80.2	Qwen2-72B-Instruct模型地址
GPT-4	1750.0	85.4	83.5	GPT-4模型地址
Amazon Nova Lite		85.4	/	Amazon Nova Lite模型地址
Claude3-Opus	0.0	84.9	/	Claude3-Opus模型地址
Mistral Small 24B Instruct 2501	240.0	84.8	/	Mistral Small 24B Instruct 2501模型地址
Qwen2.5-Omni-7B	70.0	84.8	79.2	Qwen2.5-Omni-7B模型地址
Llama3-400B-Instruct-InTraining	4000.0	84.1	/	Llama3-400B-Instruct-InTraining模型地址
CodeQwen1.5-7B-Chat	70.0	83.5	77.7	CodeQwen1.5-7B-Chat模型地址
Phi 4 - 14B	140.0	82.6	/	Phi 4 - 14B模型地址
DeepSeek-V3	6810.0	82.6	/	DeepSeek-V3模型地址
Llama3-70B	700.0	81.7	/	Llama3-70B模型地址
Llama3-70B-Instruct	700.0	81.7	/	Llama3-70B-Instruct模型地址
Amazon Nova Micro		81.1	/	Amazon Nova Micro模型地址
Llama3.1-70B-Instruct	700.0	80.5	86.0	Llama3.1-70B-Instruct模型地址
C4AI Command A (202503)	1110.0	80.0	/	C4AI Command A (202503)模型地址
DeepSeek Coder-33B Instruct	330.0	79.3	70.0	DeepSeek Coder-33B Instruct模型地址
Claude3-Haiku	0.0	75.9	/	Claude3-Haiku模型地址
Gemini-ultra	0.0	74.4	/	Gemini-ultra模型地址
Grok-1.5		74.1	/	Grok-1.5模型地址
DeepSeek-V2-236B-Chat	2360.0	73.8	61.4	DeepSeek-V2-236B-Chat模型地址
WizardCoder-Python-34B	340.0	73.2	/	WizardCoder-Python-34B模型地址
Qwen2.5-Max		73.2	80.6	Qwen2.5-Max模型地址
Claude3-Sonnet	0.0	73.0	/	Claude3-Sonnet模型地址
Llama3.1-8B-Instruct	80.0	72.6	72.8	Llama3.1-8B-Instruct模型地址
GLM4	0.0	72.0	/	GLM4模型地址
Gemini 1.5 Pro	0.0	71.9	/	Gemini 1.5 Pro模型地址
GLM-4-9B-Chat	90.0	71.8	/	GLM-4-9B-Chat模型地址
DBRX Instruct	1320.0	70.1	/	DBRX Instruct模型地址
GLM-4-9B	90.0	70.1	/	GLM-4-9B模型地址
Phind-CodeLlama-34B-Python-v1	340.0	69.5	/	Phind-CodeLlama-34B-Python-v1模型地址
Gemini-pro	1000.0	67.7	/	Gemini-pro模型地址
Phind-CodeLlama-34B-v1	340.0	67.6	/	Phind-CodeLlama-34B-v1模型地址
DeepSeek Coder-6.7B Instruct	67.0	66.1	65.4	DeepSeek Coder-6.7B Instruct模型地址
DeepSeek-V3-Base	6810.0	65.2	75.4	DeepSeek-V3-Base模型地址
Qwen2-72B	727.0	64.6	76.9	Qwen2-72B模型地址
WizardCoder-Python-13B-V1.0	130.0	64.0	54.6	WizardCoder-Python-13B-V1.0模型地址
Grok-1	3140.0	63.2	/	Grok-1模型地址
Llama3-8B	80.0	62.2	/	Llama3-8B模型地址
Llama3-8B-Instruct	80.0	62.2	/	Llama3-8B-Instruct模型地址
PanGu-Coder2	150.0	61.64	/	PanGu-Coder2模型地址
Codestral	220.0	61.5	78.2	Codestral模型地址
Phi-3-small 7B	70.0	59.1	71.4	Phi-3-small 7B模型地址
Qwen2.5-72B	727.0	59.1	84.7	Qwen2.5-72B模型地址
Phi-3-mini 3.8B	38.0	58.5	70.0	Phi-3-mini 3.8B模型地址
Qwen2.5-32B	320.0	58.5	84.5	Qwen2.5-32B模型地址
Qwen2.5-7B	70.0	57.9	74.9	Qwen2.5-7B模型地址
WizardCoder-15B-V1.0	150.0	57.3	/	WizardCoder-15B-V1.0模型地址
Qwen2.5-14B	140.0	56.7	76.7	Qwen2.5-14B模型地址
CodeGemma-7B-IT	70.0	56.1	54.2	CodeGemma-7B-IT模型地址
Phi-3-medium 14B-preview	140.0	55.5	74.4	Phi-3-medium 14B-preview模型地址
MiniCPM-MoE-8x2B	136.0	55.49	41.68	MiniCPM-MoE-8x2B模型地址
CodeLLaMA-Python-34B	340.0	53.7	56.2	CodeLLaMA-Python-34B模型地址
YAYI2-30B	300.0	53.1	45.8	YAYI2-30B模型地址
Qwen2-57B-A14B	570.0	53.0	71.9	Qwen2-57B-A14B模型地址
Qwen1.5-110B	1100.0	52.4	58.1	Qwen1.5-110B模型地址
CodeQwen1.5-7B	70.0	51.8	72.2	CodeQwen1.5-7B模型地址
Qwen2-7B	70.0	51.2	65.9	Qwen2-7B模型地址
Phi-1	13.0	50.6	55.5	Phi-1模型地址
MiniCPM-2B-DPO	24.0	50.0	47.31	MiniCPM-2B-DPO模型地址
CodeLLaMA-34B	340.0	48.8	55.0	CodeLLaMA-34B模型地址
Phi-2	27.0	48.3	59.1	Phi-2模型地址
GPT-3.5	1750.0	48.1	52.2	GPT-3.5模型地址
Moonlight-16B-A3B-Instruct	160.0	48.1	63.8	Moonlight-16B-A3B-Instruct模型地址
Yi-1.5-34B	340.0	46.3	65.5	Yi-1.5-34B模型地址
Mixtral-8×22B-MoE	1410.0	45.1	71.2	Mixtral-8×22B-MoE模型地址
CodeGemma-7B	70.0	44.5	56.2	CodeGemma-7B模型地址
CodeLLaMA-Python-13B	130.0	43.3	49.0	CodeLLaMA-Python-13B模型地址
CodeLLaMA-Instruct-13B	130.0	42.7	49.4	CodeLLaMA-Instruct-13B模型地址
Qwen2.5-3B	30.0	42.1	57.1	Qwen2.5-3B模型地址
CodeLLaMA-Instruct-34B	340.0	41.5	57.0	CodeLLaMA-Instruct-34B模型地址
Qwen1.5-72B-Chat	720.0	41.5	53.4	Qwen1.5-72B-Chat模型地址
Yi-1.5-9B	90.0	41.4	61.1	Yi-1.5-9B模型地址
DeepSeek-V2-236B	2360.0	40.9	66.6	DeepSeek-V2-236B模型地址
Mixtral-8×7B-MoE	450.0	40.2	60.7	Mixtral-8×7B-MoE模型地址
Gemma 2 - 9B	90.0	40.2	52.4	Gemma 2 - 9B模型地址
Grok-0	330.0	39.7	/	Grok-0模型地址
Yi-9B	90.0	39.0	54.4	Yi-9B模型地址
CodeLLaMA-Python-7B	70.0	38.4	47.6	CodeLLaMA-Python-7B模型地址
WizardLM-30B-V1	300.0	37.8	/	WizardLM-30B-V1模型地址
PaLM2-S	0.0	37.6	50.0	PaLM2-S模型地址
Qwen1.5-32B	320.0	37.2	49.4	Qwen1.5-32B模型地址
Qwen2.5-1.5B	15.0	37.2	60.2	Qwen2.5-1.5B模型地址
CodeLLaMA-13B	130.0	36.0	47.0	CodeLLaMA-13B模型地址
CodeGeeX2-6B	60.0	35.9	/	CodeGeeX2-6B模型地址
PaLM-Coder	5400.0	35.9	47.0	PaLM-Coder模型地址
Aquila2-34B	340.0	35.4	/	Aquila2-34B模型地址
Qwen-72B	720.0	35.4	52.2	Qwen-72B模型地址
Stable LM Zephyr 3B	30.0	35.37	31.85	Stable LM Zephyr 3B模型地址
CodeLLaMA-Instruct-7B	70.0	34.8	44.4	CodeLLaMA-Instruct-7B模型地址
WizardCoder-3B-V1.0	30.0	34.8	37.4	WizardCoder-3B-V1.0模型地址
Qwen1.5-MoE-A2.7B	143.0	34.2	/	Qwen1.5-MoE-A2.7B模型地址
Phi-1.5	13.0	34.1	37.7	Phi-1.5模型地址
StarCoder	155.0	33.6	52.7	StarCoder模型地址
CodeLLaMA-7B	70.0	33.5	41.4	CodeLLaMA-7B模型地址
Qwen-14B	140.0	32.3	40.8	Qwen-14B模型地址
Gemma 7B	70.0	32.3	44.4	Gemma 7B模型地址
Qwen2-1.5B	15.0	31.1	37.4	Qwen2-1.5B模型地址
LLaMA2 70B	700.0	30.5	45.4	LLaMA2 70B模型地址
Mistral 7B	73.0	30.5	47.5	Mistral 7B模型地址
Qwen2.5-0.5B	5.0	30.5	39.3	Qwen2.5-0.5B模型地址
StarCodeBase	155.0	30.4	49.0	StarCodeBase模型地址
Qwen-7B	70.0	29.9	31.6	Qwen-7B模型地址
XVERSE-MoE-A4.2B	258.0	29.9	/	XVERSE-MoE-A4.2B模型地址
Codex	1750.0	28.81	/	Codex模型地址
AquilaCode-7B-py	70.0	28.8	/	AquilaCode-7B-py模型地址
XVERSE-65B	650.0	26.8	/	XVERSE-65B模型地址
PaLM	5400.0	26.2	47.0	PaLM模型地址
WizardCoder-1B-V1.0	10.0	23.8	28.6	WizardCoder-1B-V1.0模型地址
CodeGeeX	130.0	22.9	/	CodeGeeX模型地址
LLaMA2 34B	340.0	22.6	33.8	LLaMA2 34B模型地址
AquilaCode-7B-multi	70.0	22.0	/	AquilaCode-7B-multi模型地址
Gemma 2B	20.0	22.0	29.2	Gemma 2B模型地址
Gemma 2B - It	20.0	22.0	29.2	Gemma 2B - It模型地址
CodeGemma-2B	20.0	22.0	29.2	CodeGemma-2B模型地址
Qwen2-0.5B	4.0	22.0	22.0	Qwen2-0.5B模型地址
RecurrentGemma-2B	27.0	21.3	28.8	RecurrentGemma-2B模型地址
LLaMA2 13B	130.0	20.1	27.6	LLaMA2 13B模型地址
Baichuan2-7B-Base	70.0	18.29	24.2	Baichuan2-7B-Base模型地址
Baichuan2-13B-Base	130.0	17.07	30.2	Baichuan2-13B-Base模型地址
Qwen-1.8B	18.0	15.2	/	Qwen-1.8B模型地址
LLaMA2 7B	70.0	12.2	20.8	LLaMA2 7B模型地址
Baichuan 13B - Base	130.0	11.59	22.9	Baichuan 13B - Base模型地址
Baichuan 7B	70.0	9.2	6.6	Baichuan 7B模型地址
TinyLlama	11.0	6.71	19.91	TinyLlama模型地址
Mistral Large	0.0	4.1	7.1	Mistral Large模型地址
Mistral Small 24B Base2501	240.0	/	69.64	Mistral Small 24B Base2501模型地址

数据说明：所有数据来源于论文或者GitHub上的评测结果，以官方论文为主，部分数据来源第三方评测！