大模型编程能力评测排行榜

Name: 大模型编程能力评测排行榜
Creator: DataLearner
License: https://creativecommons.org/licenses/by/4.0/

本页面提供当前主流大模型在代码能力上的评测结果，包括HumanEval和MBPP等基准数据集。

榜首模型

OpenAI o1-mini

最高得分

模型数量

数据版本

数据来源: 论文或GitHub评测结果

榜单历史快照月份:

排名总表

模型名称	参数大小	HumanEval Pass@1	MBPP Pass@1	发布者	开源情况
OpenAI o1-miniOpenAI	—	92.40	—	OpenAI	闭源
Claude 3.5 SonnetAnthropic	—	92.00	—	Anthropic	闭源
Llama3.1-405B InstructFacebook AI研究实验室	4,050	89.00	88.60	Facebook AI研究实验室	—
DeepSeek V2.5DeepSeek-AI	2,360	89.00	—	DeepSeek-AI	—
Amazon Nova Pro亚马逊	—	89.00	—	亚马逊	闭源
Grok 2xAI	2,690	88.40	—	xAI	—
Codestral 25.01MistralAI	—	86.60	80.20	MistralAI	闭源
GPT-4OpenAI	1,750	85.40	83.50	OpenAI	闭源
Amazon Nova Lite亚马逊	—	85.40	—	亚马逊	闭源
Llama3-400B-Instruct-InTrainingFacebook AI研究实验室	4,000	84.10	—	Facebook AI研究实验室	—
DeepSeek-V3DeepSeek-AI	6,810	82.60	—	DeepSeek-AI	—
Amazon Nova Micro亚马逊	—	81.10	—	亚马逊	闭源
C4AI Command A (202503)CohereAI	1,110	80.00	—	CohereAI	不可商用
Grok-1.5xAI	—	74.10	—	xAI	闭源
DeepSeek-V2-236B-ChatDeepSeek-AI	2,360	73.80	61.40	DeepSeek-AI	—
Qwen2.5-Max阿里巴巴	—	73.20	80.60	阿里巴巴	闭源
DBRX Instructdatabricks	1,320	70.10	—	databricks	—
DeepSeek-V3-BaseDeepSeek-AI	6,810	65.20	75.40	DeepSeek-AI	—
Grok-1xAI	3,140	63.20	—	xAI	—
Qwen1.5-110B阿里巴巴	1,100	52.40	58.10	阿里巴巴	—
GPT-3.5OpenAI	1,750	48.10	52.20	OpenAI	闭源
Mixtral-8×22B-MoEMistralAI	1,410	45.10	71.20	MistralAI	—
DeepSeek-V2-236BDeepSeek-AI	2,360	40.90	66.60	DeepSeek-AI	—
PaLM-CoderGoogle Research	5,400	35.90	47.00	Google Research	闭源
CodexOpenAI	1,750	28.81	—	OpenAI	闭源
PaLMGoogle Research	5,400	26.20	47.00	Google Research	闭源

数据仅供参考，以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。