大模型编程能力评测排行榜

本页面提供当前主流大模型在代码能力上的评测结果,包括HumanEval和MBPP等基准数据集。

榜首模型

OpenAI o1-mini

最高得分

-

模型数量

26

数据版本

-

数据来源: 论文或GitHub评测结果

榜单历史快照月份:

排名总表

模型名称参数大小HumanEval Pass@1MBPP Pass@1发布者开源情况
OpenAIOpenAI o1-miniOpenAI92.40OpenAI闭源
AnthropicClaude 3.5 SonnetAnthropic92.00Anthropic闭源
Facebook AI研究实验室Llama3.1-405B InstructFacebook AI研究实验室4,05089.0088.60Facebook AI研究实验室
DeepSeek-AIDeepSeek V2.5DeepSeek-AI2,36089.00DeepSeek-AI
亚马逊Amazon Nova Pro亚马逊89.00亚马逊闭源
xAIGrok 2xAI2,69088.40xAI
MistralAICodestral 25.01MistralAI86.6080.20MistralAI闭源
OpenAIGPT-4OpenAI1,75085.4083.50OpenAI闭源
亚马逊Amazon Nova Lite亚马逊85.40亚马逊闭源
Facebook AI研究实验室Llama3-400B-Instruct-InTrainingFacebook AI研究实验室4,00084.10Facebook AI研究实验室
DeepSeek-AIDeepSeek-V3DeepSeek-AI6,81082.60DeepSeek-AI
亚马逊Amazon Nova Micro亚马逊81.10亚马逊闭源
CohereAIC4AI Command A (202503)CohereAI1,11080.00CohereAI不可商用
xAIGrok-1.5xAI74.10xAI闭源
DeepSeek-AIDeepSeek-V2-236B-ChatDeepSeek-AI2,36073.8061.40DeepSeek-AI
阿里巴巴Qwen2.5-Max阿里巴巴73.2080.60阿里巴巴闭源
databricksDBRX Instructdatabricks1,32070.10databricks
DeepSeek-AIDeepSeek-V3-BaseDeepSeek-AI6,81065.2075.40DeepSeek-AI
xAIGrok-1xAI3,14063.20xAI
阿里巴巴Qwen1.5-110B阿里巴巴1,10052.4058.10阿里巴巴
OpenAIGPT-3.5OpenAI1,75048.1052.20OpenAI闭源
MistralAIMixtral-8×22B-MoEMistralAI1,41045.1071.20MistralAI
DeepSeek-AIDeepSeek-V2-236BDeepSeek-AI2,36040.9066.60DeepSeek-AI
Google ResearchPaLM-CoderGoogle Research5,40035.9047.00Google Research闭源
OpenAICodexOpenAI1,75028.81OpenAI闭源
Google ResearchPaLMGoogle Research5,40026.2047.00Google Research闭源

数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。