大模型编程能力评测排行榜

Name: 大模型编程能力评测排行榜
Creator: DataLearner
License: https://creativecommons.org/licenses/by/4.0/

本页面提供当前主流大模型在代码能力上的评测结果，包括HumanEval和MBPP等基准数据集。

榜首模型

DeepSeek V2.5

最高得分

模型数量

139

数据版本

数据来源: 论文或GitHub评测结果

榜单历史快照月份:

排名总表

模型名称	参数大小	HumanEval Pass@1	MBPP Pass@1	发布者	开源情况
DeepSeek V2.5DeepSeek-AI	2,360	89.00	—	DeepSeek-AI	—
DeepSeek-V3DeepSeek-AI	6,810	82.60	—	DeepSeek-AI	—
DeepSeek Coder-33B InstructDeepSeek-AI	330	79.30	70.00	DeepSeek-AI	—
DeepSeek-V2-236B-ChatDeepSeek-AI	2,360	73.80	61.40	DeepSeek-AI	—
DeepSeek Coder-6.7B InstructDeepSeek-AI	67	66.10	65.40	DeepSeek-AI	—
DeepSeek-V3-BaseDeepSeek-AI	6,810	65.20	75.40	DeepSeek-AI	—
Moonlight-16B-A3B-InstructMoonshot AI	160	48.10	63.80	Moonshot AI	—
DeepSeek-V2-236BDeepSeek-AI	2,360	40.90	66.60	DeepSeek-AI	—

数据仅供参考，以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。