datalearner-logo AI大模型学习
  • AI博客
    原创AI博客 大模型技术博客
  • AI大模型排行榜
    业界大模型评测基准 全球大模型最新评测基准结果 大模型综合能力排行榜 大模型编程能力排行榜 LMSys ChatBot Arena排行榜 Berkeley大模型工具使用能力排行榜 OpenLLMLeaderboard中国站
  • 全球大模型最新评测结果
  • AI大模型大全
  • 大模型部署教程
  • 2023年度AI产品总结
  • AI资源仓库
    AI领域与任务 AI研究机构 AI数据集 AI开源工具 数据推荐
  • AI大模型
    国产AI大模型生态全览 AI模型概览图 AI模型月报 AI基础大模型
  • AI大模型工具导航
    AI大模型工具导航网站 在线聊天大模型列表

大模型编程能力评测对比表

重磅!DataLearnerAI大模型评测推出新版,新版包含更多更新评测数据,并即将支持自定义对比功能,欢迎访问:https://www.datalearner.com/ai-models/ai-benchmarks-tests/benchmarks-for-all
欢迎访问我们的大模型代码能力评测页面!在这里,我们为您汇总了当前主流大模型在编程水平上的表现榜单。代码生成已经是大模型应用最好的领域之一。 我们的页面旨在为研究者和开发者提供一个全面、权威的模型编程能力对比工具,帮助您在众多的模型中做出明智的选择。
关于大模型的其它综合能力排行(如文本理解、数学能力等)参考DataLearner大模型综合排行榜: https://www.datalearner.com/ai-models/llm-evaluation
当前选择的评测基准包括2个:
  • Human Eval - HumanEval是一个用于评估代码生成模型性能的数据集,由OpenAI在2021年推出。这个数据集包含164个手工编写的编程问题,每个问题都包括一个函数签名、文档字符串(docstring)、函数体以及几个单元测试。这些问题涵盖了语言理解、推理、算法和简单数学等方面。这些问题的难度也各不相同,有些甚至与简单的软件面试问题相当。 这个数据集的一个重要特点是,它不仅仅依赖于代码的语法正确性,还依赖于功能正确性。也就是说,生成的代码需要通过所有相关的单元测试才能被认为是正确的。这种方法更接近于实际编程任务,因为在实际编程中,代码不仅需要语法正确,还需要能够正确执行预定任务。结果通过pass@k表示,其中k表示模型一次性生成多少种不同的答案中,至少包含1个正确的结果。例如Pass@1就是只生成一个答案,准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前,收集的包含Pass@1、Pass@10和Pass@100

  • MBPP - MBPP(Mostly Basic Programming Problems)是一个数据集,主要包含了974个短小的Python函数问题,由谷歌在2021年推出,这些问题主要是为初级程序员设计的。数据集还包含了这些程序的文本描述和用于检查功能正确性的测试用例。 结果通过pass@k表示,其中k表示模型一次性生成多少种不同的答案中,至少包含1个正确的结果。例如Pass@1就是只生成一个答案,准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前,收集的包含Pass@1、Pass@10和Pass@100

欢迎大家收藏,随时使用~
开源标志含义:
  • - 免费商用授权

  • - 收费商用授权

  • - 开源不可商用

  • - 不开源

按条件筛选
全部
3B及以下
7B
13B
34B
65B
100B及以上
模型名称 参数大小 HumanEval Pass@1 MBPP Pass@1 发布者 开源情况 模型地址

Qwen2.5-Coder-32B-Instruct

320.0

92.7

90.2

阿里巴巴 Qwen2.5-Coder-32B-Instruct模型地址

Mistral Small 24B Instruct 2501

240.0

84.8

/

MistralAI Mistral Small 24B Instruct 2501模型地址

DeepSeek Coder-33B Instruct

330.0

79.3

70.0

DeepSeek-AI DeepSeek Coder-33B Instruct模型地址

WizardCoder-Python-34B

340.0

73.2

/

WizardLM Team WizardCoder-Python-34B模型地址

Phind-CodeLlama-34B-Python-v1

340.0

69.5

/

Phind Phind-CodeLlama-34B-Python-v1模型地址

Phind-CodeLlama-34B-v1

340.0

67.6

/

Phind Phind-CodeLlama-34B-v1模型地址

Codestral

220.0

61.5

78.2

MistralAI Codestral模型地址

Qwen2.5-32B

320.0

58.5

84.5

阿里巴巴 Qwen2.5-32B模型地址

CodeLLaMA-Python-34B

340.0

53.7

56.2

Facebook AI研究实验室 CodeLLaMA-Python-34B模型地址

YAYI2-30B

300.0

53.1

45.8

中科闻歌 YAYI2-30B模型地址

CodeLLaMA-34B

340.0

48.8

55.0

Facebook AI研究实验室 CodeLLaMA-34B模型地址

Yi-1.5-34B

340.0

46.3

65.5

零一万物 Yi-1.5-34B模型地址

CodeLLaMA-Instruct-34B

340.0

41.5

57.0

Facebook AI研究实验室 CodeLLaMA-Instruct-34B模型地址

Grok-0

330.0

39.7

/

xAI Grok-0模型地址

Qwen1.5-32B

320.0

37.2

49.4

阿里巴巴 Qwen1.5-32B模型地址

Aquila2-34B

340.0

35.4

/

北京智源人工智能研究院 Aquila2-34B模型地址

XVERSE-MoE-A4.2B

258.0

29.9

/

元象XVERSE XVERSE-MoE-A4.2B模型地址

LLaMA2 34B

340.0

22.6

33.8

Facebook AI研究实验室 LLaMA2 34B模型地址

Mistral Small 24B Base2501

240.0

/

69.64

MistralAI Mistral Small 24B Base2501模型地址

数据说明:所有数据来源于论文或者GitHub上的评测结果,以官方论文为主,部分数据来源第三方评测!