datalearner-logo AI大模型学习
  • AI博客
    原创AI博客 大模型技术博客
  • AI大模型排行榜
    业界大模型评测基准 全球大模型最新评测基准结果 大模型综合能力排行榜 大模型编程能力排行榜 LMSys ChatBot Arena排行榜 Berkeley大模型工具使用能力排行榜 OpenLLMLeaderboard中国站
  • 全球大模型最新评测结果
  • AI大模型大全(新版)
    AI大模型大全(新版) AI大模型大全
  • 大模型部署教程
  • 2023年度AI产品总结
  • AI资源仓库
    AI领域与任务 AI研究机构 AI数据集 AI开源工具 数据推荐
  • AI大模型
    国产AI大模型生态全览 AI模型概览图 AI模型月报 AI基础大模型
  • AI大模型工具导航
    AI大模型工具导航网站 在线聊天大模型列表

大模型编程能力评测对比表

重磅!DataLearnerAI大模型评测推出新版,新版包含更多更新评测数据,并即将支持自定义对比功能,欢迎访问:https://www.datalearner.com/ai-models/ai-benchmarks-tests/benchmarks-for-all
欢迎访问我们的大模型代码能力评测页面!在这里,我们为您汇总了当前主流大模型在编程水平上的表现榜单。代码生成已经是大模型应用最好的领域之一。 我们的页面旨在为研究者和开发者提供一个全面、权威的模型编程能力对比工具,帮助您在众多的模型中做出明智的选择。
关于大模型的其它综合能力排行(如文本理解、数学能力等)参考DataLearner大模型综合排行榜: https://www.datalearner.com/ai-models/llm-evaluation
当前选择的评测基准包括2个:
  • Human Eval - HumanEval是一个用于评估代码生成模型性能的数据集,由OpenAI在2021年推出。这个数据集包含164个手工编写的编程问题,每个问题都包括一个函数签名、文档字符串(docstring)、函数体以及几个单元测试。这些问题涵盖了语言理解、推理、算法和简单数学等方面。这些问题的难度也各不相同,有些甚至与简单的软件面试问题相当。 这个数据集的一个重要特点是,它不仅仅依赖于代码的语法正确性,还依赖于功能正确性。也就是说,生成的代码需要通过所有相关的单元测试才能被认为是正确的。这种方法更接近于实际编程任务,因为在实际编程中,代码不仅需要语法正确,还需要能够正确执行预定任务。结果通过pass@k表示,其中k表示模型一次性生成多少种不同的答案中,至少包含1个正确的结果。例如Pass@1就是只生成一个答案,准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前,收集的包含Pass@1、Pass@10和Pass@100

  • MBPP - MBPP(Mostly Basic Programming Problems)是一个数据集,主要包含了974个短小的Python函数问题,由谷歌在2021年推出,这些问题主要是为初级程序员设计的。数据集还包含了这些程序的文本描述和用于检查功能正确性的测试用例。 结果通过pass@k表示,其中k表示模型一次性生成多少种不同的答案中,至少包含1个正确的结果。例如Pass@1就是只生成一个答案,准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前,收集的包含Pass@1、Pass@10和Pass@100

欢迎大家收藏,随时使用~
开源标志含义:
  • - 免费商用授权

  • - 收费商用授权

  • - 开源不可商用

  • - 不开源

按条件筛选
全部
3B及以下
7B
13B
34B
65B
100B及以上
模型名称 参数大小 HumanEval Pass@1 MBPP Pass@1 发布者 开源情况 模型地址

Qwen2.5-Omni-7B

70.0

84.8

79.2

阿里巴巴 Qwen2.5-Omni-7B模型地址

CodeQwen1.5-7B-Chat

70.0

83.5

77.7

阿里巴巴 CodeQwen1.5-7B-Chat模型地址

Llama3.1-8B-Instruct

80.0

72.6

72.8

Facebook AI研究实验室 Llama3.1-8B-Instruct模型地址

GLM-4-9B-Chat

90.0

71.8

/

智谱AI GLM-4-9B-Chat模型地址

GLM-4-9B

90.0

70.1

/

智谱AI GLM-4-9B模型地址

DeepSeek Coder-6.7B Instruct

67.0

66.1

65.4

DeepSeek-AI DeepSeek Coder-6.7B Instruct模型地址

Llama3-8B

80.0

62.2

/

Facebook AI研究实验室 Llama3-8B模型地址

Llama3-8B-Instruct

80.0

62.2

/

Facebook AI研究实验室 Llama3-8B-Instruct模型地址

Phi-3-small 7B

70.0

59.1

71.4

Microsoft Phi-3-small 7B模型地址

Qwen2.5-7B

70.0

57.9

74.9

阿里巴巴 Qwen2.5-7B模型地址

CodeGemma-7B-IT

70.0

56.1

54.2

Google Research CodeGemma-7B-IT模型地址

CodeQwen1.5-7B

70.0

51.8

72.2

阿里巴巴 CodeQwen1.5-7B模型地址

Qwen2-7B

70.0

51.2

65.9

阿里巴巴 Qwen2-7B模型地址

CodeGemma-7B

70.0

44.5

56.2

Google Research CodeGemma-7B模型地址

Gemma 2 - 9B

90.0

40.2

52.4

Google Research Gemma 2 - 9B模型地址

CodeLLaMA-Python-7B

70.0

38.4

47.6

Facebook AI研究实验室 CodeLLaMA-Python-7B模型地址

PaLM2-S

0.0

37.6

50.0

Google Research PaLM2-S模型地址

CodeGeeX2-6B

60.0

35.9

/

智谱AI CodeGeeX2-6B模型地址

CodeLLaMA-Instruct-7B

70.0

34.8

44.4

Facebook AI研究实验室 CodeLLaMA-Instruct-7B模型地址

WizardCoder-3B-V1.0

30.0

34.8

37.4

WizardLM Team WizardCoder-3B-V1.0模型地址

CodeLLaMA-7B

70.0

33.5

41.4

Facebook AI研究实验室 CodeLLaMA-7B模型地址

Gemma 7B

70.0

32.3

44.4

Google Research Gemma 7B模型地址

Mistral 7B

73.0

30.5

47.5

MistralAI Mistral 7B模型地址

Qwen-7B

70.0

29.9

31.6

阿里巴巴 Qwen-7B模型地址

AquilaCode-7B-py

70.0

28.8

/

北京智源人工智能研究院 AquilaCode-7B-py模型地址

WizardCoder-1B-V1.0

10.0

23.8

28.6

WizardLM Team WizardCoder-1B-V1.0模型地址

AquilaCode-7B-multi

70.0

22.0

/

北京智源人工智能研究院 AquilaCode-7B-multi模型地址

Baichuan2-7B-Base

70.0

18.29

24.2

百川智能 Baichuan2-7B-Base模型地址

LLaMA2 7B

70.0

12.2

20.8

Facebook AI研究实验室 LLaMA2 7B模型地址

Baichuan 7B

70.0

9.2

6.6

百川智能 Baichuan 7B模型地址

数据说明:所有数据来源于论文或者GitHub上的评测结果,以官方论文为主,部分数据来源第三方评测!