datalearner-logo AI大模型学习
  • AI博客
    原创AI博客 大模型技术博客
  • AI大模型排行榜
    业界大模型评测基准 全球大模型最新评测基准结果 大模型综合能力排行榜 大模型编程能力排行榜 LMSys ChatBot Arena排行榜 Berkeley大模型工具使用能力排行榜 OpenLLMLeaderboard中国站
  • 全球大模型最新评测结果
  • AI大模型大全
  • 大模型部署教程
  • 2023年度AI产品总结
  • AI资源仓库
    AI领域与任务 AI研究机构 AI数据集 AI开源工具 数据推荐
  • AI大模型
    国产AI大模型生态全览 AI模型概览图 AI模型月报 AI基础大模型
  • AI大模型工具导航
    AI大模型工具导航网站 在线聊天大模型列表

大模型编程能力评测对比表

重磅!DataLearnerAI大模型评测推出新版,新版包含更多更新评测数据,并即将支持自定义对比功能,欢迎访问:https://www.datalearner.com/ai-models/ai-benchmarks-tests/benchmarks-for-all
欢迎访问我们的大模型代码能力评测页面!在这里,我们为您汇总了当前主流大模型在编程水平上的表现榜单。代码生成已经是大模型应用最好的领域之一。 我们的页面旨在为研究者和开发者提供一个全面、权威的模型编程能力对比工具,帮助您在众多的模型中做出明智的选择。
关于大模型的其它综合能力排行(如文本理解、数学能力等)参考DataLearner大模型综合排行榜: https://www.datalearner.com/ai-models/llm-evaluation
当前选择的评测基准包括2个:
  • Human Eval - HumanEval是一个用于评估代码生成模型性能的数据集,由OpenAI在2021年推出。这个数据集包含164个手工编写的编程问题,每个问题都包括一个函数签名、文档字符串(docstring)、函数体以及几个单元测试。这些问题涵盖了语言理解、推理、算法和简单数学等方面。这些问题的难度也各不相同,有些甚至与简单的软件面试问题相当。 这个数据集的一个重要特点是,它不仅仅依赖于代码的语法正确性,还依赖于功能正确性。也就是说,生成的代码需要通过所有相关的单元测试才能被认为是正确的。这种方法更接近于实际编程任务,因为在实际编程中,代码不仅需要语法正确,还需要能够正确执行预定任务。结果通过pass@k表示,其中k表示模型一次性生成多少种不同的答案中,至少包含1个正确的结果。例如Pass@1就是只生成一个答案,准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前,收集的包含Pass@1、Pass@10和Pass@100

  • MBPP - MBPP(Mostly Basic Programming Problems)是一个数据集,主要包含了974个短小的Python函数问题,由谷歌在2021年推出,这些问题主要是为初级程序员设计的。数据集还包含了这些程序的文本描述和用于检查功能正确性的测试用例。 结果通过pass@k表示,其中k表示模型一次性生成多少种不同的答案中,至少包含1个正确的结果。例如Pass@1就是只生成一个答案,准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前,收集的包含Pass@1、Pass@10和Pass@100

欢迎大家收藏,随时使用~
开源标志含义:
  • - 免费商用授权

  • - 收费商用授权

  • - 开源不可商用

  • - 不开源

按条件筛选
全部
3B及以下
7B
13B
34B
65B
100B及以上
模型名称 参数大小 HumanEval Pass@1 MBPP Pass@1 发布者 开源情况 模型地址

Claude 3.5 Sonnet New

0.0

93.7

/

Anthropic Claude 3.5 Sonnet New模型地址

Qwen2.5-Coder-32B-Instruct

320.0

92.7

90.2

阿里巴巴 Qwen2.5-Coder-32B-Instruct模型地址

OpenAI o1-mini

92.4

/

OpenAI OpenAI o1-mini模型地址

Claude 3.5 Sonnet

92.0

/

Anthropic Claude 3.5 Sonnet模型地址

GPT-4o

90.2

/

OpenAI GPT-4o模型地址

Llama3.1-405B Instruct

4050.0

89.0

88.6

Facebook AI研究实验室 Llama3.1-405B Instruct模型地址

DeepSeek V2.5

2360.0

89.0

/

DeepSeek-AI DeepSeek V2.5模型地址

Amazon Nova Pro

89.0

/

亚马逊 Amazon Nova Pro模型地址

Llama3.3-70B-Instruct

700.0

88.4

87.6

Facebook AI研究实验室 Llama3.3-70B-Instruct模型地址

Grok 2

88.4

/

xAI Grok 2模型地址

Claude 3.5 Haiku

0.0

88.1

/

Anthropic Claude 3.5 Haiku模型地址

GPT-4o mini

0.0

87.2

/

OpenAI GPT-4o mini模型地址

Codestral 25.01

86.6

80.2

MistralAI Codestral 25.01模型地址

Qwen2-72B-Instruct

720.0

86.0

80.2

阿里巴巴 Qwen2-72B-Instruct模型地址

GPT-4

1750.0

85.4

83.5

OpenAI GPT-4模型地址

Amazon Nova Lite

85.4

/

亚马逊 Amazon Nova Lite模型地址

Claude3-Opus

0.0

84.9

/

Anthropic Claude3-Opus模型地址

Mistral Small 24B Instruct 2501

240.0

84.8

/

MistralAI Mistral Small 24B Instruct 2501模型地址

Qwen2.5-Omni-7B

70.0

84.8

79.2

阿里巴巴 Qwen2.5-Omni-7B模型地址

Llama3-400B-Instruct-InTraining

4000.0

84.1

/

Facebook AI研究实验室 Llama3-400B-Instruct-InTraining模型地址

CodeQwen1.5-7B-Chat

70.0

83.5

77.7

阿里巴巴 CodeQwen1.5-7B-Chat模型地址

Phi 4 - 14B

140.0

82.6

/

Microsoft Phi 4 - 14B模型地址

DeepSeek-V3

6810.0

82.6

/

DeepSeek-AI DeepSeek-V3模型地址

Llama3-70B

700.0

81.7

/

Facebook AI研究实验室 Llama3-70B模型地址

Llama3-70B-Instruct

700.0

81.7

/

Facebook AI研究实验室 Llama3-70B-Instruct模型地址

Amazon Nova Micro

81.1

/

亚马逊 Amazon Nova Micro模型地址

Llama3.1-70B-Instruct

700.0

80.5

86.0

Facebook AI研究实验室 Llama3.1-70B-Instruct模型地址

C4AI Command A (202503)

1110.0

80.0

/

CohereAI C4AI Command A (202503)模型地址

DeepSeek Coder-33B Instruct

330.0

79.3

70.0

DeepSeek-AI DeepSeek Coder-33B Instruct模型地址

Claude3-Haiku

0.0

75.9

/

Anthropic Claude3-Haiku模型地址

Gemini-ultra

0.0

74.4

/

DeepMind Gemini-ultra模型地址

Grok-1.5

74.1

/

xAI Grok-1.5模型地址

DeepSeek-V2-236B-Chat

2360.0

73.8

61.4

DeepSeek-AI DeepSeek-V2-236B-Chat模型地址

WizardCoder-Python-34B

340.0

73.2

/

WizardLM Team WizardCoder-Python-34B模型地址

Qwen2.5-Max

73.2

80.6

阿里巴巴 Qwen2.5-Max模型地址

Claude3-Sonnet

0.0

73.0

/

Anthropic Claude3-Sonnet模型地址

Llama3.1-8B-Instruct

80.0

72.6

72.8

Facebook AI研究实验室 Llama3.1-8B-Instruct模型地址

GLM4

0.0

72.0

/

智谱AI GLM4模型地址

Gemini 1.5 Pro

0.0

71.9

/

Google Deep Mind Gemini 1.5 Pro模型地址

GLM-4-9B-Chat

90.0

71.8

/

智谱AI GLM-4-9B-Chat模型地址

DBRX Instruct

1320.0

70.1

/

databricks DBRX Instruct模型地址

GLM-4-9B

90.0

70.1

/

智谱AI GLM-4-9B模型地址

Phind-CodeLlama-34B-Python-v1

340.0

69.5

/

Phind Phind-CodeLlama-34B-Python-v1模型地址

Gemini-pro

1000.0

67.7

/

DeepMind Gemini-pro模型地址

Phind-CodeLlama-34B-v1

340.0

67.6

/

Phind Phind-CodeLlama-34B-v1模型地址

DeepSeek Coder-6.7B Instruct

67.0

66.1

65.4

DeepSeek-AI DeepSeek Coder-6.7B Instruct模型地址

DeepSeek-V3-Base

6810.0

65.2

75.4

DeepSeek-AI DeepSeek-V3-Base模型地址

Qwen2-72B

727.0

64.6

76.9

阿里巴巴 Qwen2-72B模型地址

WizardCoder-Python-13B-V1.0

130.0

64.0

54.6

WizardLM Team WizardCoder-Python-13B-V1.0模型地址

Grok-1

3140.0

63.2

/

xAI Grok-1模型地址

Llama3-8B

80.0

62.2

/

Facebook AI研究实验室 Llama3-8B模型地址

Llama3-8B-Instruct

80.0

62.2

/

Facebook AI研究实验室 Llama3-8B-Instruct模型地址

PanGu-Coder2

150.0

61.64

/

华为 PanGu-Coder2模型地址

Codestral

220.0

61.5

78.2

MistralAI Codestral模型地址

Phi-3-small 7B

70.0

59.1

71.4

Microsoft Phi-3-small 7B模型地址

Qwen2.5-72B

727.0

59.1

84.7

阿里巴巴 Qwen2.5-72B模型地址

Phi-3-mini 3.8B

38.0

58.5

70.0

Microsoft Phi-3-mini 3.8B模型地址

Qwen2.5-32B

320.0

58.5

84.5

阿里巴巴 Qwen2.5-32B模型地址

Qwen2.5-7B

70.0

57.9

74.9

阿里巴巴 Qwen2.5-7B模型地址

WizardCoder-15B-V1.0

150.0

57.3

/

WizardLM Team WizardCoder-15B-V1.0模型地址

Qwen2.5-14B

140.0

56.7

76.7

阿里巴巴 Qwen2.5-14B模型地址

CodeGemma-7B-IT

70.0

56.1

54.2

Google Research CodeGemma-7B-IT模型地址

Phi-3-medium 14B-preview

140.0

55.5

74.4

Microsoft Phi-3-medium 14B-preview模型地址

MiniCPM-MoE-8x2B

136.0

55.49

41.68

OpenBMB MiniCPM-MoE-8x2B模型地址

CodeLLaMA-Python-34B

340.0

53.7

56.2

Facebook AI研究实验室 CodeLLaMA-Python-34B模型地址

YAYI2-30B

300.0

53.1

45.8

中科闻歌 YAYI2-30B模型地址

Qwen2-57B-A14B

570.0

53.0

71.9

阿里巴巴 Qwen2-57B-A14B模型地址

Qwen1.5-110B

1100.0

52.4

58.1

阿里巴巴 Qwen1.5-110B模型地址

CodeQwen1.5-7B

70.0

51.8

72.2

阿里巴巴 CodeQwen1.5-7B模型地址

Qwen2-7B

70.0

51.2

65.9

阿里巴巴 Qwen2-7B模型地址

Phi-1

13.0

50.6

55.5

Microsoft Phi-1模型地址

MiniCPM-2B-DPO

24.0

50.0

47.31

面壁智能 MiniCPM-2B-DPO模型地址

CodeLLaMA-34B

340.0

48.8

55.0

Facebook AI研究实验室 CodeLLaMA-34B模型地址

Phi-2

27.0

48.3

59.1

Microsoft Phi-2模型地址

GPT-3.5

1750.0

48.1

52.2

OpenAI GPT-3.5模型地址

Moonlight-16B-A3B-Instruct

160.0

48.1

63.8

Moonshot AI Moonlight-16B-A3B-Instruct模型地址

Yi-1.5-34B

340.0

46.3

65.5

零一万物 Yi-1.5-34B模型地址

Mixtral-8×22B-MoE

1410.0

45.1

71.2

MistralAI Mixtral-8×22B-MoE模型地址

CodeGemma-7B

70.0

44.5

56.2

Google Research CodeGemma-7B模型地址

CodeLLaMA-Python-13B

130.0

43.3

49.0

Facebook AI研究实验室 CodeLLaMA-Python-13B模型地址

CodeLLaMA-Instruct-13B

130.0

42.7

49.4

Facebook AI研究实验室 CodeLLaMA-Instruct-13B模型地址

Qwen2.5-3B

30.0

42.1

57.1

阿里巴巴 Qwen2.5-3B模型地址

CodeLLaMA-Instruct-34B

340.0

41.5

57.0

Facebook AI研究实验室 CodeLLaMA-Instruct-34B模型地址

Qwen1.5-72B-Chat

720.0

41.5

53.4

阿里巴巴 Qwen1.5-72B-Chat模型地址

Yi-1.5-9B

90.0

41.4

61.1

零一万物 Yi-1.5-9B模型地址

DeepSeek-V2-236B

2360.0

40.9

66.6

DeepSeek-AI DeepSeek-V2-236B模型地址

Mixtral-8×7B-MoE

450.0

40.2

60.7

MistralAI Mixtral-8×7B-MoE模型地址

Gemma 2 - 9B

90.0

40.2

52.4

Google Research Gemma 2 - 9B模型地址

Grok-0

330.0

39.7

/

xAI Grok-0模型地址

Yi-9B

90.0

39.0

54.4

零一万物 Yi-9B模型地址

CodeLLaMA-Python-7B

70.0

38.4

47.6

Facebook AI研究实验室 CodeLLaMA-Python-7B模型地址

WizardLM-30B-V1

300.0

37.8

/

WizardLM Team WizardLM-30B-V1模型地址

PaLM2-S

0.0

37.6

50.0

Google Research PaLM2-S模型地址

Qwen1.5-32B

320.0

37.2

49.4

阿里巴巴 Qwen1.5-32B模型地址

Qwen2.5-1.5B

15.0

37.2

60.2

阿里巴巴 Qwen2.5-1.5B模型地址

CodeLLaMA-13B

130.0

36.0

47.0

Facebook AI研究实验室 CodeLLaMA-13B模型地址

CodeGeeX2-6B

60.0

35.9

/

智谱AI CodeGeeX2-6B模型地址

PaLM-Coder

5400.0

35.9

47.0

Google Research PaLM-Coder模型地址

Aquila2-34B

340.0

35.4

/

北京智源人工智能研究院 Aquila2-34B模型地址

Qwen-72B

720.0

35.4

52.2

阿里巴巴 Qwen-72B模型地址

Stable LM Zephyr 3B

30.0

35.37

31.85

Stability AI Stable LM Zephyr 3B模型地址

CodeLLaMA-Instruct-7B

70.0

34.8

44.4

Facebook AI研究实验室 CodeLLaMA-Instruct-7B模型地址

WizardCoder-3B-V1.0

30.0

34.8

37.4

WizardLM Team WizardCoder-3B-V1.0模型地址

Qwen1.5-MoE-A2.7B

143.0

34.2

/

阿里巴巴 Qwen1.5-MoE-A2.7B模型地址

Phi-1.5

13.0

34.1

37.7

Microsoft Phi-1.5模型地址

StarCoder

155.0

33.6

52.7

BigCode StarCoder模型地址

CodeLLaMA-7B

70.0

33.5

41.4

Facebook AI研究实验室 CodeLLaMA-7B模型地址

Qwen-14B

140.0

32.3

40.8

阿里巴巴 Qwen-14B模型地址

Gemma 7B

70.0

32.3

44.4

Google Research Gemma 7B模型地址

Qwen2-1.5B

15.0

31.1

37.4

阿里巴巴 Qwen2-1.5B模型地址

LLaMA2 70B

700.0

30.5

45.4

Facebook AI研究实验室 LLaMA2 70B模型地址

Mistral 7B

73.0

30.5

47.5

MistralAI Mistral 7B模型地址

Qwen2.5-0.5B

5.0

30.5

39.3

阿里巴巴 Qwen2.5-0.5B模型地址

StarCodeBase

155.0

30.4

49.0

BigCode StarCodeBase模型地址

Qwen-7B

70.0

29.9

31.6

阿里巴巴 Qwen-7B模型地址

XVERSE-MoE-A4.2B

258.0

29.9

/

元象XVERSE XVERSE-MoE-A4.2B模型地址

Codex

1750.0

28.81

/

OpenAI Codex模型地址

AquilaCode-7B-py

70.0

28.8

/

北京智源人工智能研究院 AquilaCode-7B-py模型地址

XVERSE-65B

650.0

26.8

/

元象XVERSE XVERSE-65B模型地址

PaLM

5400.0

26.2

47.0

Google Research PaLM模型地址

WizardCoder-1B-V1.0

10.0

23.8

28.6

WizardLM Team WizardCoder-1B-V1.0模型地址

CodeGeeX

130.0

22.9

/

智谱AI CodeGeeX模型地址

LLaMA2 34B

340.0

22.6

33.8

Facebook AI研究实验室 LLaMA2 34B模型地址

AquilaCode-7B-multi

70.0

22.0

/

北京智源人工智能研究院 AquilaCode-7B-multi模型地址

Gemma 2B

20.0

22.0

29.2

Google Research Gemma 2B模型地址

Gemma 2B - It

20.0

22.0

29.2

Google Research Gemma 2B - It模型地址

CodeGemma-2B

20.0

22.0

29.2

Google Research CodeGemma-2B模型地址

Qwen2-0.5B

4.0

22.0

22.0

阿里巴巴 Qwen2-0.5B模型地址

RecurrentGemma-2B

27.0

21.3

28.8

Google Research RecurrentGemma-2B模型地址

LLaMA2 13B

130.0

20.1

27.6

Facebook AI研究实验室 LLaMA2 13B模型地址

Baichuan2-7B-Base

70.0

18.29

24.2

百川智能 Baichuan2-7B-Base模型地址

Baichuan2-13B-Base

130.0

17.07

30.2

百川智能 Baichuan2-13B-Base模型地址

Qwen-1.8B

18.0

15.2

/

阿里巴巴 Qwen-1.8B模型地址

LLaMA2 7B

70.0

12.2

20.8

Facebook AI研究实验室 LLaMA2 7B模型地址

Baichuan 13B - Base

130.0

11.59

22.9

百川智能 Baichuan 13B - Base模型地址

Baichuan 7B

70.0

9.2

6.6

百川智能 Baichuan 7B模型地址

TinyLlama

11.0

6.71

19.91

新加坡科技与设计大学 TinyLlama模型地址

Mistral Large

0.0

4.1

7.1

MistralAI Mistral Large模型地址

Mistral Small 24B Base2501

240.0

/

69.64

MistralAI Mistral Small 24B Base2501模型地址

数据说明:所有数据来源于论文或者GitHub上的评测结果,以官方论文为主,部分数据来源第三方评测!