datalearner-logo AI大模型学习
  • AI博客
    原创AI博客 大模型技术博客
  • AI大模型排行榜
    业界大模型评测基准 全球大模型最新评测基准结果 大模型综合能力排行榜 大模型编程能力排行榜 LMSys ChatBot Arena排行榜 Berkeley大模型工具使用能力排行榜 OpenLLMLeaderboard中国站
  • 全球大模型最新评测结果
  • AI大模型大全
  • 大模型部署教程
  • 2023年度AI产品总结
  • AI资源仓库
    AI领域与任务 AI研究机构 AI数据集 AI开源工具 数据推荐
  • AI大模型
    国产AI大模型生态全览 AI模型概览图 AI模型月报 AI基础大模型
  • AI大模型工具导航
    AI大模型工具导航网站 在线聊天大模型列表

大模型编程能力评测对比表

重磅!DataLearnerAI大模型评测推出新版,新版包含更多更新评测数据,并即将支持自定义对比功能,欢迎访问:https://www.datalearner.com/ai-models/ai-benchmarks-tests/benchmarks-for-all
欢迎访问我们的大模型代码能力评测页面!在这里,我们为您汇总了当前主流大模型在编程水平上的表现榜单。代码生成已经是大模型应用最好的领域之一。 我们的页面旨在为研究者和开发者提供一个全面、权威的模型编程能力对比工具,帮助您在众多的模型中做出明智的选择。
关于大模型的其它综合能力排行(如文本理解、数学能力等)参考DataLearner大模型综合排行榜: https://www.datalearner.com/ai-models/llm-evaluation
当前选择的评测基准包括2个:
  • Human Eval - HumanEval是一个用于评估代码生成模型性能的数据集,由OpenAI在2021年推出。这个数据集包含164个手工编写的编程问题,每个问题都包括一个函数签名、文档字符串(docstring)、函数体以及几个单元测试。这些问题涵盖了语言理解、推理、算法和简单数学等方面。这些问题的难度也各不相同,有些甚至与简单的软件面试问题相当。 这个数据集的一个重要特点是,它不仅仅依赖于代码的语法正确性,还依赖于功能正确性。也就是说,生成的代码需要通过所有相关的单元测试才能被认为是正确的。这种方法更接近于实际编程任务,因为在实际编程中,代码不仅需要语法正确,还需要能够正确执行预定任务。结果通过pass@k表示,其中k表示模型一次性生成多少种不同的答案中,至少包含1个正确的结果。例如Pass@1就是只生成一个答案,准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前,收集的包含Pass@1、Pass@10和Pass@100

  • MBPP - MBPP(Mostly Basic Programming Problems)是一个数据集,主要包含了974个短小的Python函数问题,由谷歌在2021年推出,这些问题主要是为初级程序员设计的。数据集还包含了这些程序的文本描述和用于检查功能正确性的测试用例。 结果通过pass@k表示,其中k表示模型一次性生成多少种不同的答案中,至少包含1个正确的结果。例如Pass@1就是只生成一个答案,准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前,收集的包含Pass@1、Pass@10和Pass@100

欢迎大家收藏,随时使用~
开源标志含义:
  • - 免费商用授权

  • - 收费商用授权

  • - 开源不可商用

  • - 不开源

按条件筛选
全部
3B及以下
7B
13B
34B
65B
100B及以上
模型名称 参数大小 HumanEval Pass@1 MBPP Pass@1 发布者 开源情况 模型地址

OpenAI o1-mini

92.4

/

OpenAI OpenAI o1-mini模型地址

Claude 3.5 Sonnet

92.0

/

Anthropic Claude 3.5 Sonnet模型地址

GPT-4o

90.2

/

OpenAI GPT-4o模型地址

Llama3.1-405B Instruct

4050.0

89.0

88.6

Facebook AI研究实验室 Llama3.1-405B Instruct模型地址

DeepSeek V2.5

2360.0

89.0

/

DeepSeek-AI DeepSeek V2.5模型地址

Amazon Nova Pro

89.0

/

亚马逊 Amazon Nova Pro模型地址

Grok 2

88.4

/

xAI Grok 2模型地址

Codestral 25.01

86.6

80.2

MistralAI Codestral 25.01模型地址

GPT-4

1750.0

85.4

83.5

OpenAI GPT-4模型地址

Amazon Nova Lite

85.4

/

亚马逊 Amazon Nova Lite模型地址

Llama3-400B-Instruct-InTraining

4000.0

84.1

/

Facebook AI研究实验室 Llama3-400B-Instruct-InTraining模型地址

DeepSeek-V3

6810.0

82.6

/

DeepSeek-AI DeepSeek-V3模型地址

Amazon Nova Micro

81.1

/

亚马逊 Amazon Nova Micro模型地址

C4AI Command A (202503)

1110.0

80.0

/

CohereAI C4AI Command A (202503)模型地址

Grok-1.5

74.1

/

xAI Grok-1.5模型地址

DeepSeek-V2-236B-Chat

2360.0

73.8

61.4

DeepSeek-AI DeepSeek-V2-236B-Chat模型地址

Qwen2.5-Max

73.2

80.6

阿里巴巴 Qwen2.5-Max模型地址

DBRX Instruct

1320.0

70.1

/

databricks DBRX Instruct模型地址

DeepSeek-V3-Base

6810.0

65.2

75.4

DeepSeek-AI DeepSeek-V3-Base模型地址

Grok-1

3140.0

63.2

/

xAI Grok-1模型地址

Qwen1.5-110B

1100.0

52.4

58.1

阿里巴巴 Qwen1.5-110B模型地址

GPT-3.5

1750.0

48.1

52.2

OpenAI GPT-3.5模型地址

Mixtral-8×22B-MoE

1410.0

45.1

71.2

MistralAI Mixtral-8×22B-MoE模型地址

DeepSeek-V2-236B

2360.0

40.9

66.6

DeepSeek-AI DeepSeek-V2-236B模型地址

PaLM-Coder

5400.0

35.9

47.0

Google Research PaLM-Coder模型地址

Codex

1750.0

28.81

/

OpenAI Codex模型地址

PaLM

5400.0

26.2

47.0

Google Research PaLM模型地址

数据说明:所有数据来源于论文或者GitHub上的评测结果,以官方论文为主,部分数据来源第三方评测!