datalearner-logo AI大模型学习
  • AI博客
    原创AI博客 大模型技术博客
  • AI大模型排行榜
    业界大模型评测基准 全球大模型最新评测基准结果 大模型综合能力排行榜 大模型编程能力排行榜 LMSys ChatBot Arena排行榜 Berkeley大模型工具使用能力排行榜 OpenLLMLeaderboard中国站
  • 全球大模型最新评测结果
  • AI大模型大全
  • 大模型部署教程
  • 2023年度AI产品总结
  • AI资源仓库
    AI领域与任务 AI研究机构 AI数据集 AI开源工具 数据推荐
  • AI大模型
    国产AI大模型生态全览 AI模型概览图 AI模型月报 AI基础大模型
  • AI大模型工具导航
    AI大模型工具导航网站 在线聊天大模型列表

🏆 大模型综合能力评测对比表

重磅!DataLearnerAI大模型评测推出新版,新版包含更多更新评测数据,并即将支持自定义对比功能,欢迎访问:https://www.datalearner.com/ai-models/ai-benchmarks-tests/benchmarks-for-all
欢迎访问我们的大模型综合评测页面!在这里,我们为您汇总了当前主流大模型在各评测数据集上的表现榜单。随着各种AI模型的快速发展,选择合适的模型成为了研究和开发的一大挑战。我们的页面旨在为研究者和开发者提供一个全面、权威的模型对比工具,帮助您在众多的模型中做出明智的选择。通过深入了解不同模型在各种数据集上的性能,您可以更加精确地定位每个模型的优势和不足,为您的项目选择最合适的工具。不仅如此,对于希望进一步优化或改进模型的开发者,此榜单也提供了丰富的启示和参考价值。进入,探索,和发掘AI模型的无限潜力。
关于大模型的编程能力参考DataLearner大模型能力排行榜: https://www.datalearner.com/ai-models/llm-coding-evaluation
尽管大模型发展很快,但是很多模型在公布的评测结果中对比的模型基准和选择的测试基准都很少,甚至只选择对自己有利的结果, 为了更加方便大家对比相关的结果,我们收集了当前主流的大模型在不同评测基准上的评测结果,主要针对国内开源模型和国际主流模型为主(注意,得分为0表示没有公布!)。
关于具体的评测指标结果参考DataLearner博客解释:https://www.datalearner.com/blog/1051692198628431
当前选择的评测基准包括四个:
  • MMLU - 一种针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,任务涵盖的知识很广泛,语言是英文,用以评测大模型基本的知识覆盖范围和理解能力。

  • C Eval - C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。用以评测大模型中文理解能力。

  • AGI Eval - 微软发布的大模型基础能力评测基准,主要评测大模型在人类认知和解决问题的一般能力,涵盖全球20种面向普通人类考生的官方、公共和高标准录取和资格考试,包含中英文数据。

  • GSM8K - OpenAI发布的大模型数学推理能力评测基准,涵盖了8500个中学水平的高质量数学题数据集。数据集比之前的数学文字题数据集规模更大,语言更具多样性,题目也更具挑战性。

欢迎大家收藏,随时使用~
开源标志含义:
  • - 免费商用授权

  • - 收费商用授权

  • - 开源不可商用

  • - 不开源

按条件筛选
全部
3B及以下
7B
13B
34B
65B
100B及以上
模型名称 参数大小 MMLU CEval AGIEval GSM8K MATH BBH MT Bench 发布者 开源情况 模型地址

DeepSeek-R1

6710.0

90.8

91.8

/

/

97.3

/

/

DeepSeek-AI DeepSeek-R1模型地址

OpenAI o1

90.8

/

/

/

94.8

/

/

OpenAI OpenAI o1模型地址

Hunyuan-TurboS

89.5

/

/

/

89.7

92.2

/

腾讯AI实验室 Hunyuan-TurboS模型地址

GPT-4o

88.7

/

/

90.5

76.6

/

/

OpenAI GPT-4o模型地址

Claude 3.5 Sonnet

88.7

/

/

96.4

71.1

/

/

Anthropic Claude 3.5 Sonnet模型地址

DeepSeek-V3

6810.0

88.5

86.5

/

/

90.2

/

/

DeepSeek-AI DeepSeek-V3模型地址

Qwen2.5-Max

87.9

/

/

94.5

/

/

/

阿里巴巴 Qwen2.5-Max模型地址

Grok 2

87.5

/

/

/

76.1

/

/

xAI Grok 2模型地址

Kimi k1.5 (Short-CoT)

87.4

/

/

/

94.6

/

/

Moonshot AI Kimi k1.5 (Short-CoT)模型地址

Llama3.1-405B Instruct

4050.0

87.3

/

/

96.8

73.8

/

/

Facebook AI研究实验室 Llama3.1-405B Instruct模型地址

DeepSeek-V3-Base

6810.0

87.1

90.1

79.6

89.3

61.6

87.5

/

DeepSeek-AI DeepSeek-V3-Base模型地址

OpenAI o3-mini (high)

86.9

/

97.9

/

97.9

/

/

OpenAI OpenAI o3-mini (high)模型地址

GPT-4

1750.0

86.4

68.7

/

87.1

42.5

/

9.32

OpenAI GPT-4模型地址

Llama3-400B-Instruct-InTraining

4000.0

86.1

/

/

94.1

57.8

/

/

Facebook AI研究实验室 Llama3-400B-Instruct-InTraining模型地址

C4AI Command A (202503)

1110.0

86.0

/

/

/

/

/

/

CohereAI C4AI Command A (202503)模型地址

Amazon Nova Pro

85.9

/

/

94.8

76.6

/

/

亚马逊 Amazon Nova Pro模型地址

OpenAI o3-mini (medium)

85.9

/

/

/

97.3

/

/

OpenAI OpenAI o3-mini (medium)模型地址

GPT-4o(2024-11-20)

85.7

/

/

/

68.5

/

/

OpenAI GPT-4o(2024-11-20)模型地址

Llama3.1-405B

4050.0

85.2

/

/

/

/

/

/

Facebook AI研究实验室 Llama3.1-405B模型地址

OpenAI o1-mini

85.2

/

/

/

90.0

/

/

OpenAI OpenAI o1-mini模型地址

OpenAI o3-mini (low)

84.9

/

/

/

95.8

/

/

OpenAI OpenAI o3-mini (low)模型地址

Llama3-400B-InTraining

4000.0

84.8

/

/

/

/

/

/

Facebook AI研究实验室 Llama3-400B-InTraining模型地址

Grok-1.5

81.3

/

/

90.0

50.6

/

/

xAI Grok-1.5模型地址

Amazon Nova Lite

80.5

/

/

94.5

73.3

/

/

亚马逊 Amazon Nova Lite模型地址

Qwen1.5-110B

1100.0

80.4

/

/

85.4

49.6

74.8

8.88

阿里巴巴 Qwen1.5-110B模型地址

DeepSeek V2.5

2360.0

80.4

/

/

95.1

74.7

/

/

DeepSeek-AI DeepSeek V2.5模型地址

DeepSeek-V2-236B

2360.0

78.5

81.7

/

79.2

43.6

78.9

/

DeepSeek-AI DeepSeek-V2-236B模型地址

PaLM 2

3400.0

78.3

/

/

80.7

/

/

/

Google Research PaLM 2模型地址

Mixtral-8×22B-MoE

1410.0

77.75

/

/

78.6

41.8

/

/

MistralAI Mixtral-8×22B-MoE模型地址

Amazon Nova Micro

77.6

/

/

92.3

69.3

/

/

亚马逊 Amazon Nova Micro模型地址

DBRX Instruct

1320.0

73.7

/

/

72.8

/

/

8.39

databricks DBRX Instruct模型地址

Grok-1

3140.0

73.0

/

/

62.9

/

/

/

xAI Grok-1模型地址

DeepSeek-V2-236B-Chat

2360.0

71.1

65.2

/

84.4

32.6

71.7

/

DeepSeek-AI DeepSeek-V2-236B-Chat模型地址

GPT-3.5

1750.0

70.0

54.4

/

57.1

/

/

8.39

OpenAI GPT-3.5模型地址

PaLM

5400.0

69.3

/

/

56.5

/

/

/

Google Research PaLM模型地址

GPT-3

1750.0

53.9

/

/

/

/

/

/

OpenAI GPT-3模型地址

GLM-130B

1300.0

44.8

44.0

/

/

/

/

/

智谱AI GLM-130B模型地址

OPT

1750.0

25.2

25.0

24.2

/

/

/

/

Facebook AI研究实验室 OPT模型地址

WizardLM-2 8x22B

1760.0

/

/

/

/

/

/

9.12

Microsoft WizardLM-2 8x22B模型地址

DeepSeek-R1-Lite-Preview

/

/

/

/

91.6

/

/

DeepSeek-AI DeepSeek-R1-Lite-Preview模型地址

Gemini 2.0 Flash Experimental

/

/

/

/

89.7

/

/

DeepMind Gemini 2.0 Flash Experimental模型地址

Gemini 2.0 Pro Experimental

/

/

/

/

91.8

/

/

DeepMind Gemini 2.0 Pro Experimental模型地址

Gemini 2.0 Flash-Lite

/

/

/

/

86.8

/

/

DeepMind Gemini 2.0 Flash-Lite模型地址

Kimi k1.5 (Long-CoT)

/

/

/

/

96.2

/

/

普林斯顿大学 Kimi k1.5 (Long-CoT)模型地址
模型名称 参数大小 MMLU CEval AGIEval GSM8K MATH BBH MT Bench 发布者 开源情况 模型地址

DeepSeek-R1

6710.0

90.8

91.8

/

/

97.3

/

/

DeepSeek-AI DeepSeek-R1模型地址

OpenAI o1

90.8

/

/

/

94.8

/

/

OpenAI OpenAI o1模型地址

Hunyuan-TurboS

89.5

/

/

/

89.7

92.2

/

腾讯AI实验室 Hunyuan-TurboS模型地址

GPT-4o

88.7

/

/

90.5

76.6

/

/

OpenAI GPT-4o模型地址

Claude 3.5 Sonnet

88.7

/

/

96.4

71.1

/

/

Anthropic Claude 3.5 Sonnet模型地址

DeepSeek-V3

6810.0

88.5

86.5

/

/

90.2

/

/

DeepSeek-AI DeepSeek-V3模型地址

Qwen2.5-Max

87.9

/

/

94.5

/

/

/

阿里巴巴 Qwen2.5-Max模型地址

Grok 2

87.5

/

/

/

76.1

/

/

xAI Grok 2模型地址

Kimi k1.5 (Short-CoT)

87.4

/

/

/

94.6

/

/

Moonshot AI Kimi k1.5 (Short-CoT)模型地址

Llama3.1-405B Instruct

4050.0

87.3

/

/

96.8

73.8

/

/

Facebook AI研究实验室 Llama3.1-405B Instruct模型地址

DeepSeek-V3-Base

6810.0

87.1

90.1

79.6

89.3

61.6

87.5

/

DeepSeek-AI DeepSeek-V3-Base模型地址

OpenAI o3-mini (high)

86.9

/

97.9

/

97.9

/

/

OpenAI OpenAI o3-mini (high)模型地址

GPT-4

1750.0

86.4

68.7

/

87.1

42.5

/

9.32

OpenAI GPT-4模型地址

Llama3-400B-Instruct-InTraining

4000.0

86.1

/

/

94.1

57.8

/

/

Facebook AI研究实验室 Llama3-400B-Instruct-InTraining模型地址

C4AI Command A (202503)

1110.0

86.0

/

/

/

/

/

/

CohereAI C4AI Command A (202503)模型地址

Amazon Nova Pro

85.9

/

/

94.8

76.6

/

/

亚马逊 Amazon Nova Pro模型地址

OpenAI o3-mini (medium)

85.9

/

/

/

97.3

/

/

OpenAI OpenAI o3-mini (medium)模型地址

GPT-4o(2024-11-20)

85.7

/

/

/

68.5

/

/

OpenAI GPT-4o(2024-11-20)模型地址

Llama3.1-405B

4050.0

85.2

/

/

/

/

/

/

Facebook AI研究实验室 Llama3.1-405B模型地址

OpenAI o1-mini

85.2

/

/

/

90.0

/

/

OpenAI OpenAI o1-mini模型地址

OpenAI o3-mini (low)

84.9

/

/

/

95.8

/

/

OpenAI OpenAI o3-mini (low)模型地址

Llama3-400B-InTraining

4000.0

84.8

/

/

/

/

/

/

Facebook AI研究实验室 Llama3-400B-InTraining模型地址

Grok-1.5

81.3

/

/

90.0

50.6

/

/

xAI Grok-1.5模型地址

Amazon Nova Lite

80.5

/

/

94.5

73.3

/

/

亚马逊 Amazon Nova Lite模型地址

Qwen1.5-110B

1100.0

80.4

/

/

85.4

49.6

74.8

8.88

阿里巴巴 Qwen1.5-110B模型地址

DeepSeek V2.5

2360.0

80.4

/

/

95.1

74.7

/

/

DeepSeek-AI DeepSeek V2.5模型地址

DeepSeek-V2-236B

2360.0

78.5

81.7

/

79.2

43.6

78.9

/

DeepSeek-AI DeepSeek-V2-236B模型地址

PaLM 2

3400.0

78.3

/

/

80.7

/

/

/

Google Research PaLM 2模型地址

Mixtral-8×22B-MoE

1410.0

77.75

/

/

78.6

41.8

/

/

MistralAI Mixtral-8×22B-MoE模型地址

Amazon Nova Micro

77.6

/

/

92.3

69.3

/

/

亚马逊 Amazon Nova Micro模型地址

DBRX Instruct

1320.0

73.7

/

/

72.8

/

/

8.39

databricks DBRX Instruct模型地址

Grok-1

3140.0

73.0

/

/

62.9

/

/

/

xAI Grok-1模型地址

DeepSeek-V2-236B-Chat

2360.0

71.1

65.2

/

84.4

32.6

71.7

/

DeepSeek-AI DeepSeek-V2-236B-Chat模型地址

GPT-3.5

1750.0

70.0

54.4

/

57.1

/

/

8.39

OpenAI GPT-3.5模型地址

PaLM

5400.0

69.3

/

/

56.5

/

/

/

Google Research PaLM模型地址

GPT-3

1750.0

53.9

/

/

/

/

/

/

OpenAI GPT-3模型地址

GLM-130B

1300.0

44.8

44.0

/

/

/

/

/

智谱AI GLM-130B模型地址

OPT

1750.0

25.2

25.0

24.2

/

/

/

/

Facebook AI研究实验室 OPT模型地址

WizardLM-2 8x22B

1760.0

/

/

/

/

/

/

9.12

Microsoft WizardLM-2 8x22B模型地址

DeepSeek-R1-Lite-Preview

/

/

/

/

91.6

/

/

DeepSeek-AI DeepSeek-R1-Lite-Preview模型地址

Gemini 2.0 Flash Experimental

/

/

/

/

89.7

/

/

DeepMind Gemini 2.0 Flash Experimental模型地址

Gemini 2.0 Pro Experimental

/

/

/

/

91.8

/

/

DeepMind Gemini 2.0 Pro Experimental模型地址

Gemini 2.0 Flash-Lite

/

/

/

/

86.8

/

/

DeepMind Gemini 2.0 Flash-Lite模型地址

Kimi k1.5 (Long-CoT)

/

/

/

/

96.2

/

/

普林斯顿大学 Kimi k1.5 (Long-CoT)模型地址

数据说明:所有数据来源于论文或者GitHub上的评测结果,以官方论文为主,部分数据来源第三方评测!