datalearner-logo AI大模型学习
  • AI博客
    原创AI博客 大模型技术博客
  • AI大模型排行榜
    业界大模型评测基准 全球大模型最新评测基准结果 大模型综合能力排行榜 大模型编程能力排行榜 LMSys ChatBot Arena排行榜 Berkeley大模型工具使用能力排行榜 OpenLLMLeaderboard中国站
  • 全球大模型最新评测结果
  • AI大模型大全
  • 大模型部署教程
  • 2023年度AI产品总结
  • AI资源仓库
    AI领域与任务 AI研究机构 AI数据集 AI开源工具 数据推荐
  • AI大模型
    国产AI大模型生态全览 AI模型概览图 AI模型月报 AI基础大模型
  • AI大模型工具导航
    AI大模型工具导航网站 在线聊天大模型列表

🏆 大模型综合能力评测对比表

重磅!DataLearnerAI大模型评测推出新版,新版包含更多更新评测数据,并即将支持自定义对比功能,欢迎访问:https://www.datalearner.com/ai-models/ai-benchmarks-tests/benchmarks-for-all
欢迎访问我们的大模型综合评测页面!在这里,我们为您汇总了当前主流大模型在各评测数据集上的表现榜单。随着各种AI模型的快速发展,选择合适的模型成为了研究和开发的一大挑战。我们的页面旨在为研究者和开发者提供一个全面、权威的模型对比工具,帮助您在众多的模型中做出明智的选择。通过深入了解不同模型在各种数据集上的性能,您可以更加精确地定位每个模型的优势和不足,为您的项目选择最合适的工具。不仅如此,对于希望进一步优化或改进模型的开发者,此榜单也提供了丰富的启示和参考价值。进入,探索,和发掘AI模型的无限潜力。
关于大模型的编程能力参考DataLearner大模型能力排行榜: https://www.datalearner.com/ai-models/llm-coding-evaluation
尽管大模型发展很快,但是很多模型在公布的评测结果中对比的模型基准和选择的测试基准都很少,甚至只选择对自己有利的结果, 为了更加方便大家对比相关的结果,我们收集了当前主流的大模型在不同评测基准上的评测结果,主要针对国内开源模型和国际主流模型为主(注意,得分为0表示没有公布!)。
关于具体的评测指标结果参考DataLearner博客解释:https://www.datalearner.com/blog/1051692198628431
当前选择的评测基准包括四个:
  • MMLU - 一种针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,任务涵盖的知识很广泛,语言是英文,用以评测大模型基本的知识覆盖范围和理解能力。

  • C Eval - C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。用以评测大模型中文理解能力。

  • AGI Eval - 微软发布的大模型基础能力评测基准,主要评测大模型在人类认知和解决问题的一般能力,涵盖全球20种面向普通人类考生的官方、公共和高标准录取和资格考试,包含中英文数据。

  • GSM8K - OpenAI发布的大模型数学推理能力评测基准,涵盖了8500个中学水平的高质量数学题数据集。数据集比之前的数学文字题数据集规模更大,语言更具多样性,题目也更具挑战性。

欢迎大家收藏,随时使用~
开源标志含义:
  • - 免费商用授权

  • - 收费商用授权

  • - 开源不可商用

  • - 不开源

按条件筛选
全部
3B及以下
7B
13B
34B
65B
100B及以上
模型名称 参数大小 MMLU CEval AGIEval GSM8K MATH BBH MT Bench 发布者 开源情况 模型地址

Qwen2.5-72B

727.0

86.1

/

/

91.5

62.1

86.3

/

阿里巴巴 Qwen2.5-72B模型地址

Llama3.3-70B-Instruct

700.0

86.0

/

/

91.1

77.0

/

/

Facebook AI研究实验室 Llama3.3-70B-Instruct模型地址

Qwen2-72B

727.0

84.2

91.0

/

89.5

51.1

82.4

/

阿里巴巴 Qwen2-72B模型地址

Llama3.1-70B-Instruct

700.0

83.6

/

/

95.1

68.0

/

/

Facebook AI研究实验室 Llama3.1-70B-Instruct模型地址

Qwen2-72B-Instruct

720.0

82.3

83.8

/

91.1

59.7

/

9.12

阿里巴巴 Qwen2-72B-Instruct模型地址

Llama3-70B-Instruct

700.0

82.0

/

/

93.0

50.4

/

/

Facebook AI研究实验室 Llama3-70B-Instruct模型地址

Qwen2.5-Math-72B

727.0

80.8

/

/

95.9

85.9

/

/

阿里巴巴 Qwen2.5-Math-72B模型地址

Llama3-70B

700.0

79.5

/

/

/

/

/

/

Facebook AI研究实验室 Llama3-70B模型地址

Llama3.1-70B

700.0

79.3

/

/

/

/

/

/

Facebook AI研究实验室 Llama3.1-70B模型地址

Gemini-pro

1000.0

79.13

/

/

86.5

/

/

/

DeepMind Gemini-pro模型地址

Qwen1.5-72B-Chat

720.0

77.5

84.1

/

79.5

34.1

65.5

8.67

阿里巴巴 Qwen1.5-72B-Chat模型地址

Qwen-72B

720.0

77.4

83.3

62.5

78.9

/

/

/

阿里巴巴 Qwen-72B模型地址

Qwen2-57B-A14B

570.0

76.5

87.7

/

80.7

43.0

67.0

/

阿里巴巴 Qwen2-57B-A14B模型地址

XVERSE-65B

650.0

70.8

/

61.8

60.3

/

/

/

元象XVERSE XVERSE-65B模型地址

Mixtral-8×7B-MoE

450.0

70.6

/

/

74.4

28.4

/

8.3

MistralAI Mixtral-8×7B-MoE模型地址

LLaMA2 70B

700.0

68.9

/

54.2

56.8

/

/

/

Facebook AI研究实验室 LLaMA2 70B模型地址

Jamba-v0.1

520.0

67.4

/

/

59.9

/

45.4

/

A21 Labs Jamba-v0.1模型地址

LLaMA 65B

650.0

63.4

38.8

47.6

50.9

/

/

/

Facebook AI研究实验室 LLaMA 65B模型地址
模型名称 参数大小 MMLU CEval AGIEval GSM8K MATH BBH MT Bench 发布者 开源情况 模型地址

Qwen2.5-72B

727.0

86.1

/

/

91.5

62.1

86.3

/

阿里巴巴 Qwen2.5-72B模型地址

Llama3.3-70B-Instruct

700.0

86.0

/

/

91.1

77.0

/

/

Facebook AI研究实验室 Llama3.3-70B-Instruct模型地址

Qwen2-72B

727.0

84.2

91.0

/

89.5

51.1

82.4

/

阿里巴巴 Qwen2-72B模型地址

Llama3.1-70B-Instruct

700.0

83.6

/

/

95.1

68.0

/

/

Facebook AI研究实验室 Llama3.1-70B-Instruct模型地址

Qwen2-72B-Instruct

720.0

82.3

83.8

/

91.1

59.7

/

9.12

阿里巴巴 Qwen2-72B-Instruct模型地址

Llama3-70B-Instruct

700.0

82.0

/

/

93.0

50.4

/

/

Facebook AI研究实验室 Llama3-70B-Instruct模型地址

Qwen2.5-Math-72B

727.0

80.8

/

/

95.9

85.9

/

/

阿里巴巴 Qwen2.5-Math-72B模型地址

Llama3-70B

700.0

79.5

/

/

/

/

/

/

Facebook AI研究实验室 Llama3-70B模型地址

Llama3.1-70B

700.0

79.3

/

/

/

/

/

/

Facebook AI研究实验室 Llama3.1-70B模型地址

Gemini-pro

1000.0

79.13

/

/

86.5

/

/

/

DeepMind Gemini-pro模型地址

Qwen1.5-72B-Chat

720.0

77.5

84.1

/

79.5

34.1

65.5

8.67

阿里巴巴 Qwen1.5-72B-Chat模型地址

Qwen-72B

720.0

77.4

83.3

62.5

78.9

/

/

/

阿里巴巴 Qwen-72B模型地址

Qwen2-57B-A14B

570.0

76.5

87.7

/

80.7

43.0

67.0

/

阿里巴巴 Qwen2-57B-A14B模型地址

XVERSE-65B

650.0

70.8

/

61.8

60.3

/

/

/

元象XVERSE XVERSE-65B模型地址

Mixtral-8×7B-MoE

450.0

70.6

/

/

74.4

28.4

/

8.3

MistralAI Mixtral-8×7B-MoE模型地址

LLaMA2 70B

700.0

68.9

/

54.2

56.8

/

/

/

Facebook AI研究实验室 LLaMA2 70B模型地址

Jamba-v0.1

520.0

67.4

/

/

59.9

/

45.4

/

A21 Labs Jamba-v0.1模型地址

LLaMA 65B

650.0

63.4

38.8

47.6

50.9

/

/

/

Facebook AI研究实验室 LLaMA 65B模型地址

数据说明:所有数据来源于论文或者GitHub上的评测结果,以官方论文为主,部分数据来源第三方评测!