datalearner-logo AI大模型学习
  • AI博客
    原创AI博客 大模型技术博客
  • AI大模型排行榜
    业界大模型评测基准 全球大模型最新评测基准结果 大模型综合能力排行榜 大模型编程能力排行榜 LMSys ChatBot Arena排行榜 Berkeley大模型工具使用能力排行榜 OpenLLMLeaderboard中国站
  • 全球大模型最新评测结果
  • AI大模型大全
  • 大模型部署教程
  • 2023年度AI产品总结
  • AI资源仓库
    AI领域与任务 AI研究机构 AI数据集 AI开源工具 数据推荐
  • AI大模型
    国产AI大模型生态全览 AI模型概览图 AI模型月报 AI基础大模型
  • AI大模型工具导航
    AI大模型工具导航网站 在线聊天大模型列表

🏆 大模型综合能力评测对比表

重磅!DataLearnerAI大模型评测推出新版,新版包含更多更新评测数据,并即将支持自定义对比功能,欢迎访问:https://www.datalearner.com/ai-models/ai-benchmarks-tests/benchmarks-for-all
欢迎访问我们的大模型综合评测页面!在这里,我们为您汇总了当前主流大模型在各评测数据集上的表现榜单。随着各种AI模型的快速发展,选择合适的模型成为了研究和开发的一大挑战。我们的页面旨在为研究者和开发者提供一个全面、权威的模型对比工具,帮助您在众多的模型中做出明智的选择。通过深入了解不同模型在各种数据集上的性能,您可以更加精确地定位每个模型的优势和不足,为您的项目选择最合适的工具。不仅如此,对于希望进一步优化或改进模型的开发者,此榜单也提供了丰富的启示和参考价值。进入,探索,和发掘AI模型的无限潜力。
关于大模型的编程能力参考DataLearner大模型能力排行榜: https://www.datalearner.com/ai-models/llm-coding-evaluation
尽管大模型发展很快,但是很多模型在公布的评测结果中对比的模型基准和选择的测试基准都很少,甚至只选择对自己有利的结果, 为了更加方便大家对比相关的结果,我们收集了当前主流的大模型在不同评测基准上的评测结果,主要针对国内开源模型和国际主流模型为主(注意,得分为0表示没有公布!)。
关于具体的评测指标结果参考DataLearner博客解释:https://www.datalearner.com/blog/1051692198628431
当前选择的评测基准包括四个:
  • MMLU - 一种针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,任务涵盖的知识很广泛,语言是英文,用以评测大模型基本的知识覆盖范围和理解能力。

  • C Eval - C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。用以评测大模型中文理解能力。

  • AGI Eval - 微软发布的大模型基础能力评测基准,主要评测大模型在人类认知和解决问题的一般能力,涵盖全球20种面向普通人类考生的官方、公共和高标准录取和资格考试,包含中英文数据。

  • GSM8K - OpenAI发布的大模型数学推理能力评测基准,涵盖了8500个中学水平的高质量数学题数据集。数据集比之前的数学文字题数据集规模更大,语言更具多样性,题目也更具挑战性。

欢迎大家收藏,随时使用~
开源标志含义:
  • - 免费商用授权

  • - 收费商用授权

  • - 开源不可商用

  • - 不开源

按条件筛选
全部
3B及以下
7B
13B
34B
65B
100B及以上
模型名称 参数大小 MMLU CEval AGIEval GSM8K MATH BBH MT Bench 发布者 开源情况 模型地址

DeepSeek-R1

6710.0

90.8

91.8

/

/

97.3

/

/

DeepSeek-AI DeepSeek-R1模型地址

OpenAI o1

90.8

/

/

/

94.8

/

/

OpenAI OpenAI o1模型地址

Claude 3.5 Sonnet New

0.0

90.5

/

/

92.5

78.3

/

/

Anthropic Claude 3.5 Sonnet New模型地址

Hunyuan-TurboS

89.5

/

/

/

89.7

92.2

/

腾讯AI实验室 Hunyuan-TurboS模型地址

GPT-4o

88.7

/

/

90.5

76.6

/

/

OpenAI GPT-4o模型地址

Claude 3.5 Sonnet

88.7

/

/

96.4

71.1

/

/

Anthropic Claude 3.5 Sonnet模型地址

DeepSeek-V3

6810.0

88.5

86.5

/

/

90.2

/

/

DeepSeek-AI DeepSeek-V3模型地址

Qwen2.5-Max

87.9

/

/

94.5

/

/

/

阿里巴巴 Qwen2.5-Max模型地址

Grok 2

87.5

/

/

/

76.1

/

/

xAI Grok 2模型地址

Kimi k1.5 (Short-CoT)

87.4

/

/

/

94.6

/

/

Moonshot AI Kimi k1.5 (Short-CoT)模型地址

Llama3.1-405B Instruct

4050.0

87.3

/

/

96.8

73.8

/

/

Facebook AI研究实验室 Llama3.1-405B Instruct模型地址

DeepSeek-V3-Base

6810.0

87.1

90.1

79.6

89.3

61.6

87.5

/

DeepSeek-AI DeepSeek-V3-Base模型地址

OpenAI o3-mini (high)

86.9

/

97.9

/

97.9

/

/

OpenAI OpenAI o3-mini (high)模型地址

Claude3-Opus

0.0

86.8

/

/

95.0

60.1

/

9.43

Anthropic Claude3-Opus模型地址

GPT-4

1750.0

86.4

68.7

/

87.1

42.5

/

9.32

OpenAI GPT-4模型地址

Llama3-400B-Instruct-InTraining

4000.0

86.1

/

/

94.1

57.8

/

/

Facebook AI研究实验室 Llama3-400B-Instruct-InTraining模型地址

Qwen2.5-72B

727.0

86.1

/

/

91.5

62.1

86.3

/

阿里巴巴 Qwen2.5-72B模型地址

Llama3.3-70B-Instruct

700.0

86.0

/

/

91.1

77.0

/

/

Facebook AI研究实验室 Llama3.3-70B-Instruct模型地址

C4AI Command A (202503)

1110.0

86.0

/

/

/

/

/

/

CohereAI C4AI Command A (202503)模型地址

Amazon Nova Pro

85.9

/

/

94.8

76.6

/

/

亚马逊 Amazon Nova Pro模型地址

OpenAI o3-mini (medium)

85.9

/

/

/

97.3

/

/

OpenAI OpenAI o3-mini (medium)模型地址

GPT-4o(2024-11-20)

85.7

/

/

/

68.5

/

/

OpenAI GPT-4o(2024-11-20)模型地址

Llama3.1-405B

4050.0

85.2

/

/

/

/

/

/

Facebook AI研究实验室 Llama3.1-405B模型地址

OpenAI o1-mini

85.2

/

/

/

90.0

/

/

OpenAI OpenAI o1-mini模型地址

OpenAI o3-mini (low)

84.9

/

/

/

95.8

/

/

OpenAI OpenAI o3-mini (low)模型地址

Llama3-400B-InTraining

4000.0

84.8

/

/

/

/

/

/

Facebook AI研究实验室 Llama3-400B-InTraining模型地址

Phi 4 - 14B

140.0

84.4

/

/

80.6

80.4

/

/

Microsoft Phi 4 - 14B模型地址

Qwen2-72B

727.0

84.2

91.0

/

89.5

51.1

82.4

/

阿里巴巴 Qwen2-72B模型地址

Gemini-ultra

0.0

83.7

/

/

88.9

53.2

/

/

DeepMind Gemini-ultra模型地址

Llama3.1-70B-Instruct

700.0

83.6

/

/

95.1

68.0

/

/

Facebook AI研究实验室 Llama3.1-70B-Instruct模型地址

Qwen2.5-32B

320.0

83.3

/

/

92.9

57.7

84.5

/

阿里巴巴 Qwen2.5-32B模型地址

Qwen2-72B-Instruct

720.0

82.3

83.8

/

91.1

59.7

/

9.12

阿里巴巴 Qwen2-72B-Instruct模型地址

Llama3-70B-Instruct

700.0

82.0

/

/

93.0

50.4

/

/

Facebook AI研究实验室 Llama3-70B-Instruct模型地址

GPT-4o mini

0.0

82.0

/

/

87.0

70.2

/

/

OpenAI GPT-4o mini模型地址

Gemini 1.5 Pro

0.0

81.9

/

/

91.7

58.5

/

/

Google Deep Mind Gemini 1.5 Pro模型地址

GLM4

0.0

81.5

/

/

87.6

47.9

82.3

/

智谱AI GLM4模型地址

Grok-1.5

81.3

/

/

90.0

50.6

/

/

xAI Grok-1.5模型地址

Mistral Large

0.0

81.2

/

/

81.0

45.0

/

8.66

MistralAI Mistral Large模型地址

Mistral-Small-3.1-24B-Base-2503

240.0

81.01

/

/

/

/

/

/

MistralAI Mistral-Small-3.1-24B-Base-2503模型地址

Mistral-Small-3.1-24B-Instruct-2503

240.0

81.01

/

/

/

/

/

/

MistralAI Mistral-Small-3.1-24B-Instruct-2503模型地址

Claude 3.5 Haiku

0.0

80.9

/

/

85.6

69.2

/

/

Anthropic Claude 3.5 Haiku模型地址

Qwen2.5-Math-72B

727.0

80.8

/

/

95.9

85.9

/

/

阿里巴巴 Qwen2.5-Math-72B模型地址

Mistral Small 24B Base2501

240.0

80.73

/

/

80.73

45.98

/

8.35

MistralAI Mistral Small 24B Base2501模型地址

YAYI2-30B

300.0

80.5

80.9

62.0

71.2

/

/

/

中科闻歌 YAYI2-30B模型地址

Amazon Nova Lite

80.5

/

/

94.5

73.3

/

/

亚马逊 Amazon Nova Lite模型地址

Qwen1.5-110B

1100.0

80.4

/

/

85.4

49.6

74.8

8.88

阿里巴巴 Qwen1.5-110B模型地址

DeepSeek V2.5

2360.0

80.4

/

/

95.1

74.7

/

/

DeepSeek-AI DeepSeek V2.5模型地址

Qwen2.5-14B

140.0

79.7

/

/

92.9

57.7

78.2

/

阿里巴巴 Qwen2.5-14B模型地址

Llama3-70B

700.0

79.5

/

/

/

/

/

/

Facebook AI研究实验室 Llama3-70B模型地址

Llama3.1-70B

700.0

79.3

/

/

/

/

/

/

Facebook AI研究实验室 Llama3.1-70B模型地址

Gemini-pro

1000.0

79.13

/

/

86.5

/

/

/

DeepMind Gemini-pro模型地址

Claude3-Sonnet

0.0

79.0

/

/

92.3

43.1

/

9.18

Anthropic Claude3-Sonnet模型地址

DeepSeek-V2-236B

2360.0

78.5

81.7

/

79.2

43.6

78.9

/

DeepSeek-AI DeepSeek-V2-236B模型地址

PaLM 2

3400.0

78.3

/

/

80.7

/

/

/

Google Research PaLM 2模型地址

Phi-3-medium 14B-preview

140.0

78.2

/

48.4

90.3

/

/

8.91

Microsoft Phi-3-medium 14B-preview模型地址

Mixtral-8×22B-MoE

1410.0

77.75

/

/

78.6

41.8

/

/

MistralAI Mixtral-8×22B-MoE模型地址

Amazon Nova Micro

77.6

/

/

92.3

69.3

/

/

亚马逊 Amazon Nova Micro模型地址

Qwen1.5-72B-Chat

720.0

77.5

84.1

/

79.5

34.1

65.5

8.67

阿里巴巴 Qwen1.5-72B-Chat模型地址

Qwen-72B

720.0

77.4

83.3

62.5

78.9

/

/

/

阿里巴巴 Qwen-72B模型地址

Yi-1.5-34B

340.0

77.1

/

71.1

82.7

41.0

76.4

/

零一万物 Yi-1.5-34B模型地址

Qwen2-57B-A14B

570.0

76.5

87.7

/

80.7

43.0

67.0

/

阿里巴巴 Qwen2-57B-A14B模型地址

Yi-34B

340.0

76.3

81.4

/

/

/

/

/

零一万物 Yi-34B模型地址

Yi-34B-200K

340.0

76.1

81.9

/

/

/

/

/

零一万物 Yi-34B-200K模型地址

Phi-3-small 7B

70.0

75.3

/

45.0

88.9

/

/

8.7

Microsoft Phi-3-small 7B模型地址

Claude3-Haiku

0.0

75.2

/

/

88.9

38.9

/

/

Anthropic Claude3-Haiku模型地址

Gemma2-27B

270.0

75.0

/

/

75.0

/

/

/

Google Deep Mind Gemma2-27B模型地址

GLM-4-9B

90.0

74.7

/

/

84.0

30.4

/

/

智谱AI GLM-4-9B模型地址

Qwen2.5-7B

70.0

74.2

/

/

85.4

49.8

70.4

/

阿里巴巴 Qwen2.5-7B模型地址

DBRX Instruct

1320.0

73.7

/

/

72.8

/

/

8.39

databricks DBRX Instruct模型地址

Qwen1.5-32B

320.0

73.4

83.5

/

77.4

36.1

/

8.3

阿里巴巴 Qwen1.5-32B模型地址

Grok-1

3140.0

73.0

/

/

62.9

/

/

/

xAI Grok-1模型地址

GLM-4-9B-Chat

90.0

72.4

75.6

/

79.6

50.6

/

8.35

智谱AI GLM-4-9B-Chat模型地址

Apollo-7B

70.0

71.86

/

/

/

/

/

/

个人 Apollo-7B模型地址

Gemma 2 - 9B

90.0

71.3

/

52.8

68.6

36.6

68.2

/

Google Research Gemma 2 - 9B模型地址

DeepSeek-V2-236B-Chat

2360.0

71.1

65.2

/

84.4

32.6

71.7

/

DeepSeek-AI DeepSeek-V2-236B-Chat模型地址

XVERSE-65B

650.0

70.8

/

61.8

60.3

/

/

/

元象XVERSE XVERSE-65B模型地址

Mixtral-8×7B-MoE

450.0

70.6

/

/

74.4

28.4

/

8.3

MistralAI Mixtral-8×7B-MoE模型地址

Qwen2-7B

70.0

70.3

83.2

/

79.9

44.2

62.6

/

阿里巴巴 Qwen2-7B模型地址

GPT-3.5

1750.0

70.0

54.4

/

57.1

/

/

8.39

OpenAI GPT-3.5模型地址

Moonlight-16B-A3B-Instruct

160.0

70.0

/

/

77.4

45.3

65.2

/

Moonshot AI Moonlight-16B-A3B-Instruct模型地址

Yi-1.5-9B

90.0

69.5

/

62.7

73.7

32.6

72.4

/

零一万物 Yi-1.5-9B模型地址

Llama3.1-8B-Instruct

80.0

69.4

/

/

84.5

51.9

/

/

Facebook AI研究实验室 Llama3.1-8B-Instruct模型地址

PaLM

5400.0

69.3

/

/

56.5

/

/

/

Google Research PaLM模型地址

LLaMA2 70B

700.0

68.9

/

54.2

56.8

/

/

/

Facebook AI研究实验室 LLaMA2 70B模型地址

Phi-3-mini 3.8B

38.0

68.8

/

37.5

82.5

/

/

8.38

Microsoft Phi-3-mini 3.8B模型地址

Yi-9B

90.0

68.4

/

/

52.3

15.9

/

/

零一万物 Yi-9B模型地址

Llama3-8B-Instruct

80.0

68.4

/

/

79.6

30.0

/

/

Facebook AI研究实验室 Llama3-8B-Instruct模型地址

Mistral NeMo-Base-12B

120.0

68.0

/

/

/

/

/

7.84

MistralAI Mistral NeMo-Base-12B模型地址

Mistral NeMo-Instruct-12B

120.0

68.0

/

/

/

/

/

7.84

MistralAI Mistral NeMo-Instruct-12B模型地址

Aquila2-34B

340.0

67.79

63.07

/

58.4

/

/

/

北京智源人工智能研究院 Aquila2-34B模型地址

Jamba-v0.1

520.0

67.4

/

/

59.9

/

45.4

/

A21 Labs Jamba-v0.1模型地址

Llama3.1-8B

80.0

66.7

/

/

/

/

/

/

Facebook AI研究实验室 Llama3.1-8B模型地址

Llama3-8B

80.0

66.6

/

/

/

/

/

/

Facebook AI研究实验室 Llama3-8B模型地址

Qwen-14B

140.0

66.3

72.1

/

61.3

/

/

/

阿里巴巴 Qwen-14B模型地址

Grok-0

330.0

65.7

/

/

56.8

/

/

/

xAI Grok-0模型地址

Qwen2.5-3B

30.0

65.6

/

/

79.1

42.6

56.3

/

阿里巴巴 Qwen2.5-3B模型地址

Gemma 3 - 12B (IT)

120.0

65.2

/

/

/

/

/

/

Google Deep Mind Gemma 3 - 12B (IT)模型地址

Gemma 7B

70.0

64.3

/

41.7

46.4

24.3

55.1

/

Google Research Gemma 7B模型地址

Yi-6B-200K

60.0

64.0

73.5

/

/

/

/

/

零一万物 Yi-6B-200K模型地址

Starling-7B-LM-Beta

70.0

63.9

/

/

/

/

/

8.09

Nexusflow Starling-7B-LM-Beta模型地址

LLaMA 65B

650.0

63.4

38.8

47.6

50.9

/

/

/

Facebook AI研究实验室 LLaMA 65B模型地址

Yi-6B

60.0

63.2

72.0

/

/

/

/

/

零一万物 Yi-6B模型地址

LLaMA2 34B

340.0

62.6

/

43.4

42.2

/

/

/

Facebook AI研究实验室 LLaMA2 34B模型地址

Qwen1.5-MoE-A2.7B

143.0

62.5

/

/

61.5

/

/

7.17

阿里巴巴 Qwen1.5-MoE-A2.7B模型地址

StableLM2-12B

120.0

62.09

/

/

56.03

/

/

8.15

Stability AI StableLM2-12B模型地址

ChatGLM3-6B-Base

60.0

61.4

69.0

53.7

72.3

/

/

/

智谱AI ChatGLM3-6B-Base模型地址

StableLM2-12B-Chat

120.0

61.14

/

/

57.7

/

/

8.15

Stability AI StableLM2-12B-Chat模型地址

Qwen2.5-1.5B

15.0

60.9

/

/

68.5

35.0

45.1

/

阿里巴巴 Qwen2.5-1.5B模型地址

XVERSE-13B-Chat

130.0

60.2

53.1

48.3

/

/

/

/

元象XVERSE XVERSE-13B-Chat模型地址

XVERSE-MoE-A4.2B

258.0

60.2

60.5

48.0

51.2

/

/

/

元象XVERSE XVERSE-MoE-A4.2B模型地址

Mistral 7B

73.0

60.1

/

43.0

52.1

/

/

/

MistralAI Mistral 7B模型地址

DeciLM-7B

70.4

59.76

/

/

47.38

/

/

/

Deci DeciLM-7B模型地址

Baichuan2-13B-Base

130.0

59.17

58.1

48.17

52.77

/

/

/

百川智能 Baichuan2-13B-Base模型地址

MiniCPM-MoE-8x2B

136.0

58.9

58.11

/

61.5

10.52

39.22

/

OpenBMB MiniCPM-MoE-8x2B模型地址

Llama-3.2-3B

32.0

58.0

/

39.2

/

/

/

/

Facebook AI研究实验室 Llama-3.2-3B模型地址

LLaMA 33B

330.0

57.8

/

41.7

35.6

/

/

/

Facebook AI研究实验室 LLaMA 33B模型地址

Qwen-7B

70.0

56.7

59.6

/

51.6

/

/

/

阿里巴巴 Qwen-7B模型地址

Phi-2

27.0

56.7

/

/

61.1

/

/

/

Microsoft Phi-2模型地址

Qwen2-1.5B

15.0

56.5

70.6

/

58.5

21.7

37.2

/

阿里巴巴 Qwen2-1.5B模型地址

ChatGLM2 12B

120.0

56.18

61.6

/

40.94

/

/

/

智谱AI ChatGLM2 12B模型地址

XVERSE-13B

130.0

55.1

54.7

41.4

/

/

/

/

元象XVERSE XVERSE-13B模型地址

LLaMA2 13B

130.0

54.84

/

39.1

28.7

/

/

/

Facebook AI研究实验室 LLaMA2 13B模型地址

Baichuan2-7B-Base

70.0

54.16

54.0

42.73

24.49

/

/

/

百川智能 Baichuan2-7B-Base模型地址

GPT-3

1750.0

53.9

/

/

/

/

/

/

OpenAI GPT-3模型地址

MiniCPM-2B-DPO

24.0

53.46

51.13

/

53.83

10.24

36.87

7.25

面壁智能 MiniCPM-2B-DPO模型地址

Baichuan 13B - Chat

130.0

52.1

51.5

/

26.6

/

/

/

百川智能 Baichuan 13B - Chat模型地址

Baichuan 13B - Base

130.0

51.62

52.4

/

26.6

/

/

/

百川智能 Baichuan 13B - Base模型地址

InternLM 7B

70.0

51.0

53.4

37.6

31.2

/

/

/

上海人工智能实验室 InternLM 7B模型地址

InternLM Chat 7B 8K

70.0

50.8

53.2

42.5

31.2

/

/

/

上海人工智能实验室 InternLM Chat 7B 8K模型地址

ChatGLM2-6B

62.0

47.86

51.7

/

32.37

/

/

/

智谱AI ChatGLM2-6B模型地址

Qwen2.5-0.5B

5.0

47.5

/

/

41.6

19.5

20.3

/

阿里巴巴 Qwen2.5-0.5B模型地址

LLaMA 13B

130.0

46.94

/

33.9

17.8

/

/

/

Facebook AI研究实验室 LLaMA 13B模型地址

Gemma 3 - 4B (IT)

40.0

46.9

/

/

/

/

/

/

Google Deep Mind Gemma 3 - 4B (IT)模型地址

Stable LM Zephyr 3B

30.0

45.9

30.34

/

52.54

12.2

37.86

6.64

Stability AI Stable LM Zephyr 3B模型地址

Qwen2-0.5B

4.0

45.4

58.2

/

58.5

10.7

28.4

/

阿里巴巴 Qwen2-0.5B模型地址

LLaMA2 7B

70.0

45.3

/

29.3

14.6

/

/

/

Facebook AI研究实验室 LLaMA2 7B模型地址

Qwen-1.8B

18.0

45.3

/

/

32.3

/

/

/

阿里巴巴 Qwen-1.8B模型地址

GLM-130B

1300.0

44.8

44.0

/

/

/

/

/

智谱AI GLM-130B模型地址

Ziya-LLaMA-13B-Pretrain-v1

130.0

43.9

30.2

27.2

/

/

/

/

IDEA研究院 Ziya-LLaMA-13B-Pretrain-v1模型地址

OpenLLaMA 13B

130.0

42.4

24.7

24.0

/

/

/

/

Berkeley Artificial Intelligence Research OpenLLaMA 13B模型地址

Baichuan 7B

70.0

42.3

42.8

34.44

9.7

/

/

/

百川智能 Baichuan 7B模型地址

Gemma 2B

20.0

42.3

/

24.2

17.7

11.8

35.2

/

Google Research Gemma 2B模型地址

Gemma 2B - It

20.0

42.3

/

24.2

17.7

11.8

35.2

/

Google Research Gemma 2B - It模型地址

Stable LM 2 - 1.6B

16.0

38.93

/

/

17.82

/

/

/

Stability AI Stable LM 2 - 1.6B模型地址

RecurrentGemma-2B

27.0

38.4

/

23.8

13.4

11.8

/

/

Google Research RecurrentGemma-2B模型地址

Phi-1.5

13.0

37.6

/

/

40.2

/

/

/

Microsoft Phi-1.5模型地址

DeepSeek Coder-6.7B Instruct

67.0

37.2

/

/

62.8

28.6

46.9

/

DeepSeek-AI DeepSeek Coder-6.7B Instruct模型地址

ChatGLM-6B

62.0

36.9

38.9

/

4.82

/

/

/

智谱AI ChatGLM-6B模型地址

LLaMA 7B

70.0

35.1

27.1

23.9

11.0

/

/

/

Facebook AI研究实验室 LLaMA 7B模型地址

Llama-3.2-1B

12.0

32.2

/

23.3

/

/

/

/

Facebook AI研究实验室 Llama-3.2-1B模型地址

Gemma 3 - 1B (IT)

10.0

29.9

/

/

/

/

/

/

Google Deep Mind Gemma 3 - 1B (IT)模型地址

MOSS

160.0

27.4

33.13

26.8

/

/

/

/

OpenLMLab MOSS模型地址

OPT

1750.0

25.2

25.0

24.2

/

/

/

/

Facebook AI研究实验室 OPT模型地址

Pythia

120.0

25.1

26.2

25.3

/

/

/

/

EleutherAI Pythia模型地址

TinyLlama

11.0

24.3

25.02

/

2.27

/

/

/

新加坡科技与设计大学 TinyLlama模型地址

CodeGemma-7B

70.0

/

/

/

44.2

19.9

/

/

Google Research CodeGemma-7B模型地址

CodeGemma-7B-IT

70.0

/

/

/

41.2

20.9

/

/

Google Research CodeGemma-7B-IT模型地址

CodeGemma-2B

20.0

/

/

/

41.2

20.9

/

/

Google Research CodeGemma-2B模型地址

WizardLM-2-70B

70.0

/

/

/

/

/

/

8.92

Microsoft WizardLM-2-70B模型地址

WizardLM-2-7B

70.0

/

/

/

/

/

/

8.28

Microsoft WizardLM-2-7B模型地址

WizardLM-2 8x22B

1760.0

/

/

/

/

/

/

9.12

Microsoft WizardLM-2 8x22B模型地址

DeepSeek-R1-Lite-Preview

/

/

/

/

91.6

/

/

DeepSeek-AI DeepSeek-R1-Lite-Preview模型地址

Gemini 2.0 Flash Experimental

/

/

/

/

89.7

/

/

DeepMind Gemini 2.0 Flash Experimental模型地址

C4AI Command R7B

70.0

/

/

/

87.8

59.1

36.1

/

CohereAI C4AI Command R7B模型地址

Mistral Small 24B Instruct 2501

240.0

/

/

/

/

70.6

/

8.35

MistralAI Mistral Small 24B Instruct 2501模型地址

Gemini 2.0 Pro Experimental

/

/

/

/

91.8

/

/

DeepMind Gemini 2.0 Pro Experimental模型地址

Gemini 2.0 Flash-Lite

/

/

/

/

86.8

/

/

DeepMind Gemini 2.0 Flash-Lite模型地址

Kimi k1.5 (Long-CoT)

/

/

/

/

96.2

/

/

普林斯顿大学 Kimi k1.5 (Long-CoT)模型地址

Qwen2.5-Omni-7B

70.0

/

/

/

91.6

36.4

/

/

阿里巴巴 Qwen2.5-Omni-7B模型地址

CPM-Bee

100.0

/

54.1

/

/

/

/

/

面壁智能 CPM-Bee模型地址

Aquila-7B

70.0

/

25.5

25.58

/

/

/

/

北京智源人工智能研究院 Aquila-7B模型地址

Phi-1

13.0

/

/

/

/

/

/

/

Microsoft Phi-1模型地址
模型名称 参数大小 MMLU CEval AGIEval GSM8K MATH BBH MT Bench 发布者 开源情况 模型地址

DeepSeek-R1

6710.0

90.8

91.8

/

/

97.3

/

/

DeepSeek-AI DeepSeek-R1模型地址

OpenAI o1

90.8

/

/

/

94.8

/

/

OpenAI OpenAI o1模型地址

Claude 3.5 Sonnet New

0.0

90.5

/

/

92.5

78.3

/

/

Anthropic Claude 3.5 Sonnet New模型地址

Hunyuan-TurboS

89.5

/

/

/

89.7

92.2

/

腾讯AI实验室 Hunyuan-TurboS模型地址

GPT-4o

88.7

/

/

90.5

76.6

/

/

OpenAI GPT-4o模型地址

Claude 3.5 Sonnet

88.7

/

/

96.4

71.1

/

/

Anthropic Claude 3.5 Sonnet模型地址

DeepSeek-V3

6810.0

88.5

86.5

/

/

90.2

/

/

DeepSeek-AI DeepSeek-V3模型地址

Qwen2.5-Max

87.9

/

/

94.5

/

/

/

阿里巴巴 Qwen2.5-Max模型地址

Grok 2

87.5

/

/

/

76.1

/

/

xAI Grok 2模型地址

Kimi k1.5 (Short-CoT)

87.4

/

/

/

94.6

/

/

Moonshot AI Kimi k1.5 (Short-CoT)模型地址

Llama3.1-405B Instruct

4050.0

87.3

/

/

96.8

73.8

/

/

Facebook AI研究实验室 Llama3.1-405B Instruct模型地址

DeepSeek-V3-Base

6810.0

87.1

90.1

79.6

89.3

61.6

87.5

/

DeepSeek-AI DeepSeek-V3-Base模型地址

OpenAI o3-mini (high)

86.9

/

97.9

/

97.9

/

/

OpenAI OpenAI o3-mini (high)模型地址

Claude3-Opus

0.0

86.8

/

/

95.0

60.1

/

9.43

Anthropic Claude3-Opus模型地址

GPT-4

1750.0

86.4

68.7

/

87.1

42.5

/

9.32

OpenAI GPT-4模型地址

Llama3-400B-Instruct-InTraining

4000.0

86.1

/

/

94.1

57.8

/

/

Facebook AI研究实验室 Llama3-400B-Instruct-InTraining模型地址

Qwen2.5-72B

727.0

86.1

/

/

91.5

62.1

86.3

/

阿里巴巴 Qwen2.5-72B模型地址

Llama3.3-70B-Instruct

700.0

86.0

/

/

91.1

77.0

/

/

Facebook AI研究实验室 Llama3.3-70B-Instruct模型地址

C4AI Command A (202503)

1110.0

86.0

/

/

/

/

/

/

CohereAI C4AI Command A (202503)模型地址

Amazon Nova Pro

85.9

/

/

94.8

76.6

/

/

亚马逊 Amazon Nova Pro模型地址

OpenAI o3-mini (medium)

85.9

/

/

/

97.3

/

/

OpenAI OpenAI o3-mini (medium)模型地址

GPT-4o(2024-11-20)

85.7

/

/

/

68.5

/

/

OpenAI GPT-4o(2024-11-20)模型地址

Llama3.1-405B

4050.0

85.2

/

/

/

/

/

/

Facebook AI研究实验室 Llama3.1-405B模型地址

OpenAI o1-mini

85.2

/

/

/

90.0

/

/

OpenAI OpenAI o1-mini模型地址

OpenAI o3-mini (low)

84.9

/

/

/

95.8

/

/

OpenAI OpenAI o3-mini (low)模型地址

Llama3-400B-InTraining

4000.0

84.8

/

/

/

/

/

/

Facebook AI研究实验室 Llama3-400B-InTraining模型地址

Phi 4 - 14B

140.0

84.4

/

/

80.6

80.4

/

/

Microsoft Phi 4 - 14B模型地址

Qwen2-72B

727.0

84.2

91.0

/

89.5

51.1

82.4

/

阿里巴巴 Qwen2-72B模型地址

Gemini-ultra

0.0

83.7

/

/

88.9

53.2

/

/

DeepMind Gemini-ultra模型地址

Llama3.1-70B-Instruct

700.0

83.6

/

/

95.1

68.0

/

/

Facebook AI研究实验室 Llama3.1-70B-Instruct模型地址

Qwen2.5-32B

320.0

83.3

/

/

92.9

57.7

84.5

/

阿里巴巴 Qwen2.5-32B模型地址

Qwen2-72B-Instruct

720.0

82.3

83.8

/

91.1

59.7

/

9.12

阿里巴巴 Qwen2-72B-Instruct模型地址

Llama3-70B-Instruct

700.0

82.0

/

/

93.0

50.4

/

/

Facebook AI研究实验室 Llama3-70B-Instruct模型地址

GPT-4o mini

0.0

82.0

/

/

87.0

70.2

/

/

OpenAI GPT-4o mini模型地址

Gemini 1.5 Pro

0.0

81.9

/

/

91.7

58.5

/

/

Google Deep Mind Gemini 1.5 Pro模型地址

GLM4

0.0

81.5

/

/

87.6

47.9

82.3

/

智谱AI GLM4模型地址

Grok-1.5

81.3

/

/

90.0

50.6

/

/

xAI Grok-1.5模型地址

Mistral Large

0.0

81.2

/

/

81.0

45.0

/

8.66

MistralAI Mistral Large模型地址

Mistral-Small-3.1-24B-Base-2503

240.0

81.01

/

/

/

/

/

/

MistralAI Mistral-Small-3.1-24B-Base-2503模型地址

Mistral-Small-3.1-24B-Instruct-2503

240.0

81.01

/

/

/

/

/

/

MistralAI Mistral-Small-3.1-24B-Instruct-2503模型地址

Claude 3.5 Haiku

0.0

80.9

/

/

85.6

69.2

/

/

Anthropic Claude 3.5 Haiku模型地址

Qwen2.5-Math-72B

727.0

80.8

/

/

95.9

85.9

/

/

阿里巴巴 Qwen2.5-Math-72B模型地址

Mistral Small 24B Base2501

240.0

80.73

/

/

80.73

45.98

/

8.35

MistralAI Mistral Small 24B Base2501模型地址

YAYI2-30B

300.0

80.5

80.9

62.0

71.2

/

/

/

中科闻歌 YAYI2-30B模型地址

Amazon Nova Lite

80.5

/

/

94.5

73.3

/

/

亚马逊 Amazon Nova Lite模型地址

Qwen1.5-110B

1100.0

80.4

/

/

85.4

49.6

74.8

8.88

阿里巴巴 Qwen1.5-110B模型地址

DeepSeek V2.5

2360.0

80.4

/

/

95.1

74.7

/

/

DeepSeek-AI DeepSeek V2.5模型地址

Qwen2.5-14B

140.0

79.7

/

/

92.9

57.7

78.2

/

阿里巴巴 Qwen2.5-14B模型地址

Llama3-70B

700.0

79.5

/

/

/

/

/

/

Facebook AI研究实验室 Llama3-70B模型地址

Llama3.1-70B

700.0

79.3

/

/

/

/

/

/

Facebook AI研究实验室 Llama3.1-70B模型地址

Gemini-pro

1000.0

79.13

/

/

86.5

/

/

/

DeepMind Gemini-pro模型地址

Claude3-Sonnet

0.0

79.0

/

/

92.3

43.1

/

9.18

Anthropic Claude3-Sonnet模型地址

DeepSeek-V2-236B

2360.0

78.5

81.7

/

79.2

43.6

78.9

/

DeepSeek-AI DeepSeek-V2-236B模型地址

PaLM 2

3400.0

78.3

/

/

80.7

/

/

/

Google Research PaLM 2模型地址

Phi-3-medium 14B-preview

140.0

78.2

/

48.4

90.3

/

/

8.91

Microsoft Phi-3-medium 14B-preview模型地址

Mixtral-8×22B-MoE

1410.0

77.75

/

/

78.6

41.8

/

/

MistralAI Mixtral-8×22B-MoE模型地址

Amazon Nova Micro

77.6

/

/

92.3

69.3

/

/

亚马逊 Amazon Nova Micro模型地址

Qwen1.5-72B-Chat

720.0

77.5

84.1

/

79.5

34.1

65.5

8.67

阿里巴巴 Qwen1.5-72B-Chat模型地址

Qwen-72B

720.0

77.4

83.3

62.5

78.9

/

/

/

阿里巴巴 Qwen-72B模型地址

Yi-1.5-34B

340.0

77.1

/

71.1

82.7

41.0

76.4

/

零一万物 Yi-1.5-34B模型地址

Qwen2-57B-A14B

570.0

76.5

87.7

/

80.7

43.0

67.0

/

阿里巴巴 Qwen2-57B-A14B模型地址

Yi-34B

340.0

76.3

81.4

/

/

/

/

/

零一万物 Yi-34B模型地址

Yi-34B-200K

340.0

76.1

81.9

/

/

/

/

/

零一万物 Yi-34B-200K模型地址

Phi-3-small 7B

70.0

75.3

/

45.0

88.9

/

/

8.7

Microsoft Phi-3-small 7B模型地址

Claude3-Haiku

0.0

75.2

/

/

88.9

38.9

/

/

Anthropic Claude3-Haiku模型地址

Gemma2-27B

270.0

75.0

/

/

75.0

/

/

/

Google Deep Mind Gemma2-27B模型地址

GLM-4-9B

90.0

74.7

/

/

84.0

30.4

/

/

智谱AI GLM-4-9B模型地址

Qwen2.5-7B

70.0

74.2

/

/

85.4

49.8

70.4

/

阿里巴巴 Qwen2.5-7B模型地址

DBRX Instruct

1320.0

73.7

/

/

72.8

/

/

8.39

databricks DBRX Instruct模型地址

Qwen1.5-32B

320.0

73.4

83.5

/

77.4

36.1

/

8.3

阿里巴巴 Qwen1.5-32B模型地址

Grok-1

3140.0

73.0

/

/

62.9

/

/

/

xAI Grok-1模型地址

GLM-4-9B-Chat

90.0

72.4

75.6

/

79.6

50.6

/

8.35

智谱AI GLM-4-9B-Chat模型地址

Apollo-7B

70.0

71.86

/

/

/

/

/

/

个人 Apollo-7B模型地址

Gemma 2 - 9B

90.0

71.3

/

52.8

68.6

36.6

68.2

/

Google Research Gemma 2 - 9B模型地址

DeepSeek-V2-236B-Chat

2360.0

71.1

65.2

/

84.4

32.6

71.7

/

DeepSeek-AI DeepSeek-V2-236B-Chat模型地址

XVERSE-65B

650.0

70.8

/

61.8

60.3

/

/

/

元象XVERSE XVERSE-65B模型地址

Mixtral-8×7B-MoE

450.0

70.6

/

/

74.4

28.4

/

8.3

MistralAI Mixtral-8×7B-MoE模型地址

Qwen2-7B

70.0

70.3

83.2

/

79.9

44.2

62.6

/

阿里巴巴 Qwen2-7B模型地址

GPT-3.5

1750.0

70.0

54.4

/

57.1

/

/

8.39

OpenAI GPT-3.5模型地址

Moonlight-16B-A3B-Instruct

160.0

70.0

/

/

77.4

45.3

65.2

/

Moonshot AI Moonlight-16B-A3B-Instruct模型地址

Yi-1.5-9B

90.0

69.5

/

62.7

73.7

32.6

72.4

/

零一万物 Yi-1.5-9B模型地址

Llama3.1-8B-Instruct

80.0

69.4

/

/

84.5

51.9

/

/

Facebook AI研究实验室 Llama3.1-8B-Instruct模型地址

PaLM

5400.0

69.3

/

/

56.5

/

/

/

Google Research PaLM模型地址

LLaMA2 70B

700.0

68.9

/

54.2

56.8

/

/

/

Facebook AI研究实验室 LLaMA2 70B模型地址

Phi-3-mini 3.8B

38.0

68.8

/

37.5

82.5

/

/

8.38

Microsoft Phi-3-mini 3.8B模型地址

Yi-9B

90.0

68.4

/

/

52.3

15.9

/

/

零一万物 Yi-9B模型地址

Llama3-8B-Instruct

80.0

68.4

/

/

79.6

30.0

/

/

Facebook AI研究实验室 Llama3-8B-Instruct模型地址

Mistral NeMo-Base-12B

120.0

68.0

/

/

/

/

/

7.84

MistralAI Mistral NeMo-Base-12B模型地址

Mistral NeMo-Instruct-12B

120.0

68.0

/

/

/

/

/

7.84

MistralAI Mistral NeMo-Instruct-12B模型地址

Aquila2-34B

340.0

67.79

63.07

/

58.4

/

/

/

北京智源人工智能研究院 Aquila2-34B模型地址

Jamba-v0.1

520.0

67.4

/

/

59.9

/

45.4

/

A21 Labs Jamba-v0.1模型地址

Llama3.1-8B

80.0

66.7

/

/

/

/

/

/

Facebook AI研究实验室 Llama3.1-8B模型地址

Llama3-8B

80.0

66.6

/

/

/

/

/

/

Facebook AI研究实验室 Llama3-8B模型地址

Qwen-14B

140.0

66.3

72.1

/

61.3

/

/

/

阿里巴巴 Qwen-14B模型地址

Grok-0

330.0

65.7

/

/

56.8

/

/

/

xAI Grok-0模型地址

Qwen2.5-3B

30.0

65.6

/

/

79.1

42.6

56.3

/

阿里巴巴 Qwen2.5-3B模型地址

Gemma 3 - 12B (IT)

120.0

65.2

/

/

/

/

/

/

Google Deep Mind Gemma 3 - 12B (IT)模型地址

Gemma 7B

70.0

64.3

/

41.7

46.4

24.3

55.1

/

Google Research Gemma 7B模型地址

Yi-6B-200K

60.0

64.0

73.5

/

/

/

/

/

零一万物 Yi-6B-200K模型地址

Starling-7B-LM-Beta

70.0

63.9

/

/

/

/

/

8.09

Nexusflow Starling-7B-LM-Beta模型地址

LLaMA 65B

650.0

63.4

38.8

47.6

50.9

/

/

/

Facebook AI研究实验室 LLaMA 65B模型地址

Yi-6B

60.0

63.2

72.0

/

/

/

/

/

零一万物 Yi-6B模型地址

LLaMA2 34B

340.0

62.6

/

43.4

42.2

/

/

/

Facebook AI研究实验室 LLaMA2 34B模型地址

Qwen1.5-MoE-A2.7B

143.0

62.5

/

/

61.5

/

/

7.17

阿里巴巴 Qwen1.5-MoE-A2.7B模型地址

StableLM2-12B

120.0

62.09

/

/

56.03

/

/

8.15

Stability AI StableLM2-12B模型地址

ChatGLM3-6B-Base

60.0

61.4

69.0

53.7

72.3

/

/

/

智谱AI ChatGLM3-6B-Base模型地址

StableLM2-12B-Chat

120.0

61.14

/

/

57.7

/

/

8.15

Stability AI StableLM2-12B-Chat模型地址

Qwen2.5-1.5B

15.0

60.9

/

/

68.5

35.0

45.1

/

阿里巴巴 Qwen2.5-1.5B模型地址

XVERSE-13B-Chat

130.0

60.2

53.1

48.3

/

/

/

/

元象XVERSE XVERSE-13B-Chat模型地址

XVERSE-MoE-A4.2B

258.0

60.2

60.5

48.0

51.2

/

/

/

元象XVERSE XVERSE-MoE-A4.2B模型地址

Mistral 7B

73.0

60.1

/

43.0

52.1

/

/

/

MistralAI Mistral 7B模型地址

DeciLM-7B

70.4

59.76

/

/

47.38

/

/

/

Deci DeciLM-7B模型地址

Baichuan2-13B-Base

130.0

59.17

58.1

48.17

52.77

/

/

/

百川智能 Baichuan2-13B-Base模型地址

MiniCPM-MoE-8x2B

136.0

58.9

58.11

/

61.5

10.52

39.22

/

OpenBMB MiniCPM-MoE-8x2B模型地址

Llama-3.2-3B

32.0

58.0

/

39.2

/

/

/

/

Facebook AI研究实验室 Llama-3.2-3B模型地址

LLaMA 33B

330.0

57.8

/

41.7

35.6

/

/

/

Facebook AI研究实验室 LLaMA 33B模型地址

Qwen-7B

70.0

56.7

59.6

/

51.6

/

/

/

阿里巴巴 Qwen-7B模型地址

Phi-2

27.0

56.7

/

/

61.1

/

/

/

Microsoft Phi-2模型地址

Qwen2-1.5B

15.0

56.5

70.6

/

58.5

21.7

37.2

/

阿里巴巴 Qwen2-1.5B模型地址

ChatGLM2 12B

120.0

56.18

61.6

/

40.94

/

/

/

智谱AI ChatGLM2 12B模型地址

XVERSE-13B

130.0

55.1

54.7

41.4

/

/

/

/

元象XVERSE XVERSE-13B模型地址

LLaMA2 13B

130.0

54.84

/

39.1

28.7

/

/

/

Facebook AI研究实验室 LLaMA2 13B模型地址

Baichuan2-7B-Base

70.0

54.16

54.0

42.73

24.49

/

/

/

百川智能 Baichuan2-7B-Base模型地址

GPT-3

1750.0

53.9

/

/

/

/

/

/

OpenAI GPT-3模型地址

MiniCPM-2B-DPO

24.0

53.46

51.13

/

53.83

10.24

36.87

7.25

面壁智能 MiniCPM-2B-DPO模型地址

Baichuan 13B - Chat

130.0

52.1

51.5

/

26.6

/

/

/

百川智能 Baichuan 13B - Chat模型地址

Baichuan 13B - Base

130.0

51.62

52.4

/

26.6

/

/

/

百川智能 Baichuan 13B - Base模型地址

InternLM 7B

70.0

51.0

53.4

37.6

31.2

/

/

/

上海人工智能实验室 InternLM 7B模型地址

InternLM Chat 7B 8K

70.0

50.8

53.2

42.5

31.2

/

/

/

上海人工智能实验室 InternLM Chat 7B 8K模型地址

ChatGLM2-6B

62.0

47.86

51.7

/

32.37

/

/

/

智谱AI ChatGLM2-6B模型地址

Qwen2.5-0.5B

5.0

47.5

/

/

41.6

19.5

20.3

/

阿里巴巴 Qwen2.5-0.5B模型地址

LLaMA 13B

130.0

46.94

/

33.9

17.8

/

/

/

Facebook AI研究实验室 LLaMA 13B模型地址

Gemma 3 - 4B (IT)

40.0

46.9

/

/

/

/

/

/

Google Deep Mind Gemma 3 - 4B (IT)模型地址

Stable LM Zephyr 3B

30.0

45.9

30.34

/

52.54

12.2

37.86

6.64

Stability AI Stable LM Zephyr 3B模型地址

Qwen2-0.5B

4.0

45.4

58.2

/

58.5

10.7

28.4

/

阿里巴巴 Qwen2-0.5B模型地址

LLaMA2 7B

70.0

45.3

/

29.3

14.6

/

/

/

Facebook AI研究实验室 LLaMA2 7B模型地址

Qwen-1.8B

18.0

45.3

/

/

32.3

/

/

/

阿里巴巴 Qwen-1.8B模型地址

GLM-130B

1300.0

44.8

44.0

/

/

/

/

/

智谱AI GLM-130B模型地址

Ziya-LLaMA-13B-Pretrain-v1

130.0

43.9

30.2

27.2

/

/

/

/

IDEA研究院 Ziya-LLaMA-13B-Pretrain-v1模型地址

OpenLLaMA 13B

130.0

42.4

24.7

24.0

/

/

/

/

Berkeley Artificial Intelligence Research OpenLLaMA 13B模型地址

Baichuan 7B

70.0

42.3

42.8

34.44

9.7

/

/

/

百川智能 Baichuan 7B模型地址

Gemma 2B

20.0

42.3

/

24.2

17.7

11.8

35.2

/

Google Research Gemma 2B模型地址

Gemma 2B - It

20.0

42.3

/

24.2

17.7

11.8

35.2

/

Google Research Gemma 2B - It模型地址

Stable LM 2 - 1.6B

16.0

38.93

/

/

17.82

/

/

/

Stability AI Stable LM 2 - 1.6B模型地址

RecurrentGemma-2B

27.0

38.4

/

23.8

13.4

11.8

/

/

Google Research RecurrentGemma-2B模型地址

Phi-1.5

13.0

37.6

/

/

40.2

/

/

/

Microsoft Phi-1.5模型地址

DeepSeek Coder-6.7B Instruct

67.0

37.2

/

/

62.8

28.6

46.9

/

DeepSeek-AI DeepSeek Coder-6.7B Instruct模型地址

ChatGLM-6B

62.0

36.9

38.9

/

4.82

/

/

/

智谱AI ChatGLM-6B模型地址

LLaMA 7B

70.0

35.1

27.1

23.9

11.0

/

/

/

Facebook AI研究实验室 LLaMA 7B模型地址

Llama-3.2-1B

12.0

32.2

/

23.3

/

/

/

/

Facebook AI研究实验室 Llama-3.2-1B模型地址

Gemma 3 - 1B (IT)

10.0

29.9

/

/

/

/

/

/

Google Deep Mind Gemma 3 - 1B (IT)模型地址

MOSS

160.0

27.4

33.13

26.8

/

/

/

/

OpenLMLab MOSS模型地址

OPT

1750.0

25.2

25.0

24.2

/

/

/

/

Facebook AI研究实验室 OPT模型地址

Pythia

120.0

25.1

26.2

25.3

/

/

/

/

EleutherAI Pythia模型地址

TinyLlama

11.0

24.3

25.02

/

2.27

/

/

/

新加坡科技与设计大学 TinyLlama模型地址

CodeGemma-7B

70.0

/

/

/

44.2

19.9

/

/

Google Research CodeGemma-7B模型地址

CodeGemma-7B-IT

70.0

/

/

/

41.2

20.9

/

/

Google Research CodeGemma-7B-IT模型地址

CodeGemma-2B

20.0

/

/

/

41.2

20.9

/

/

Google Research CodeGemma-2B模型地址

WizardLM-2-70B

70.0

/

/

/

/

/

/

8.92

Microsoft WizardLM-2-70B模型地址

WizardLM-2-7B

70.0

/

/

/

/

/

/

8.28

Microsoft WizardLM-2-7B模型地址

WizardLM-2 8x22B

1760.0

/

/

/

/

/

/

9.12

Microsoft WizardLM-2 8x22B模型地址

DeepSeek-R1-Lite-Preview

/

/

/

/

91.6

/

/

DeepSeek-AI DeepSeek-R1-Lite-Preview模型地址

Gemini 2.0 Flash Experimental

/

/

/

/

89.7

/

/

DeepMind Gemini 2.0 Flash Experimental模型地址

C4AI Command R7B

70.0

/

/

/

87.8

59.1

36.1

/

CohereAI C4AI Command R7B模型地址

Mistral Small 24B Instruct 2501

240.0

/

/

/

/

70.6

/

8.35

MistralAI Mistral Small 24B Instruct 2501模型地址

Gemini 2.0 Pro Experimental

/

/

/

/

91.8

/

/

DeepMind Gemini 2.0 Pro Experimental模型地址

Gemini 2.0 Flash-Lite

/

/

/

/

86.8

/

/

DeepMind Gemini 2.0 Flash-Lite模型地址

Kimi k1.5 (Long-CoT)

/

/

/

/

96.2

/

/

普林斯顿大学 Kimi k1.5 (Long-CoT)模型地址

Qwen2.5-Omni-7B

70.0

/

/

/

91.6

36.4

/

/

阿里巴巴 Qwen2.5-Omni-7B模型地址

CPM-Bee

100.0

/

54.1

/

/

/

/

/

面壁智能 CPM-Bee模型地址

Aquila-7B

70.0

/

25.5

25.58

/

/

/

/

北京智源人工智能研究院 Aquila-7B模型地址

Phi-1

13.0

/

/

/

/

/

/

/

Microsoft Phi-1模型地址

数据说明:所有数据来源于论文或者GitHub上的评测结果,以官方论文为主,部分数据来源第三方评测!