MMLU Pro 评测基准详情

412

大模型已经对很多行业产生了巨大的影响，如何准确评测大模型的能力和效果，已经成为业界亟待解决的关键问题。生成式AI模型，如大型语言模型（LLMs），能够生成高质量的文本、代码、图像等内容，但其评测却相对很困难。而此前很多较早的评测也很难区分当前最优模型的能力。以MMLU评测为例，2023年3月份，GPT-4在MMLU获得了86.4分之后，将近2年后的2024年年底，业界最好的大模型在MMLU上得分也就90.5，提升十分有限。为此，滑铁卢大学、多伦多大学和卡耐基梅隆大学的研究人员一起提出了MMLU P

Massive Multitask Language Understanding Professional Level

MMLU 的专业级别版本，包含更具挑战性的问题，旨在评估模型在专业领域的理解和推理能力。

问题数量 38500

发布机构 Berkeley Artificial Intelligence Research

评测类别综合评估

评测指标 Accuracy

支持语言英文

难度等级中等难度

模型模式说明

不同模式会显著影响成绩，请在对比榜单时留意标签提示。

提示：若某条记录未显示任何标签，即默认是 normal 常规模式。

normal

常规推理：单步推理，不延长思考、也不调用额外工具。

thinking low medium high

Thinking 系列：常规延长思考时间，low/medium/high 代表不同耗时或深度，各厂商叫法不同。

deeper thinking

Deeper thinking：在 Thinking 基础上进一步延长思考链条，通常意味着更多算力与时间。

使用工具 / 联网

允许调用检索、浏览器、代码解释器等外部能力。

parallel_thinking

并行思考：多线程/多代理协同探索再汇总，通常只在厂商内部实验环境中启用、尚未对外开放，因此被视为“作弊”模式。

MMLU Pro 大模型得分排行榜

数据来源：DataLearnerAI

默认：仅展示常规/非并行的评测结果，可按需查看并行思考成绩。

默认隐藏并行思考结果。

排名

模型

得分

发布时间

参数(亿)

OpenAI o1

91.04

2024-12-05

未知

OpenAI o1

91.04

MMLU Pro得分 91.04

发布时间 2024-12-05

参数(亿) 未知

查看模型详情

Gemini 3.0 Pro (Preview 11-2025) thinking

90.0

2025-11-18

未知

Gemini 3.0 Pro (Preview 11-2025) thinking

90.0

MMLU Pro得分 90.0

发布时间 2025-11-18

参数(亿) 未知

查看模型详情

Claude Sonnet 4.5 thinking

88.0

2025-09-30

未知

Claude Sonnet 4.5 thinking

88.0

MMLU Pro得分 88.0

发布时间 2025-09-30

参数(亿) 未知

查看模型详情

Hunyuan-T1

87.2

2025-03-21

未知

Hunyuan-T1

87.2

MMLU Pro得分 87.2

发布时间 2025-03-21

参数(亿) 未知

查看模型详情

Grok 4 thinking

87.0

2025-07-10

未知

Grok 4 thinking

87.0

MMLU Pro得分 87.0

发布时间 2025-07-10

参数(亿) 未知

查看模型详情

GPT-4.5

86.1

2025-02-28

未知

GPT-4.5

86.1

MMLU Pro得分 86.1

发布时间 2025-02-28

参数(亿) 未知

查看模型详情

Gemini 2.5-Pro

86.0

2025-06-05

未知

Gemini 2.5-Pro

86.0

MMLU Pro得分 86.0

发布时间 2025-06-05

参数(亿) 未知

查看模型详情

OpenAI o3

85.6

2025-04-16

未知

OpenAI o3

85.6

MMLU Pro得分 85.6

发布时间 2025-04-16

参数(亿) 未知

查看模型详情

Claude Opus 4

85.0

2025-05-23

未知

Claude Opus 4

85.0

MMLU Pro得分 85.0

发布时间 2025-05-23

参数(亿) 未知

查看模型详情

DeepSeek-V3.1 thinking

85.0

2025-08-20

6710.0

#10

DeepSeek-V3.1 thinking

85.0

MMLU Pro得分 85.0

发布时间 2025-08-20

参数(亿) 6710.0

查看模型详情

DeepSeek-R1-0528 thinking

85.0

2025-05-28

6710.0

#11

DeepSeek-R1-0528 thinking

85.0

MMLU Pro得分 85.0

发布时间 2025-05-28

参数(亿) 6710.0

查看模型详情

DeepSeek-V3.1 Terminus thinking

85.0

2025-09-22

6710.0

#12

DeepSeek-V3.1 Terminus thinking

85.0

MMLU Pro得分 85.0

发布时间 2025-09-22

参数(亿) 6710.0

查看模型详情

DeepSeek-V3.1 Terminus

85.0

2025-09-22

6710.0

#13

DeepSeek-V3.1 Terminus

85.0

MMLU Pro得分 85.0

发布时间 2025-09-22

参数(亿) 6710.0

查看模型详情

DeepSeek V3.2-Exp thinking

85.0

2025-09-29

6710.0

#14

DeepSeek V3.2-Exp thinking

85.0

MMLU Pro得分 85.0

发布时间 2025-09-29

参数(亿) 6710.0

查看模型详情

Grok 4.1 Fast thinking

85.0

2025-11-19

未知

#15

Grok 4.1 Fast thinking

85.0

MMLU Pro得分 85.0

发布时间 2025-11-19

参数(亿) 未知

查看模型详情

GLM-4.5 thinking

84.6

2025-07-28

3550.0

#16

GLM-4.5 thinking

84.6

MMLU Pro得分 84.6

发布时间 2025-07-28

参数(亿) 3550.0

查看模型详情

Kimi K2 Thinking thinking

84.6

2025-11-06

10400.0

#17

Kimi K2 Thinking thinking

84.6

MMLU Pro得分 84.6

发布时间 2025-11-06

参数(亿) 10400.0

查看模型详情

Qwen3-235B-A22B-Thinking-2507 thinking

84.4

2025-07-25

2350.0

#18

Qwen3-235B-A22B-Thinking-2507 thinking

84.4

MMLU Pro得分 84.4

发布时间 2025-07-25

参数(亿) 2350.0

查看模型详情

Qwen3-235B-A22B-Thinking thinking

84.4

2025-07-30

305.0

#19

Qwen3-235B-A22B-Thinking thinking

84.4

MMLU Pro得分 84.4

发布时间 2025-07-30

参数(亿) 305.0

查看模型详情

DeepSeek-R1

84.0

2025-01-20

6710.0

#20

DeepSeek-R1

84.0

MMLU Pro得分 84.0

发布时间 2025-01-20

参数(亿) 6710.0

查看模型详情

Qwen3 Max

84.0

2025-09-05

未知

#21

Qwen3 Max

84.0

MMLU Pro得分 84.0

发布时间 2025-09-05

参数(亿) 未知

查看模型详情

DeepSeek V3.2-Exp

84.0

2025-09-29

6710.0

#22

DeepSeek V3.2-Exp

84.0

MMLU Pro得分 84.0

发布时间 2025-09-29

参数(亿) 6710.0

查看模型详情

Claude Sonnet 4 thinking

84.0

2025-05-23

未知

#23

Claude Sonnet 4 thinking

84.0

MMLU Pro得分 84.0

发布时间 2025-05-23

参数(亿) 未知

查看模型详情

DeepSeek-V3.1

83.7

2025-08-20

6710.0

#24

DeepSeek-V3.1

83.7

MMLU Pro得分 83.7

发布时间 2025-08-20

参数(亿) 6710.0

查看模型详情

Intern-S1

83.5

2025-07-27

2410.0

#25

Intern-S1

83.5

MMLU Pro得分 83.5

发布时间 2025-07-27

参数(亿) 2410.0

查看模型详情

Qwen3-235B-A22B-2507

83.0

2025-07-21

2350.0

#26

Qwen3-235B-A22B-2507

83.0

MMLU Pro得分 83.0

发布时间 2025-07-21

参数(亿) 2350.0

查看模型详情

GLM-4.6 thinking

83.0

2025-09-30

3550.0

#27

GLM-4.6 thinking

83.0

MMLU Pro得分 83.0

发布时间 2025-09-30

参数(亿) 3550.0

查看模型详情

Pangu Pro MoE

82.6

2025-06-30

719.0

#28

Pangu Pro MoE

82.6

MMLU Pro得分 82.6

发布时间 2025-06-30

参数(亿) 719.0

查看模型详情

Llama 4 Behemoth Instruct

82.2

2025-04-05

20000.0

#29

Llama 4 Behemoth Instruct

82.2

MMLU Pro得分 82.2

发布时间 2025-04-05

参数(亿) 20000.0

查看模型详情

MiniMax M2 thinking

82.0

2025-10-27

2300.0

#30

MiniMax M2 thinking

82.0

MMLU Pro得分 82.0

发布时间 2025-10-27

参数(亿) 2300.0

查看模型详情

GLM-4.5-Air thinking

81.4

2025-07-28

1060.0

#31

GLM-4.5-Air thinking

81.4

MMLU Pro得分 81.4

发布时间 2025-07-28

参数(亿) 1060.0

查看模型详情

DeepSeek-V3-0324

81.2

2025-03-24

6710.0

#32

DeepSeek-V3-0324

81.2

MMLU Pro得分 81.2

发布时间 2025-03-24

参数(亿) 6710.0

查看模型详情

MiniMax-M1-80k

81.1

2025-06-16

4560.0

#33

MiniMax-M1-80k

81.1

MMLU Pro得分 81.1

发布时间 2025-06-16

参数(亿) 4560.0

查看模型详情

Kimi K2

81.1

2025-07-11

10000.0

#34

Kimi K2

81.1

MMLU Pro得分 81.1

发布时间 2025-07-11

参数(亿) 10000.0

查看模型详情

MiniMax-M1-40k

80.6

2025-06-16

4560.0

#35

MiniMax-M1-40k

80.6

MMLU Pro得分 80.6

发布时间 2025-06-16

参数(亿) 4560.0

查看模型详情

OpenAI o4 - mini thinking

80.6

2025-04-16

未知

#36

OpenAI o4 - mini thinking

80.6

MMLU Pro得分 80.6

发布时间 2025-04-16

参数(亿) 未知

查看模型详情

Llama 4 Maverick Instruct

80.5

2025-04-05

4000.0

#37

Llama 4 Maverick Instruct

80.5

MMLU Pro得分 80.5

发布时间 2025-04-05

参数(亿) 4000.0

查看模型详情

GPT-4.1

80.5

2025-04-14

未知

#38

GPT-4.1

80.5

MMLU Pro得分 80.5

发布时间 2025-04-14

参数(亿) 未知

查看模型详情

OpenAI o1-mini

80.3

2024-09-12

未知

#39

OpenAI o1-mini

80.3

MMLU Pro得分 80.3

发布时间 2024-09-12

参数(亿) 未知

查看模型详情

Haiku 4.5

80.0

2025-10-15

未知

#40

Haiku 4.5

80.0

MMLU Pro得分 80.0

发布时间 2025-10-15

参数(亿) 未知

查看模型详情

GPT-4o(2025-03-27)

79.8

2025-03-27

未知

#41

GPT-4o(2025-03-27)

79.8

MMLU Pro得分 79.8

发布时间 2025-03-27

参数(亿) 未知

查看模型详情

Gemini 2.0 Pro Experimental

79.1

2025-02-05

未知

#42

Gemini 2.0 Pro Experimental

79.1

MMLU Pro得分 79.1

发布时间 2025-02-05

参数(亿) 未知

查看模型详情

Hunyuan-TurboS

79.0

2025-03-10

未知

#43

Hunyuan-TurboS

79.0

MMLU Pro得分 79.0

发布时间 2025-03-10

参数(亿) 未知

查看模型详情

Pangu Embedded

79.0

2025-06-30

70.0

#44

Pangu Embedded

79.0

MMLU Pro得分 79.0

发布时间 2025-06-30

参数(亿) 70.0

查看模型详情

GPT OSS 120B thinking

79.0

2025-08-06

117.0

#45

GPT OSS 120B thinking

79.0

MMLU Pro得分 79.0

发布时间 2025-08-06

参数(亿) 117.0

查看模型详情

ERNIE-4.5-300B-A47B

78.4

2025-06-30

3000.0

#46

ERNIE-4.5-300B-A47B

78.4

MMLU Pro得分 78.4

发布时间 2025-06-30

参数(亿) 3000.0

查看模型详情

Qwen3-30B-A3B-2507

78.4

2025-07-29

305.0

#47

Qwen3-30B-A3B-2507

78.4

MMLU Pro得分 78.4

发布时间 2025-07-29

参数(亿) 305.0

查看模型详情

Claude 3.5 Sonnet New

78.0

2024-10-22

未知

#48

Claude 3.5 Sonnet New

78.0

MMLU Pro得分 78.0

发布时间 2024-10-22

参数(亿) 未知

查看模型详情

GPT-5-mini thinking

78.0

2025-08-07

未知

#49

GPT-5-mini thinking

78.0

MMLU Pro得分 78.0

发布时间 2025-08-07

参数(亿) 未知

查看模型详情

GLM-4.6

78.0

2025-09-30

3550.0

#50

GLM-4.6

78.0

MMLU Pro得分 78.0

发布时间 2025-09-30

参数(亿) 3550.0

查看模型详情

GPT-4o(2024-11-20)

77.9

2024-11-20

未知

#51

GPT-4o(2024-11-20)

77.9

MMLU Pro得分 77.9

发布时间 2024-11-20

参数(亿) 未知

查看模型详情

GPT-4o

77.9

2024-05-13

未知

#52

GPT-4o

77.9

MMLU Pro得分 77.9

发布时间 2024-05-13

参数(亿) 未知

查看模型详情

Claude 3.5 Sonnet

77.64

2024-06-21

未知

#53

Claude 3.5 Sonnet

77.64

MMLU Pro得分 77.64

发布时间 2024-06-21

参数(亿) 未知

查看模型详情

Gemini 2.0 Flash Experimental

76.24

2024-12-11

未知

#54

Gemini 2.0 Flash Experimental

76.24

MMLU Pro得分 76.24

发布时间 2024-12-11

参数(亿) 未知

查看模型详情

Gemini 1.5 Pro

76.1

2024-02-15

未知

#55

Gemini 1.5 Pro

76.1

MMLU Pro得分 76.1

发布时间 2024-02-15

参数(亿) 未知

查看模型详情

Qwen2.5-Max

76.1

2025-01-28

未知

#56

Qwen2.5-Max

76.1

MMLU Pro得分 76.1

发布时间 2025-01-28

参数(亿) 未知

查看模型详情

QwQ-32B

76.0

2025-03-06

325.0

#57

QwQ-32B

76.0

MMLU Pro得分 76.0

发布时间 2025-03-06

参数(亿) 325.0

查看模型详情

Haiku 4.5 thinking

76.0

2025-10-15

未知

#58

Haiku 4.5 thinking

76.0

MMLU Pro得分 76.0

发布时间 2025-10-15

参数(亿) 未知

查看模型详情

DeepSeek-V3

75.9

2024-12-26

6810.0

#59

DeepSeek-V3

75.9

MMLU Pro得分 75.9

发布时间 2024-12-26

参数(亿) 6810.0

查看模型详情

Grok 2

75.5

2024-08-13

2690.0

#60

Grok 2

75.5

MMLU Pro得分 75.5

发布时间 2024-08-13

参数(亿) 2690.0

查看模型详情

Llama 4 Scout Instruct

74.3

2025-04-05

1090.0

#61

Llama 4 Scout Instruct

74.3

MMLU Pro得分 74.3

发布时间 2025-04-05

参数(亿) 1090.0

查看模型详情

GPT OSS 20B thinking

74.0

2025-08-06

210.0

#62

GPT OSS 20B thinking

74.0

MMLU Pro得分 74.0

发布时间 2025-08-06

参数(亿) 210.0

查看模型详情

Llama3.1-405B Instruct

73.4

2024-07-23

4050.0

#63

Llama3.1-405B Instruct

73.4

MMLU Pro得分 73.4

发布时间 2024-07-23

参数(亿) 4050.0

查看模型详情

Qwen3-235B-A22B

72.9

2025-04-28

2350.0

#64

Qwen3-235B-A22B

72.9

MMLU Pro得分 72.9

发布时间 2025-04-28

参数(亿) 2350.0

查看模型详情

Qwen3-8B

72.5

2025-04-28

80.0

#65

Qwen3-8B

72.5

MMLU Pro得分 72.5

发布时间 2025-04-28

参数(亿) 80.0

查看模型详情

GLM-4-9B-Chat

72.4

2024-06-05

90.0

#66

GLM-4-9B-Chat

72.4

MMLU Pro得分 72.4

发布时间 2024-06-05

参数(亿) 90.0

查看模型详情

Gemini 2.0 Flash-Lite

71.6

2025-02-05

未知

#67

Gemini 2.0 Flash-Lite

71.6

MMLU Pro得分 71.6

发布时间 2025-02-05

参数(亿) 未知

查看模型详情

QwQ-32B-Preview

70.97

2024-11-28

320.0

#68

QwQ-32B-Preview

70.97

MMLU Pro得分 70.97

发布时间 2024-11-28

参数(亿) 320.0

查看模型详情

Phi 4 - 14B

70.4

2024-12-12

140.0

#69

Phi 4 - 14B

70.4

MMLU Pro得分 70.4

发布时间 2024-12-12

参数(亿) 140.0

查看模型详情

Qwen2.5-32B

69.23

2024-09-18

320.0

#70

Qwen2.5-32B

69.23

MMLU Pro得分 69.23

发布时间 2024-09-18

参数(亿) 320.0

查看模型详情

Qwen3-30B-A3B

69.1

2025-04-28

305.0

#71

Qwen3-30B-A3B

69.1

MMLU Pro得分 69.1

发布时间 2025-04-28

参数(亿) 305.0

查看模型详情

Mistral-Small-3.2

69.06

2025-06-20

240.0

#72

Mistral-Small-3.2

69.06

MMLU Pro得分 69.06

发布时间 2025-06-20

参数(亿) 240.0

查看模型详情

Llama3.3-70B-Instruct

68.9

2024-12-06

700.0

#73

Llama3.3-70B-Instruct

68.9

MMLU Pro得分 68.9

发布时间 2024-12-06

参数(亿) 700.0

查看模型详情

Claude3-Opus

68.45

2024-03-04

未知

#74

Claude3-Opus

68.45

MMLU Pro得分 68.45

发布时间 2024-03-04

参数(亿) 未知

查看模型详情

Gemma 3 - 27B (IT)

67.5

2025-03-12

270.0

#75

Gemma 3 - 27B (IT)

67.5

MMLU Pro得分 67.5

发布时间 2025-03-12

参数(亿) 270.0

查看模型详情

Hunyuan-A13B-Instruct

67.23

2025-06-27

800.0

#76

Hunyuan-A13B-Instruct

67.23

MMLU Pro得分 67.23

发布时间 2025-06-27

参数(亿) 800.0

查看模型详情

Mistral-Small-3.1-24B-Instruct-2503

66.76

2025-03-17

240.0

#77

Mistral-Small-3.1-24B-Instruct-2503

66.76

MMLU Pro得分 66.76

发布时间 2025-03-17

参数(亿) 240.0

查看模型详情

Llama3.1-70B-Instruct

66.4

2024-07-23

700.0

#78

Llama3.1-70B-Instruct

66.4

MMLU Pro得分 66.4

发布时间 2024-07-23

参数(亿) 700.0

查看模型详情

Qwen3-Next

66.05

2025-09-11

800.0

#79

Qwen3-Next

66.05

MMLU Pro得分 66.05

发布时间 2025-09-11

参数(亿) 800.0

查看模型详情

Claude 3.5 Haiku

65.0

2024-10-22

未知

#80

Claude 3.5 Haiku

65.0

MMLU Pro得分 65.0

发布时间 2024-10-22

参数(亿) 未知

查看模型详情

Qwen2.5-14B

63.69

2024-09-18

140.0

#81

Qwen2.5-14B

63.69

MMLU Pro得分 63.69

发布时间 2024-09-18

参数(亿) 140.0

查看模型详情

Llama 4 Maverick

62.9

2025-04-05

4000.0

#82

Llama 4 Maverick

62.9

MMLU Pro得分 62.9

发布时间 2025-04-05

参数(亿) 4000.0

查看模型详情

GPT-4o mini

61.7

2024-07-18

未知

#83

GPT-4o mini

61.7

MMLU Pro得分 61.7

发布时间 2024-07-18

参数(亿) 未知

查看模型详情

Llama3.1-405B

61.6

2024-07-23

4050.0

#84

Llama3.1-405B

61.6

MMLU Pro得分 61.6

发布时间 2024-07-23

参数(亿) 4050.0

查看模型详情

Gemma 3 - 12B (IT)

60.6

2025-03-12

120.0

#85

Gemma 3 - 12B (IT)

60.6

MMLU Pro得分 60.6

发布时间 2025-03-12

参数(亿) 120.0

查看模型详情

Llama 4 Scout

58.2

2025-04-05

1090.0

#86

Llama 4 Scout

58.2

MMLU Pro得分 58.2

发布时间 2025-04-05

参数(亿) 1090.0

查看模型详情

Qwen2.5-72B

58.1

2024-09-18

727.0

#87

Qwen2.5-72B

58.1

MMLU Pro得分 58.1

发布时间 2024-09-18

参数(亿) 727.0

查看模型详情

Claude3-Sonnet

56.8

2024-03-04

未知

#88

Claude3-Sonnet

56.8

MMLU Pro得分 56.8

发布时间 2024-03-04

参数(亿) 未知

查看模型详情

Gemma2-27B

56.54

2024-05-14

270.0

#89

Gemma2-27B

56.54

MMLU Pro得分 56.54

发布时间 2024-05-14

参数(亿) 270.0

查看模型详情

Mixtral-8x22B-Instruct-v0.1

56.33

2024-04-17

1410.0

#90

Mixtral-8x22B-Instruct-v0.1

56.33

MMLU Pro得分 56.33

发布时间 2024-04-17

参数(亿) 1410.0

查看模型详情

Llama3-70B-Instruct

56.2

2024-04-18

700.0

#91

Llama3-70B-Instruct

56.2

MMLU Pro得分 56.2

发布时间 2024-04-18

参数(亿) 700.0

查看模型详情

Phi-4-mini-instruct (3.8B)

52.8

2025-02-27

38.0

#92

Phi-4-mini-instruct (3.8B)

52.8

MMLU Pro得分 52.8

发布时间 2025-02-27

参数(亿) 38.0

查看模型详情

Llama3-70B

52.78

2024-04-18

700.0

#93

Llama3-70B

52.78

MMLU Pro得分 52.78

发布时间 2024-04-18

参数(亿) 700.0

查看模型详情

Llama3.1-70B

52.47

2024-07-23

700.0

#94

Llama3.1-70B

52.47

MMLU Pro得分 52.47

发布时间 2024-07-23

参数(亿) 700.0

查看模型详情

Grok-1.5

51.0

2024-03-29

未知

#95

Grok-1.5

51.0

MMLU Pro得分 51.0

发布时间 2024-03-29

参数(亿) 未知

查看模型详情

C4AI Aya Vision 32B

47.16

2025-03-04

320.0

#96

C4AI Aya Vision 32B

47.16

MMLU Pro得分 47.16

发布时间 2025-03-04

参数(亿) 320.0

查看模型详情

Qwen2.5-7B

45.0

2024-09-18

70.0

#97

Qwen2.5-7B

45.0

MMLU Pro得分 45.0

发布时间 2024-09-18

参数(亿) 70.0

查看模型详情

Gemma 2 - 9B

44.7

2024-06-27

90.0

#98

Gemma 2 - 9B

44.7

MMLU Pro得分 44.7

发布时间 2024-06-27

参数(亿) 90.0

查看模型详情

Llama3.1-8B-Instruct

44.0

2024-07-23

80.0

#99

Llama3.1-8B-Instruct

44.0

MMLU Pro得分 44.0

发布时间 2024-07-23

参数(亿) 80.0

查看模型详情

100

Moonlight-16B-A3B-Instruct

42.4

2025-02-23

160.0

#100

Moonlight-16B-A3B-Instruct

42.4

MMLU Pro得分 42.4

发布时间 2025-02-23

参数(亿) 160.0

查看模型详情

101

Llama3.1-8B

35.4

2024-07-23

80.0

#101

Llama3.1-8B

35.4

MMLU Pro得分 35.4

发布时间 2024-07-23

参数(亿) 80.0

查看模型详情

102

Qwen2.5-3B

34.6

2024-09-18

30.0

#102

Qwen2.5-3B

34.6

MMLU Pro得分 34.6

发布时间 2024-09-18

参数(亿) 30.0

查看模型详情

103

Mistral-7B-Instruct-v0.3

30.9

2024-05-22

70.0

#103

Mistral-7B-Instruct-v0.3

30.9

MMLU Pro得分 30.9

发布时间 2024-05-22

参数(亿) 70.0

查看模型详情

104

Llama-3.2-3B

25.0

2024-09-18

32.0

#104

Llama-3.2-3B

25.0

MMLU Pro得分 25.0

发布时间 2024-09-18

参数(亿) 32.0

查看模型详情

105

Amazon Nova Pro

0.0

2024-12-03

未知

#105

Amazon Nova Pro

0.0

MMLU Pro得分 0.0

发布时间 2024-12-03

参数(亿) 未知

查看模型详情

Massive Multitask Language Understanding Professional Level

模型模式说明

MMLU Pro 大模型得分排行榜

MMLU Pro详细排名数据表格