MMLU

Massive Multitask Language Understanding

一个涵盖 57 个主题的多项选择题基准,用于评估大规模语言模型的知识和推理能力。

英语 难度:Advanced

主要统计信息

问题数量

15000

机构

University of California, Berkeley

类别

知识问答

评估指标

Accuracy

MMLU基准测试简介

MMLU 大模型得分排行榜

冠军
亚军
季军
其他排名

详细排名数据表格

模型简称 MMLU得分 发布机构 发布时间 参数规模(亿)
OpenAI o1 91.8 OpenAI Logo 2024-12-05 未知
DeepSeek-R1 90.8 DeepSeek-AI Logo 2025-01-20 6710.0
GPT-4.1 90.2 OpenAI Logo 2025-04-14 未知
Hunyuan-TurboS 89.5 腾讯AI实验室 Logo 2025-03-10 未知
Pangu Pro MoE 89.3 华为 Logo 2025-06-30 719.0
GPT-4o 88.7 OpenAI Logo 2024-05-13 未知
Llama3.1-405B Instruct 88.6 Facebook AI研究实验室 Logo 2024-07-23 4050.0
DeepSeek-V3 88.5 DeepSeek-AI Logo 2024-12-26 6810.0
Claude 3.5 Sonnet 88.3 Anthropic Logo 2024-06-21 未知
Claude 3.5 Sonnet New 88.3 Anthropic Logo 2024-10-22 0.0
Hunyuan-A13B-Instruct 88.17 腾讯AI实验室 Logo 2025-06-27 800.0
Qwen2.5-Max 87.9 阿里巴巴 Logo 2025-01-28 未知
GPT-4.1 mini 87.5 OpenAI Logo 2025-04-14 未知
Grok 2 87.5 xAI Logo 2024-08-13 未知
Kimi k1.5 (Short-CoT) 87.4 Moonshot AI Logo 2025-01-22 未知
Gemini 1.5 Pro 87.1 Google Deep Mind Logo 2024-02-15 0.0
OpenAI o3-mini (high) 86.9 OpenAI Logo 2025-01-31 未知
Claude3-Opus 86.8 Anthropic Logo 2024-03-04 0.0
DeepSeek-V3-0324 86.5 DeepSeek-AI Logo 2025-03-24 6810.0
Gemini 2.0 Pro Experimental 86.5 DeepMind Logo 2025-02-05 未知
ERNIE-4.5-300B-A47B 86.5 百度 Logo 2025-06-30 3000.0
Qwen2.5-72B 86.1 阿里巴巴 Logo 2024-09-18 727.0
Llama3.3-70B-Instruct 86.0 Facebook AI研究实验室 Logo 2024-12-06 700.0
Llama3.1-70B-Instruct 86.0 Facebook AI研究实验室 Logo 2024-07-23 700.0
Amazon Nova Pro 85.9 亚马逊 Logo 2024-12-03 未知
Qwen3-235B-A22B 85.8 阿里巴巴 Logo 2025-04-28 2350.0
GPT-4o(2024-11-20) 85.7 OpenAI Logo 2024-11-20 未知
Llama 4 Maverick 85.5 Facebook AI研究实验室 Logo 2025-04-05 4000.0
OpenAI o1-mini 85.2 OpenAI Logo 2024-09-12 未知
Gemini 2.5 Flash-Lite 84.5 Google Deep Mind Logo 2025-06-17 未知
Gemini 2.0 Flash Experimental 83.4 DeepMind Logo 2024-12-11 未知
Qwen2.5-32B 83.3 阿里巴巴 Logo 2024-09-18 320.0
GPT-4o mini 82.0 OpenAI Logo 2024-07-18 0.0
Grok-1.5 81.3 xAI Logo 2024-03-29 未知
Mistral-Small-3.1-24B-Instruct-2503 80.62 MistralAI Logo 2025-03-17 240.0
Mistral-Small-3.2 80.5 MistralAI Logo 2025-06-20 240.0
GPT-4.1 nano 80.1 OpenAI Logo 2025-04-14 未知
Llama 4 Scout 79.6 Facebook AI研究实验室 Logo 2025-04-05 1090.0
Gemini 2.0 Flash-Lite 78.2 DeepMind Logo 2025-02-05 未知
Claude 3.5 Haiku 77.6 Anthropic Logo 2024-10-22 0.0
Gemma 3 - 27B (IT) 76.9 Google Deep Mind Logo 2025-03-12 270.0
Qwen2.5-7B 74.2 阿里巴巴 Logo 2024-09-18 70.0
C4AI Aya Vision 32B 72.14 CohereAI Logo 2025-03-04 320.0
Gemma 2 - 9B 71.3 Google Research Logo 2024-06-27 90.0
Moonlight-16B-A3B-Instruct 70.0 Moonshot AI Logo 2025-02-23 160.0
Llama3.1-8B-Instruct 68.1 Facebook AI研究实验室 Logo 2024-07-23 80.0
Phi-4-mini-instruct (3.8B) 67.3 Microsoft Logo 2025-02-27 38.0
Llama3.1-8B 66.6 Facebook AI研究实验室 Logo 2024-07-23 80.0
Qwen2.5-3B 65.6 阿里巴巴 Logo 2024-09-18 30.0
Mistral-7B-Instruct-v0.3 64.2 MistralAI Logo 2024-05-22 70.0
Llama-3.2-3B 54.75 Facebook AI研究实验室 Logo 2024-09-18 32.0
GPT-4.5 0.0 OpenAI Logo 2025-02-28 未知
得分:
91.8
发布时间:
2024-12-05
参数规模(亿):
未知
得分:
90.8
发布时间:
2025-01-20
参数规模(亿):
6710.0
得分:
90.2
发布时间:
2025-04-14
参数规模(亿):
未知
得分:
89.5
发布时间:
2025-03-10
参数规模(亿):
未知
得分:
89.3
发布时间:
2025-06-30
参数规模(亿):
719.0
得分:
88.7
发布时间:
2024-05-13
参数规模(亿):
未知
得分:
88.6
发布时间:
2024-07-23
参数规模(亿):
4050.0
得分:
88.5
发布时间:
2024-12-26
参数规模(亿):
6810.0
得分:
88.3
发布时间:
2024-06-21
参数规模(亿):
未知
得分:
88.3
发布时间:
2024-10-22
参数规模(亿):
0.0
得分:
88.17
发布时间:
2025-06-27
参数规模(亿):
800.0
得分:
87.9
发布时间:
2025-01-28
参数规模(亿):
未知
得分:
87.5
发布时间:
2025-04-14
参数规模(亿):
未知
得分:
87.5
发布时间:
2024-08-13
参数规模(亿):
未知
得分:
87.4
发布时间:
2025-01-22
参数规模(亿):
未知
得分:
87.1
发布时间:
2024-02-15
参数规模(亿):
0.0
得分:
86.9
发布时间:
2025-01-31
参数规模(亿):
未知
得分:
86.8
发布时间:
2024-03-04
参数规模(亿):
0.0
得分:
86.5
发布时间:
2025-03-24
参数规模(亿):
6810.0
得分:
86.5
发布时间:
2025-02-05
参数规模(亿):
未知
得分:
86.5
发布时间:
2025-06-30
参数规模(亿):
3000.0
得分:
86.1
发布时间:
2024-09-18
参数规模(亿):
727.0
得分:
86.0
发布时间:
2024-12-06
参数规模(亿):
700.0
得分:
86.0
发布时间:
2024-07-23
参数规模(亿):
700.0
得分:
85.9
发布时间:
2024-12-03
参数规模(亿):
未知
得分:
85.8
发布时间:
2025-04-28
参数规模(亿):
2350.0
得分:
85.7
发布时间:
2024-11-20
参数规模(亿):
未知
得分:
85.5
发布时间:
2025-04-05
参数规模(亿):
4000.0
得分:
85.2
发布时间:
2024-09-12
参数规模(亿):
未知
得分:
84.5
发布时间:
2025-06-17
参数规模(亿):
未知
得分:
83.4
发布时间:
2024-12-11
参数规模(亿):
未知
得分:
83.3
发布时间:
2024-09-18
参数规模(亿):
320.0
得分:
82.0
发布时间:
2024-07-18
参数规模(亿):
0.0
得分:
81.3
发布时间:
2024-03-29
参数规模(亿):
未知
得分:
80.62
发布时间:
2025-03-17
参数规模(亿):
240.0
得分:
80.5
发布时间:
2025-06-20
参数规模(亿):
240.0
得分:
80.1
发布时间:
2025-04-14
参数规模(亿):
未知
得分:
79.6
发布时间:
2025-04-05
参数规模(亿):
1090.0
得分:
78.2
发布时间:
2025-02-05
参数规模(亿):
未知
得分:
77.6
发布时间:
2024-10-22
参数规模(亿):
0.0
得分:
76.9
发布时间:
2025-03-12
参数规模(亿):
270.0
得分:
74.2
发布时间:
2024-09-18
参数规模(亿):
70.0
得分:
72.14
发布时间:
2025-03-04
参数规模(亿):
320.0
得分:
71.3
发布时间:
2024-06-27
参数规模(亿):
90.0
得分:
70.0
发布时间:
2025-02-23
参数规模(亿):
160.0
得分:
68.1
发布时间:
2024-07-23
参数规模(亿):
80.0
得分:
67.3
发布时间:
2025-02-27
参数规模(亿):
38.0
得分:
66.6
发布时间:
2024-07-23
参数规模(亿):
80.0
得分:
65.6
发布时间:
2024-09-18
参数规模(亿):
30.0
得分:
64.2
发布时间:
2024-05-22
参数规模(亿):
70.0
得分:
54.75
发布时间:
2024-09-18
参数规模(亿):
32.0
得分:
0.0
发布时间:
2025-02-28
参数规模(亿):
未知