MMLU Pro 评测基准详情
大模型已经对很多行业产生了巨大的影响,如何准确评测大模型的能力和效果,已经成为业界亟待解决的关键问题。生成式AI模型,如大型语言模型(LLMs),能够生成高质量的文本、代码、图像等内容,但其评测却相对很困难。而此前很多较早的评测也很难区分当前最优模型的能力。 以MMLU评测为例,2023年3月份,GPT-4在MMLU获得了86.4分之后,将近2年后的2024年年底,业界最好的大模型在MMLU上得分也就90.5,提升十分有限。 为此,滑铁卢大学、多伦多大学和卡耐基梅隆大学的研究人员一起提出了MMLU P
Views763
问题数量
38500
发布机构
Berkeley Artificial Intelligence Research
评测类别
综合评估
评测指标
Accuracy
支持语言
英文
难度等级
中等难度
简介
MMLU 的专业级别版本,包含更具挑战性的问题,旨在评估模型在专业领域的理解和推理能力。
相关资源
MMLU Pro 大模型得分排行榜
数据来源:DataLearnerAI
模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...
详细评测数据
MMLU Pro详细排名数据表格
| 排名 | 模型 | |||
|---|---|---|---|---|
| 1 | 91.04 | 2024-12-05 | 未知 | |
| 2 | Gemini 3.0 Pro (Preview 11-2025)thinking | 90 | 2025-11-18 | 未知 |
| 3 | Claude Opus 4.5thinking | 90 | 2025-11-25 | 未知 |
| 4 | Claude Opus 4.1thinking | 88 | 2025-08-06 | 未知 |
| 5 | Claude Sonnet 4.5thinking | 88 | 2025-09-30 | 未知 |
| 6 | 87.2 | 2025-03-21 | 未知 | |
| 7 | Grok 4thinking | 87 | 2025-07-10 | 未知 |
| 8 | 86.1 | 2025-02-28 | 未知 | |
| 9 | 86 | 2025-06-05 | 未知 | |
| 10 | 85.6 | 2025-04-16 | 未知 | |
| 11 | 85 | 2025-05-23 | 未知 | |
| 12 | DeepSeek-R1-0528thinking | 85 | 2025-05-28 | 6710 |
| 13 | DeepSeek-V3.1thinking | 85 | 2025-08-20 | 6710 |
| 14 | DeepSeek-V3.1 Terminusthinking | 85 | 2025-09-22 | 6710 |
| 15 | 85 | 2025-09-22 | 6710 | |
| 16 | DeepSeek V3.2-Expthinking | 85 | 2025-09-29 | 6710 |
| 17 | Grok 4.1 Fastthinking | 85 | 2025-11-19 | 未知 |
| 18 | GLM-4.5thinking | 84.6 | 2025-07-28 | 3550 |
| 19 | Kimi K2 Thinkingthinking | 84.6 | 2025-11-06 | 10400 |
| 20 | Qwen3-235B-A22B-Thinking-2507thinking | 84.4 | 2025-07-25 | 2350 |
| 21 | Qwen3-235B-A22B-Thinkingthinking | 84.4 | 2025-07-30 | 305 |
| 22 | 84 | 2025-01-20 | 6710 | |
| 23 | Claude Sonnet 4thinking | 84 | 2025-05-23 | 未知 |
| 24 | 84 | 2025-09-05 | 未知 | |
| 25 | 84 | 2025-09-29 | 6710 | |
| 26 | 83.7 | 2025-08-20 | 6710 | |
| 27 | 83.5 | 2025-07-27 | 2410 | |
| 28 | 83 | 2025-07-21 | 2350 | |
| 29 | GLM-4.6thinking | 83 | 2025-09-30 | 3550 |
| 30 | 82.6 | 2025-06-30 | 719 | |
| 31 | 82.2 | 2025-04-05 | 20000 | |
| 32 | MiniMax M2thinking | 82 | 2025-10-27 | 2300 |
| 33 | GLM-4.5-Airthinking | 81.4 | 2025-07-28 | 1060 |
| 34 | 81.2 | 2025-03-24 | 6710 | |
| 35 | 81.1 | 2025-06-16 | 4560 | |
| 36 | 81.1 | 2025-07-11 | 10000 | |
| 37 | OpenAI o4 - minithinking | 80.6 | 2025-04-16 | 未知 |
| 38 | 80.6 | 2025-06-16 | 4560 | |
| 39 | 80.5 | 2025-04-05 | 4000 | |
| 40 | 80.5 | 2025-04-14 | 未知 | |
| 41 | 80.3 | 2024-09-12 | 未知 | |
| 42 | 80 | 2025-10-15 | 未知 | |
| 43 | 79.8 | 2025-03-27 | 未知 | |
| 44 | 79.1 | 2025-02-05 | 未知 | |
| 45 | 79 | 2025-03-10 | 未知 | |
| 46 | 79 | 2025-06-30 | 70 | |
| 47 | GPT OSS 120Bthinking | 79 | 2025-08-06 | 117 |
| 48 | 78.4 | 2025-06-30 | 3000 | |
| 49 | 78.4 | 2025-07-29 | 305 | |
| 50 | 78 | 2024-10-22 | 未知 | |
| 51 | GPT-5-minithinking | 78 | 2025-08-07 | 未知 |
| 52 | 78 | 2025-09-30 | 3550 | |
| 53 | 77.9 | 2024-05-13 | 未知 | |
| 54 | 77.9 | 2024-11-20 | 未知 | |
| 55 | 77.64 | 2024-06-21 | 未知 | |
| 56 | 76.24 | 2024-12-11 | 未知 | |
| 57 | 76.1 | 2024-02-15 | 未知 | |
| 58 | 76.1 | 2025-01-28 | 未知 | |
| 59 | 76 | 2025-03-06 | 325 | |
| 60 | Haiku 4.5thinking | 76 | 2025-10-15 | 未知 |
| 61 | 75.9 | 2024-12-26 | 6810 | |
| 62 | 75.5 | 2024-08-13 | 2690 | |
| 63 | 74.3 | 2025-04-05 | 1090 | |
| 64 | GPT OSS 20Bthinking | 74 | 2025-08-06 | 210 |
| 65 | 73.4 | 2024-07-23 | 4050 | |
| 66 | 72.9 | 2025-04-28 | 2350 | |
| 67 | 72.5 | 2025-04-28 | 80 | |
| 68 | 72.4 | 2024-06-05 | 90 | |
| 69 | 71.6 | 2025-02-05 | 未知 | |
| 70 | 70.97 | 2024-11-28 | 320 | |
| 71 | 70.4 | 2024-12-12 | 140 | |
| 72 | 69.23 | 2024-09-18 | 320 | |
| 73 | 69.1 | 2025-04-28 | 305 | |
| 74 | 69.06 | 2025-06-20 | 240 | |
| 75 | 68.9 | 2024-12-06 | 700 | |
| 76 | 68.45 | 2024-03-04 | 未知 | |
| 77 | 67.5 | 2025-03-12 | 270 | |
| 78 | 67.23 | 2025-06-27 | 800 | |
| 79 | 66.76 | 2025-03-17 | 240 | |
| 80 | 66.4 | 2024-07-23 | 700 | |
| 81 | 66.05 | 2025-09-11 | 800 | |
| 82 | 65 | 2024-10-22 | 未知 | |
| 83 | 63.69 | 2024-09-18 | 140 | |
| 84 | 62.9 | 2025-04-05 | 4000 | |
| 85 | 61.7 | 2024-07-18 | 未知 | |
| 86 | 61.6 | 2024-07-23 | 4050 | |
| 87 | 60.6 | 2025-03-12 | 120 | |
| 88 | 58.2 | 2025-04-05 | 1090 | |
| 89 | 58.1 | 2024-09-18 | 727 | |
| 90 | 56.8 | 2024-03-04 | 未知 | |
| 91 | 56.54 | 2024-05-14 | 270 | |
| 92 | 56.33 | 2024-04-17 | 1410 | |
| 93 | 56.2 | 2024-04-18 | 700 | |
| 94 | 52.8 | 2025-02-27 | 38 | |
| 95 | 52.78 | 2024-04-18 | 700 | |
| 96 | 52.47 | 2024-07-23 | 700 | |
| 97 | 51 | 2024-03-29 | 未知 | |
| 98 | 47.16 | 2025-03-04 | 320 | |
| 99 | 45 | 2024-09-18 | 70 | |
| 100 | 44.7 | 2024-06-27 | 90 | |
| 101 | 44 | 2024-07-23 | 80 | |
| 102 | 42.4 | 2025-02-23 | 160 | |
| 103 | 35.4 | 2024-07-23 | 80 | |
| 104 | 34.6 | 2024-09-18 | 30 | |
| 105 | 30.9 | 2024-05-22 | 70 | |
| 106 | 25 | 2024-09-18 | 32 | |
| 107 | 0 | 2024-12-03 | 未知 |