MMLU Pro 评测基准详情

大模型已经对很多行业产生了巨大的影响，如何准确评测大模型的能力和效果，已经成为业界亟待解决的关键问题。生成式AI模型，如大型语言模型（LLMs），能够生成高质量的文本、代码、图像等内容，但其评测却相对很困难。而此前很多较早的评测也很难区分当前最优模型的能力。以MMLU评测为例，2023年3月份，GPT-4在MMLU获得了86.4分之后，将近2年后的2024年年底，业界最好的大模型在MMLU上得分也就90.5，提升十分有限。为此，滑铁卢大学、多伦多大学和卡耐基梅隆大学的研究人员一起提出了MMLU P

MMLU Pro 大模型得分排行榜

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模式说明:

normal

thinking

low

medium

high

deeper thinking

parallel_thinking

图表加载中...

详细评测数据

当前榜单暂无并行思考结果

排名	模型
1	OpenAI o1	91.04	2024-12-05	未知
2	Gemini 3.0 Pro (Preview 11-2025)thinking	90	2025-11-18	未知
3	Claude Opus 4.5thinking	90	2025-11-25	未知
4	Claude Opus 4.1thinking	88	2025-08-06	未知
5	Claude Sonnet 4.5thinking	88	2025-09-30	未知
6	M2.1thinking	88	2025-12-23	2300
7	Hunyuan-T1	87.2	2025-03-21	未知
8	Grok 4thinking	87	2025-07-10	未知
9	GPT-4.5	86.1	2025-02-28	未知
10	Gemini 2.5-Pro	86	2025-06-05	未知
11	Qwen3-Max-Thinkingthinking	85.7	2026-01-26	10000
12	OpenAI o3	85.6	2025-04-16	未知
13	Claude Opus 4	85	2025-05-23	未知
14	DeepSeek-R1-0528thinking	85	2025-05-28	6710
15	DeepSeek-V3.1thinking	85	2025-08-20	6710
16	DeepSeek-V3.1 Terminusthinking	85	2025-09-22	6710
17	DeepSeek-V3.1 Terminus	85	2025-09-22	6710
18	DeepSeek V3.2-Expthinking	85	2025-09-29	6710
19	Grok 4.1 Fastthinking	85	2025-11-19	未知
20	GLM-4.5thinking	84.6	2025-07-28	3550
21	Kimi K2 Thinkingthinking	84.6	2025-11-06	10400
22	Qwen3-235B-A22B-Thinking-2507thinking	84.4	2025-07-25	2350
23	Qwen3-235B-A22B-Thinkingthinking	84.4	2025-07-30	305
24	GLM-4.7thinking	84.3	2025-12-22	3580
25	DeepSeek-R1	84	2025-01-20	6710
26	Claude Sonnet 4thinking	84	2025-05-23	未知
27	Qwen3 Max (Preview)	84	2025-09-05	未知
28	DeepSeek V3.2-Exp	84	2025-09-29	6710
29	DeepSeek-V3.1	83.7	2025-08-20	6710
30	Intern-S1	83.5	2025-07-27	2410

将鼠标移至此处继续加载剩余 81 条

MMLU Pro 评测基准详情

简介

相关资源

MMLU Pro 大模型得分排行榜

详细评测数据

MMLU Pro 大模型得分排行榜

详细评测数据

MMLU Pro详细排名数据表格