MMLU Pro 评测基准详情

大模型已经对很多行业产生了巨大的影响,如何准确评测大模型的能力和效果,已经成为业界亟待解决的关键问题。生成式AI模型,如大型语言模型(LLMs),能够生成高质量的文本、代码、图像等内容,但其评测却相对很困难。而此前很多较早的评测也很难区分当前最优模型的能力。 以MMLU评测为例,2023年3月份,GPT-4在MMLU获得了86.4分之后,将近2年后的2024年年底,业界最好的大模型在MMLU上得分也就90.5,提升十分有限。 为此,滑铁卢大学、多伦多大学和卡耐基梅隆大学的研究人员一起提出了MMLU P

Views763
问题数量
38500
发布机构
Berkeley Artificial Intelligence Research
评测类别
综合评估
评测指标
Accuracy
支持语言
英文
难度等级
中等难度

简介

MMLU 的专业级别版本,包含更具挑战性的问题,旨在评估模型在专业领域的理解和推理能力。

MMLU Pro 大模型得分排行榜

数据来源:DataLearnerAI

模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...

MMLU Pro详细排名数据表格