大模型评测基准榜单 | MMLU, GSM8K, HumanEval等主流评测数据集

数学推理

13

GSM8K

查看详情

Grade School Math 8K

一个包含 8500 道小学数学题的基准，用于评估模型的数学推理能力。

语言英语难度Intermediate数学推理机构Google

MATH

查看详情

Mathematics Problem Solving

一个具有挑战性的数学问题数据集，包含代数、微积分、几何、概率等多个领域。

语言英语难度Expert数学推理机构Google

MATH-500

查看详情

OpenAI从MATH评测数据集中精选的500个更具代表性的数学评测基准

语言英文难度高难度数学推理机构OpenAI

AIME 2024

查看详情

AIME全称是American Invitational Mathematics Examination，即美国数学邀请赛，是美国面向中学生的邀请式竞赛，3个小时完成15道题，难度很高。

语言英文难度高难度数学推理机构个人

AIME2025

查看详情

2025年美国数学竞赛邀请赛的试题，用于测试大模型的数学推理能力

语言英文难度高难度数学推理机构个人

IMO 2024

查看详情

International Mathematical Olympiad 2024

2024年国际奥林匹克信息竞赛评测基准

语言英文难度高难度数学推理机构Google Deep Mind

IMO 2025

查看详情

International Mathematical Olympiad 2025

2025年国际奥林匹克信息竞赛

语言英文难度高难度数学推理机构个人

FrontierMath

查看详情

FrontierMath (Tier 1-3)

FrontierMath 是一个用于评估人工智能高级数学推理能力的基准测试。它由数百个由数学家精心设计的全新且极具挑战性的数学问题组成，旨在真实地衡量当前AI系统的推理极限。

语言英文难度高难度数学推理机构Epoch AI

FrontierMath - Tier 4

查看详情

FrontierMath 是一个用于评估人工智能高级数学推理能力的基准测试。FrontierMath - Tier 4是其中研究生级别的难题！

语言英文难度高难度数学推理机构Epoch AI

IMO-ProofBench

查看详情

International Mathematics Olympiad-ProofBench

谷歌发布的用于评估大型语言模型生成完整、逻辑严谨的数学证明能力大模型评测基准

语言英文难度高难度数学推理机构Google Deep Mind

IMO-ProofBench Advanced

查看详情

International Mathematics Olympiad-ProofBench Advanced

谷歌发布的用于评估大型语言模型生成完整、逻辑严谨的数学证明能力大模型评测基准

语言英文难度高难度数学推理机构Google Deep Mind

IMO-AnswerBench

查看详情

International Mathematical Olympiad-AnswerBench

用于测试大模型在高难度（国际奥林匹克数学竞赛）数学问题上的回答能力

语言英文难度高难度数学推理机构DeepMind

AIME 2026

查看详情

American Invitational Mathematics Examination 2026

基于2026年美国数学邀请赛的大模型数学推理能力评测基准

语言英文难度高难度数学推理机构个人

综合评估

11

MMLU

查看详情

Massive Multitask Language Understanding

一个涵盖 57 个主题的多项选择题基准，用于评估大规模语言模型的知识和推理能力。

语言英文难度基础综合评估机构个人

MMLU Pro

查看详情

Massive Multitask Language Understanding Professional Level

MMLU 的专业级别版本，包含更具挑战性的问题，旨在评估模型在专业领域的理解和推理能力。

语言英文难度中等难度综合评估机构Berkeley Artificial Intelligence Research

BIG-bench

查看详情

Beyond the Imitation Game Benchmark

一个包含 200 多个不同任务的综合基准，用于评估模型的各种能力，包括推理、语言理解和知识。

语言多语言难度Advanced综合评估机构Google

C-Eval

查看详情

Chinese Evaluation Benchmark

一个涵盖人文社科、理工科等多个学科的中文多项选择题基准，用于评估模型在中文环境下的知识和推理能力。

语言中文难度基础综合评估机构请选择发布机构

BBH

查看详情

Big Bench Hard

BIG-Bench 的困难子集，包含更具挑战性的任务，用于评估模型的极限能力。

语言英语难度Expert综合评估机构Google

ARC-AGI

查看详情

Keras创始人创建的通用人工智能评测系统

语言英文综合评估机构个人

HLE

查看详情

Humanity's Last Exam

研究生水平以上的超高难度、覆盖超多学科的大模型评测基准

语言英文难度高难度综合评估机构Center for AI Safety

GPQA Diamond

查看详情

GPQA Diamond 旨在提供一个全面的框架，能够测试模型在多种推理场景下的能力，并推动大模型在更加复杂任务上的改进。

语言英文难度高难度综合评估机构CohereAI

GPQA

查看详情

A Graduate-Level Google-Proof Q&A Benchmark

一个可以防止使用谷歌作弊的研究生级别难度的大模型评测基准

语言英文难度高难度综合评估机构CohereAI

ARC-AGI-2

查看详情

极具挑战性的大模型通用能力评测基准

语言英文难度高难度综合评估机构个人

LiveBench

查看详情

一种抗污染的大型语言模型基准测试

语言英文难度中等难度综合评估机构个人

编程与软件工程

10

HumanEval

查看详情

一个包含 164 个手写编程问题的基准，用于评估模型生成代码的能力。

语言英文难度基础编程与软件工程机构OpenAI

MBPP

查看详情

Mostly Basic Python Problems

一个包含 974 个简单的 Python 编程问题的基准，用于评估模型生成代码的能力。

语言英文编程与软件工程机构个人

SWE-bench

查看详情

Software Engineering Bench

一个从GitHub上提炼的真实世界的Python代码仓的任务评测数据集

语言英文难度高难度编程与软件工程机构普林斯顿大学

SWE-bench Verified

查看详情

Software Engineering Bench - Verified

OpenAI基于SWE-Bench提炼的更加准确和更具代表性的大模型代码工程任务解决能力评测

语言英文难度高难度编程与软件工程机构OpenAI

IC SWE-Lancer(Diamond)

查看详情

Individual Contributor SWE-Lancer(Diamond)

OpenAI开源的评测大模型解决独立软件工程任务能力的评测基准

语言英文难度高难度编程与软件工程机构OpenAI

SWE Manager Lancer(Diamond)

查看详情

SWE Manager-Lancer(Diamond)

OpenAI开源的评测大模型解决软件工程管理任务能力的评测基准

语言英文难度高难度编程与软件工程机构OpenAI

LiveCodeBench

查看详情

LiveCodeBench 是一个动态更新的基准测试平台，通过来自顶级竞赛平台的高难度编程任务，全面评估大型语言模型在复杂编码场景中的能力。

语言多语言难度高难度编程与软件工程机构UC Berkeley

CodeForces

查看详情

一个使用编程竞赛题目测试大模型代码生成能力的评测基准

语言英文难度高难度编程与软件工程机构个人

SWE-Bench Pro - Public

查看详情

Software Engineering Bench Pro - Public Dataset

一个用于评估大模型解决真实世界代码工程的评测基准

语言英文难度高难度编程与软件工程机构Scale AI

SWE-Bench Pro - Commercial

查看详情

Software Engineering Bench Pro - Commercial Dataset

一个用于评估大模型解决真实世界代码工程的评测基准

语言英文难度高难度编程与软件工程机构Scale AI

Agent能力评测

4

Aider-Polyglot

查看详情

Aider-Polyglot Benchmark

一个用于评估大模型在“按照指令对代码进行实际可落地的编辑”上的能力的评测基准

语言英文难度高难度Agent能力评测机构个人

τ²-Bench

查看详情

τ²-Bench - Overall

用于评估大模型智能体在双控（人机协同）环境下任务执行与沟通能力的开放基准

语言中文难度中等难度Agent能力评测机构个人

τ²-Bench - Telecom

查看详情

面向电信领域的用于评估大模型在人机协同场景下的任务执行能力

语言英文难度中等难度Agent能力评测机构个人

Terminal Bench Hard

查看详情

Artificial Analysis选择的用于评估大模型在终端环境下使用工具能力的评测基准

语言英文难度高难度Agent能力评测机构个人

AI Agent - 工具使用

4

Terminal-Bench

查看详情

用于评测大模型在命令行环境下执行工具的Agentic能力的评测基准

语言英文难度高难度AI Agent - 工具使用机构个人

Terminal Bench 2.0

查看详情

Terminal Bench Hard 2.0

用于评估大模型在终端环境下使用工具能力的评测基准的升级版本

语言英文难度高难度AI Agent - 工具使用机构个人

Tool Decathlon

查看详情

Tool Decathlon是一个用于评估大模型在真实环境中使用工具执行复杂任务的能力的评测基准

语言英文难度高难度AI Agent - 工具使用机构个人

OSWorld-Verified

查看详情

OS World Verified

一个用于验证大模型Agent在操作计算机方面能力的评测基准，OSWorld的升级版本

语言英文难度中等难度AI Agent - 工具使用机构个人

多模态理解

3

MMMU

查看详情

Massive Multi-discipline Multimodal Understanding and Reasoning

首个以大学水平学科知识为基础构建的多模态评测基准，旨在系统评估模型在跨学科、多模态场景下的复杂推理能力与专业知识应用水平。

语言英文难度中等难度多模态理解机构个人

SimpleVQA

查看详情

Simple Visual Question Answering

首个全面评估多模态大模型在回答自然语言简短问题时事实性能力的多模态基准。

语言英文难度中等难度多模态理解机构个人

DocVQA

查看详情

Document Visual Question Answering

DocVQA是一个针对文档图像的视觉问答基准数据集。

语言英文难度中等难度多模态理解机构个人

常识推理

3

HellaSwag

查看详情

Hella Swag

一个包含 70,000 个多项选择题的基准，用于评估模型的常识推理能力。

语言英语难度Intermediate常识推理机构University of Washington

ARC

查看详情

AI2 Reasoning Challenge

一个包含 7787 个多项选择题的基准，用于评估模型的常识推理能力。

语言英语难度Advanced常识推理机构Allen Institute for AI

Simple Bench

查看详情

一个用于评估大模型常识水平的评测基准

语言英文难度高难度常识推理机构个人

文本向量检索

2

MTEB

查看详情

Massive Text Embedding Benchmark

一个用于评估文本嵌入模型在不同任务上水平的评测基准

语言中文难度中等难度文本向量检索机构个人

Context Arena

查看详情

Context Arena

基于多轮对话数据集测试大模型超长上下文的能力

语言英文难度中等难度文本向量检索机构个人

AI Agent - 信息收集

1

BrowseComp

查看详情

一个用于评估大模型AI Agent定位难以查找信息的能力的评测基准

语言英文难度中等难度AI Agent - 信息收集机构OpenAI

写作和创作

1

Creative Writing

查看详情

Creative Writing v3

用顶尖大模型来判断大模型创意写作方面的评测基准

语言英文难度中等难度写作和创作机构个人

图像向量嵌入

1

MMEB-v2-Image

查看详情

Massive Multimodal Embedding Benchmark - V2 - Image

用于评测大模型图像向量嵌入能力的评测基准

语言英文难度中等难度图像向量嵌入机构TIGER-Lab

常识问答

1

SimpleQA

查看详情

OpenAI发布的一个针对大模型事实问答的能力评测基准，可以有效检验模型幻觉严重程度

语言英文难度高难度常识问答机构OpenAI

指令跟随

1

IF Bench

查看详情

Instruction Following Bench

IF Bench是一个针对大语言模型（LLM）指令跟随能力的评测基准。该基准聚焦于模型对新颖、复杂约束的泛化表现，通过 58 个可验证的单轮任务进行评估

语言英文难度中等难度指令跟随机构A21 Labs

生产力知识

1

GDPval-AA

查看详情

Gross Domestic Product Value - Artificial Analysis

衡量AI模型在对美国GDP贡献最大的行业中，完成知识型工作的能力

语言英文难度高难度生产力知识机构OpenAI

真实性评估

1

TruthfulQA

查看详情

一个包含 817 个问题的基准，旨在评估模型是否能够生成真实且准确的答案，而不是编造信息。

语言英语难度Advanced真实性评估机构Google

自然语言理解

1

SuperGLUE

查看详情

Super Generalized Language Understanding Evaluation

一个包含 8 个自然语言理解任务的基准，旨在评估模型在复杂的语言理解和推理任务上的性能。

语言英语难度Advanced自然语言理解机构NYU & Facebook AI

长上下文能力

1

AA-LCR

查看详情

Artificial Analysis - Long Context Reasoning

AA-LCR 是由独立 AI 评测机构 Artificial Analysis 开发的基准测试集，旨在真实模拟知识工作者（如分析师、研究员、律师）处理海量文档的场景。

语言英文难度中等难度长上下文能力机构Artificial Analysis

阅读理解

1

DROP

查看详情

Discrete Reasoning over the content of Paragraphs

一个需要模型进行离散推理的阅读理解基准，包括计数、比较和排序等操作。

语言英语难度Advanced阅读理解机构Allen Institute for AI