DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tools
LanguageEnglish

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

Products

  • Leaderboards
  • Model comparison
  • Datasets

Resources

  • Tutorials
  • Editorial
  • Tool directory

Company

  • About
  • Privacy policy
  • Data methodology
  • Contact

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

Privacy policyTerms of service

Benchmark Library

Industry LLM Evaluation Benchmarks

This page aggregates mainstream LLM evaluation benchmarks including AIME 2025, SWE Bench Verified, MMLU, GSM8K, HumanEval, and more. We provide a comprehensive reference platform for researchers and developers to understand model performance across various evaluation datasets.

Open LeaderboardsStart Compare

All Benchmarks

62

All categories

18

All languages

4

Detailed evaluation results on benchmark leaderboards:View Benchmark Leaderboards

62 / 62
NextGo to LeaderboardsGo to Compare

62 benchmarks matched. Recommended flow: review leaderboards, then compare models.

View LeaderboardsCompare Models
Categories

数学推理

13

GSM8K

View Details

Grade School Math 8K

一个包含 8500 道小学数学题的基准,用于评估模型的数学推理能力。

Language英语DifficultyIntermediate数学推理InstitutionGoogle

MATH

View Details

Mathematics Problem Solving

一个具有挑战性的数学问题数据集,包含代数、微积分、几何、概率等多个领域。

Language英语DifficultyExpert数学推理InstitutionGoogle

MATH-500

View Details

OpenAI从MATH评测数据集中精选的500个更具代表性的数学评测基准

Language英文Difficulty高难度数学推理InstitutionOpenAI

AIME 2024

View Details

AIME全称是American Invitational Mathematics Examination,即美国数学邀请赛,是美国面向中学生的邀请式竞赛,3个小时完成15道题,难度很高。

Language英文Difficulty高难度数学推理Institution个人

AIME2025

View Details

2025年美国数学竞赛邀请赛的试题,用于测试大模型的数学推理能力

Language英文Difficulty高难度数学推理Institution个人

IMO 2024

View Details

International Mathematical Olympiad 2024

2024年国际奥林匹克信息竞赛评测基准

Language英文Difficulty高难度数学推理InstitutionGoogle Deep Mind

IMO 2025

View Details

International Mathematical Olympiad 2025

2025年国际奥林匹克信息竞赛

Language英文Difficulty高难度数学推理Institution个人

FrontierMath

View Details

FrontierMath (Tier 1-3)

FrontierMath 是一个用于评估人工智能高级数学推理能力的基准测试。它由数百个由数学家精心设计的全新且极具挑战性的数学问题组成,旨在真实地衡量当前AI系统的推理极限。

Language英文Difficulty高难度数学推理InstitutionEpoch AI

FrontierMath - Tier 4

View Details

FrontierMath 是一个用于评估人工智能高级数学推理能力的基准测试。FrontierMath - Tier 4是其中研究生级别的难题!

Language英文Difficulty高难度数学推理InstitutionEpoch AI

IMO-ProofBench

View Details

International Mathematics Olympiad-ProofBench

谷歌发布的用于评估大型语言模型生成完整、逻辑严谨的数学证明能力大模型评测基准

Language英文Difficulty高难度数学推理InstitutionGoogle Deep Mind

IMO-ProofBench Advanced

View Details

International Mathematics Olympiad-ProofBench Advanced

谷歌发布的用于评估大型语言模型生成完整、逻辑严谨的数学证明能力大模型评测基准

Language英文Difficulty高难度数学推理InstitutionGoogle Deep Mind

IMO-AnswerBench

View Details

International Mathematical Olympiad-AnswerBench

用于测试大模型在高难度(国际奥林匹克数学竞赛)数学问题上的回答能力

Language英文Difficulty高难度数学推理InstitutionDeepMind

AIME 2026

View Details

American Invitational Mathematics Examination 2026

基于2026年美国数学邀请赛的大模型数学推理能力评测基准

Language英文Difficulty高难度数学推理Institution个人

综合评估

11

MMLU

View Details

Massive Multitask Language Understanding

一个涵盖 57 个主题的多项选择题基准,用于评估大规模语言模型的知识和推理能力。

Language英文Difficulty基础综合评估Institution个人

MMLU Pro

View Details

Massive Multitask Language Understanding Professional Level

MMLU 的专业级别版本,包含更具挑战性的问题,旨在评估模型在专业领域的理解和推理能力。

Language英文Difficulty中等难度综合评估InstitutionBerkeley Artificial Intelligence Research

BIG-bench

View Details

Beyond the Imitation Game Benchmark

一个包含 200 多个不同任务的综合基准,用于评估模型的各种能力,包括推理、语言理解和知识。

Language多语言DifficultyAdvanced综合评估InstitutionGoogle

C-Eval

View Details

Chinese Evaluation Benchmark

一个涵盖人文社科、理工科等多个学科的中文多项选择题基准,用于评估模型在中文环境下的知识和推理能力。

Language中文Difficulty基础综合评估Institution请选择发布机构

BBH

View Details

Big Bench Hard

BIG-Bench 的困难子集,包含更具挑战性的任务,用于评估模型的极限能力。

Language英语DifficultyExpert综合评估InstitutionGoogle

ARC-AGI

View Details

Keras创始人创建的通用人工智能评测系统

Language英文综合评估Institution个人

HLE

View Details

Humanity's Last Exam

研究生水平以上的超高难度、覆盖超多学科的大模型评测基准

Language英文Difficulty高难度综合评估InstitutionCenter for AI Safety

GPQA Diamond

View Details

GPQA Diamond 旨在提供一个全面的框架,能够测试模型在多种推理场景下的能力,并推动大模型在更加复杂任务上的改进。

Language英文Difficulty高难度综合评估InstitutionCohereAI

GPQA

View Details

A Graduate-Level Google-Proof Q&A Benchmark

一个可以防止使用谷歌作弊的研究生级别难度的大模型评测基准

Language英文Difficulty高难度综合评估InstitutionCohereAI

ARC-AGI-2

View Details

极具挑战性的大模型通用能力评测基准

Language英文Difficulty高难度综合评估Institution个人

LiveBench

View Details

一种抗污染的大型语言模型基准测试

Language英文Difficulty中等难度综合评估Institution个人

编程与软件工程

11

HumanEval

View Details

一个包含 164 个手写编程问题的基准,用于评估模型生成代码的能力。

Language英文Difficulty基础编程与软件工程InstitutionOpenAI

MBPP

View Details

Mostly Basic Python Problems

一个包含 974 个简单的 Python 编程问题的基准,用于评估模型生成代码的能力。

Language英文编程与软件工程Institution个人

SWE-bench

View Details

Software Engineering Bench

一个从GitHub上提炼的真实世界的Python代码仓的任务评测数据集

Language英文Difficulty高难度编程与软件工程Institution普林斯顿大学

SWE-bench Verified

View Details

Software Engineering Bench - Verified

OpenAI基于SWE-Bench提炼的更加准确和更具代表性的大模型代码工程任务解决能力评测

Language英文Difficulty高难度编程与软件工程InstitutionOpenAI

IC SWE-Lancer(Diamond)

View Details

Individual Contributor SWE-Lancer(Diamond)

OpenAI开源的评测大模型解决独立软件工程任务能力的评测基准

Language英文Difficulty高难度编程与软件工程InstitutionOpenAI

SWE Manager Lancer(Diamond)

View Details

SWE Manager-Lancer(Diamond)

OpenAI开源的评测大模型解决软件工程管理任务能力的评测基准

Language英文Difficulty高难度编程与软件工程InstitutionOpenAI

LiveCodeBench

View Details

LiveCodeBench 是一个动态更新的基准测试平台,通过来自顶级竞赛平台的高难度编程任务,全面评估大型语言模型在复杂编码场景中的能力。

Language多语言Difficulty高难度编程与软件工程InstitutionUC Berkeley

CodeForces

View Details

一个使用编程竞赛题目测试大模型代码生成能力的评测基准

Language英文Difficulty高难度编程与软件工程Institution个人

SWE-Bench Pro - Public

View Details

Software Engineering Bench Pro - Public Dataset

一个用于评估大模型解决真实世界代码工程的评测基准

Language英文Difficulty高难度编程与软件工程InstitutionScale AI

SWE-Bench Pro - Commercial

View Details

Software Engineering Bench Pro - Commercial Dataset

一个用于评估大模型解决真实世界代码工程的评测基准

Language英文Difficulty高难度编程与软件工程InstitutionScale AI

SWE-bench Multilingual

View Details

覆盖9种编程语言的大模型软件工程能力的评测基准

Language多语言Difficulty中等难度编程与软件工程Institution个人

Agent能力评测

5

Aider-Polyglot

View Details

Aider-Polyglot Benchmark

一个用于评估大模型在“按照指令对代码进行实际可落地的编辑”上的能力的评测基准

Language英文Difficulty高难度Agent能力评测Institution个人

τ²-Bench

View Details

τ²-Bench - Overall

用于评估大模型智能体在双控(人机协同)环境下任务执行与沟通能力的开放基准

Language中文Difficulty中等难度Agent能力评测Institution个人

τ²-Bench - Telecom

View Details

面向电信领域的用于评估大模型在人机协同场景下的任务执行能力

Language英文Difficulty中等难度Agent能力评测Institution个人

Terminal Bench Hard

View Details

Artificial Analysis选择的用于评估大模型在终端环境下使用工具能力的评测基准

Language英文Difficulty高难度Agent能力评测Institution个人

Pinch Bench

View Details

一个用于评估大模型作为OpenClaw控制中心的测试基准

Language英文Difficulty中等难度Agent能力评测InstitutionKilo Code

AI Agent - 工具使用

4

Terminal-Bench

View Details

用于评测大模型在命令行环境下执行工具的Agentic能力的评测基准

Language英文Difficulty高难度AI Agent - 工具使用Institution个人

Terminal Bench 2.0

View Details

Terminal Bench Hard 2.0

用于评估大模型在终端环境下使用工具能力的评测基准的升级版本

Language英文Difficulty高难度AI Agent - 工具使用Institution个人

Tool Decathlon

View Details

Tool Decathlon是一个用于评估大模型在真实环境中使用工具执行复杂任务的能力的评测基准

Language英文Difficulty高难度AI Agent - 工具使用Institution个人

OSWorld-Verified

View Details

OS World Verified

一个用于验证大模型Agent在操作计算机方面能力的评测基准,OSWorld的升级版本

Language英文Difficulty中等难度AI Agent - 工具使用Institution个人

多模态理解

3

MMMU

View Details

Massive Multi-discipline Multimodal Understanding and Reasoning

首个以大学水平学科知识为基础构建的多模态评测基准,旨在系统评估模型在跨学科、多模态场景下的复杂推理能力与专业知识应用水平。

Language英文Difficulty中等难度多模态理解Institution个人

SimpleVQA

View Details

Simple Visual Question Answering

首个全面评估多模态大模型在回答自然语言简短问题时事实性能力的多模态基准。

Language英文Difficulty中等难度多模态理解Institution个人

DocVQA

View Details

Document Visual Question Answering

DocVQA是一个针对文档图像的视觉问答基准数据集。

Language英文Difficulty中等难度多模态理解Institution个人

常识推理

3

HellaSwag

View Details

Hella Swag

一个包含 70,000 个多项选择题的基准,用于评估模型的常识推理能力。

Language英语DifficultyIntermediate常识推理InstitutionUniversity of Washington

ARC

View Details

AI2 Reasoning Challenge

一个包含 7787 个多项选择题的基准,用于评估模型的常识推理能力。

Language英语DifficultyAdvanced常识推理InstitutionAllen Institute for AI

Simple Bench

View Details

一个用于评估大模型常识水平的评测基准

Language英文Difficulty高难度常识推理Institution个人

文本向量检索

2

MTEB

View Details

Massive Text Embedding Benchmark

一个用于评估文本嵌入模型在不同任务上水平的评测基准

Language中文Difficulty中等难度文本向量检索Institution个人

Context Arena

View Details

Context Arena

基于多轮对话数据集测试大模型超长上下文的能力

Language英文Difficulty中等难度文本向量检索Institution个人

AI Agent - 信息收集

1

BrowseComp

View Details

一个用于评估大模型AI Agent定位难以查找信息的能力的评测基准

Language英文Difficulty中等难度AI Agent - 信息收集InstitutionOpenAI

写作和创作

1

Creative Writing

View Details

Creative Writing v3

用顶尖大模型来判断大模型创意写作方面的评测基准

Language英文Difficulty中等难度写作和创作Institution个人

图像向量嵌入

1

MMEB-v2-Image

View Details

Massive Multimodal Embedding Benchmark - V2 - Image

用于评测大模型图像向量嵌入能力的评测基准

Language英文Difficulty中等难度图像向量嵌入InstitutionTIGER-Lab

常识问答

1

SimpleQA

View Details

OpenAI发布的一个针对大模型事实问答的能力评测基准,可以有效检验模型幻觉严重程度

Language英文Difficulty高难度常识问答InstitutionOpenAI

指令跟随

1

IF Bench

View Details

Instruction Following Bench

IF Bench是一个针对大语言模型(LLM)指令跟随能力的评测基准。该基准聚焦于模型对新颖、复杂约束的泛化表现,通过 58 个可验证的单轮任务进行评估

Language英文Difficulty中等难度指令跟随InstitutionA21 Labs

生产力知识

1

GDPval-AA

View Details

Gross Domestic Product Value - Artificial Analysis

衡量AI模型在对美国GDP贡献最大的行业中,完成知识型工作的能力

Language英文Difficulty高难度生产力知识InstitutionOpenAI

真实性评估

1

TruthfulQA

View Details

一个包含 817 个问题的基准,旨在评估模型是否能够生成真实且准确的答案,而不是编造信息。

Language英语DifficultyAdvanced真实性评估InstitutionGoogle

自然语言理解

1

SuperGLUE

View Details

Super Generalized Language Understanding Evaluation

一个包含 8 个自然语言理解任务的基准,旨在评估模型在复杂的语言理解和推理任务上的性能。

Language英语DifficultyAdvanced自然语言理解InstitutionNYU & Facebook AI

长上下文能力

1

AA-LCR

View Details

Artificial Analysis - Long Context Reasoning

AA-LCR 是由独立 AI 评测机构 Artificial Analysis 开发的基准测试集,旨在真实模拟知识工作者(如分析师、研究员、律师)处理海量文档的场景。

Language英文Difficulty中等难度长上下文能力InstitutionArtificial Analysis

阅读理解

1

DROP

View Details

Discrete Reasoning over the content of Paragraphs

一个需要模型进行离散推理的阅读理解基准,包括计数、比较和排序等操作。

Language英语DifficultyAdvanced阅读理解InstitutionAllen Institute for AI