搜索博客

大模型排行榜

大模型评测基准

大模型列表

大模型对比

语言中文

搜索博客

DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台，持续更新可落地的 AI 能力图谱。

产品

评测榜单
模型对比
数据资源

资源

部署教程
原创内容
工具导航

关于

关于我们
隐私政策
数据收集方法
联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例，为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

评测基准库

业界主流大模型评测基准

本页面汇总了当前业界主流的大模型评测基准，包括AIME 2025, SWE Bench Verified, MMLU、GSM8K、HumanEval 等。我们致力于为研究者和开发者提供一个全面的参考平台，帮助大家了解不同大模型在各种评测数据集上的性能表现。

查看模型榜单开始模型对比

全部基准

70

所有类型

19

所有语言

6

大模型在评测基准的详细评测结果：主流大模型评测基准榜单

70 / 70

下一步去榜单去对比

已匹配 70 个基准，建议先看对应榜单，再进入模型对比。

查看榜单进入模型对比

分类导航

数学推理

13

GSM8K

Grade School Math 8K

一个包含 8500 道小学数学题的基准，用于评估模型的数学推理能力。

语言英语难度Intermediate数学推理机构Google

MATH

Mathematics Problem Solving

一个具有挑战性的数学问题数据集，包含代数、微积分、几何、概率等多个领域。

语言英语难度Expert数学推理机构Google

MATH-500

OpenAI从MATH评测数据集中精选的500个更具代表性的数学评测基准

语言英文难度高难度数学推理机构OpenAI

AIME 2024

AIME全称是American Invitational Mathematics Examination，即美国数学邀请赛，是美国面向中学生的邀请式竞赛，3个小时完成15道题，难度很高。

语言英文难度高难度数学推理机构个人

AIME2025

2025年美国数学竞赛邀请赛的试题，用于测试大模型的数学推理能力

语言英文难度高难度数学推理机构个人

IMO 2024

International Mathematical Olympiad 2024

2024年国际奥林匹克信息竞赛评测基准

语言英文难度高难度数学推理机构Google Deep Mind

IMO 2025

International Mathematical Olympiad 2025

2025年国际奥林匹克信息竞赛

语言英文难度高难度数学推理机构个人

FrontierMath

FrontierMath (Tier 1-3)

FrontierMath 是一个用于评估人工智能高级数学推理能力的基准测试。它由数百个由数学家精心设计的全新且极具挑战性的数学问题组成，旨在真实地衡量当前AI系统的推理极限。

语言英文难度高难度数学推理机构Epoch AI

FrontierMath - Tier 4

FrontierMath 是一个用于评估人工智能高级数学推理能力的基准测试。FrontierMath - Tier 4是其中研究生级别的难题！

语言英文难度高难度数学推理机构Epoch AI

IMO-ProofBench

International Mathematics Olympiad-ProofBench

谷歌发布的用于评估大型语言模型生成完整、逻辑严谨的数学证明能力大模型评测基准

语言英文难度高难度数学推理机构Google Deep Mind

IMO-ProofBench Advanced

International Mathematics Olympiad-ProofBench Advanced

谷歌发布的用于评估大型语言模型生成完整、逻辑严谨的数学证明能力大模型评测基准

语言英文难度高难度数学推理机构Google Deep Mind

IMO-AnswerBench

International Mathematical Olympiad-AnswerBench

用于测试大模型在高难度（国际奥林匹克数学竞赛）数学问题上的回答能力

语言英文难度高难度数学推理机构DeepMind

AIME 2026

American Invitational Mathematics Examination 2026

基于2026年美国数学邀请赛的大模型数学推理能力评测基准

语言英文难度高难度数学推理机构个人

编程与软件工程

13

HumanEval

一个包含 164 个手写编程问题的基准，用于评估模型生成代码的能力。

语言英文难度基础编程与软件工程机构OpenAI

MBPP

Mostly Basic Python Problems

一个包含 974 个简单的 Python 编程问题的基准，用于评估模型生成代码的能力。

语言英文编程与软件工程机构个人

SWE-bench

Software Engineering Bench

一个从GitHub上提炼的真实世界的Python代码仓的任务评测数据集

语言英文难度高难度编程与软件工程机构普林斯顿大学

SWE-bench Verified

Software Engineering Bench - Verified

OpenAI基于SWE-Bench提炼的更加准确和更具代表性的大模型代码工程任务解决能力评测

语言英文难度高难度编程与软件工程机构OpenAI

IC SWE-Lancer(Diamond)

Individual Contributor SWE-Lancer(Diamond)

OpenAI开源的评测大模型解决独立软件工程任务能力的评测基准

语言英文难度高难度编程与软件工程机构OpenAI

SWE Manager Lancer(Diamond)

SWE Manager-Lancer(Diamond)

OpenAI开源的评测大模型解决软件工程管理任务能力的评测基准

语言英文难度高难度编程与软件工程机构OpenAI

LiveCodeBench

LiveCodeBench 是一个动态更新的基准测试平台，通过来自顶级竞赛平台的高难度编程任务，全面评估大型语言模型在复杂编码场景中的能力。

语言多语言难度高难度编程与软件工程机构UC Berkeley

CodeForces

一个使用编程竞赛题目测试大模型代码生成能力的评测基准

语言英文难度高难度编程与软件工程机构个人

SWE-Bench Pro - Public

Software Engineering Bench Pro - Public Dataset

一个用于评估大模型解决真实世界代码工程的评测基准

语言英文难度高难度编程与软件工程机构Scale AI

SWE-Bench Pro - Commercial

Software Engineering Bench Pro - Commercial Dataset

一个用于评估大模型解决真实世界代码工程的评测基准

语言英文难度高难度编程与软件工程机构Scale AI

SWE-bench Multilingual

覆盖9种编程语言的大模型软件工程能力的评测基准

语言多语言难度中等难度编程与软件工程机构个人

DeepSWE

DeepSWE: Long-Horizon Software Engineering Benchmark

DeepSWE 是 Datacurve 推出的长程软件工程基准，包含 113 个原创任务，覆盖 91 个活跃开源仓库和 TypeScript、Go、Python、JavaScript、Rust 五种语言，强调多文件修改、行为正确性和更低污染风险。

语言Multilingual code难度Advanced编程与软件工程机构Datacurve

CodeClash

CodeClash: Benchmarking Goal-Oriented Software Engineering

CodeClash 是面向目标驱动软件工程的开放基准，要求模型在多轮 tournament 中维护和改进代码库，以胜率、Elo 等方式评估模型能否围绕高层目标进行策略规划、日志分析、代码演化和长期维护。

语言English难度Advanced编程与软件工程机构Stanford University / Princeton University / Cornell University

综合评估

12

MMLU

Massive Multitask Language Understanding

一个涵盖 57 个主题的多项选择题基准，用于评估大规模语言模型的知识和推理能力。

语言英文难度基础综合评估机构个人

MMLU Pro

Massive Multitask Language Understanding Professional Level

MMLU 的专业级别版本，包含更具挑战性的问题，旨在评估模型在专业领域的理解和推理能力。

语言英文难度中等难度综合评估机构Berkeley Artificial Intelligence Research

BIG-bench

Beyond the Imitation Game Benchmark

一个包含 200 多个不同任务的综合基准，用于评估模型的各种能力，包括推理、语言理解和知识。

语言多语言难度Advanced综合评估机构Google

C-Eval

Chinese Evaluation Benchmark

一个涵盖人文社科、理工科等多个学科的中文多项选择题基准，用于评估模型在中文环境下的知识和推理能力。

语言中文难度基础综合评估机构请选择发布机构

BBH

Big Bench Hard

BIG-Bench 的困难子集，包含更具挑战性的任务，用于评估模型的极限能力。

语言英语难度Expert综合评估机构Google

ARC-AGI

Keras创始人创建的通用人工智能评测系统

语言英文综合评估机构个人

HLE

Humanity's Last Exam

研究生水平以上的超高难度、覆盖超多学科的大模型评测基准

语言英文难度高难度综合评估机构Center for AI Safety

GPQA Diamond

GPQA Diamond 旨在提供一个全面的框架，能够测试模型在多种推理场景下的能力，并推动大模型在更加复杂任务上的改进。

语言英文难度高难度综合评估机构CohereAI

GPQA

A Graduate-Level Google-Proof Q&A Benchmark

一个可以防止使用谷歌作弊的研究生级别难度的大模型评测基准

语言英文难度高难度综合评估机构CohereAI

ARC-AGI-2

极具挑战性的大模型通用能力评测基准

语言英文难度高难度综合评估机构个人

LiveBench

一种抗污染的大型语言模型基准测试

语言英文难度中等难度综合评估机构个人

ARC-AGI-3

一个用于评估大模型智力的综合评测基准

语言英文难度高难度综合评估机构个人

AI Agent - 工具使用

6

Terminal-Bench

用于评测大模型在命令行环境下执行工具的Agentic能力的评测基准

语言英文难度高难度AI Agent - 工具使用机构个人

Terminal Bench 2.0

Terminal Bench Hard 2.0

用于评估大模型在终端环境下使用工具能力的评测基准的升级版本

语言英文难度高难度AI Agent - 工具使用机构个人

Tool Decathlon

Tool Decathlon是一个用于评估大模型在真实环境中使用工具执行复杂任务的能力的评测基准

语言英文难度高难度AI Agent - 工具使用机构个人

OSWorld-Verified

OS World Verified

一个用于验证大模型Agent在操作计算机方面能力的评测基准，OSWorld的升级版本

语言英文难度中等难度AI Agent - 工具使用机构个人

TerminalBench 2.1

一个针对AI代理在真实终端环境中的能力评测基准，由Stanford University与Laude Institute合作开发

语言英文难度中等难度AI Agent - 工具使用机构Stanford CRFM

MCP-Atlas

MCP-Atlas: A Large-Scale Benchmark for Tool-Use Competency with Real MCP Servers

MCP-Atlas 是 Scale AI 推出的真实 MCP 服务器工具使用评测，覆盖 36 个 MCP servers、220 个工具和 1000 个自然语言任务，用于衡量模型发现工具、跨服务器编排、多步调用和基于工具结果综合答案的能力。

语言English难度AdvancedAI Agent - 工具使用机构Scale AI

Agent能力评测

5

Aider-Polyglot

Aider-Polyglot Benchmark

一个用于评估大模型在“按照指令对代码进行实际可落地的编辑”上的能力的评测基准

语言英文难度高难度Agent能力评测机构个人

τ²-Bench

τ²-Bench - Overall

用于评估大模型智能体在双控（人机协同）环境下任务执行与沟通能力的开放基准

语言中文难度中等难度Agent能力评测机构个人

τ²-Bench - Telecom

面向电信领域的用于评估大模型在人机协同场景下的任务执行能力

语言英文难度中等难度Agent能力评测机构个人

Terminal Bench Hard

Artificial Analysis选择的用于评估大模型在终端环境下使用工具能力的评测基准

语言英文难度高难度Agent能力评测机构个人

GAIA

GAIA: A Benchmark for General AI Assistants

GAIA 是 Meta / Hugging Face 等提出的通用 AI Assistant 基准，包含 466 个真实问题，要求模型综合推理、多模态理解、网页浏览和工具使用能力；公开部分问题并保留部分答案用于排行榜。

语言English难度AdvancedAgent能力评测机构Meta AI / Hugging Face

多模态理解

3

MMMU

Massive Multi-discipline Multimodal Understanding and Reasoning

首个以大学水平学科知识为基础构建的多模态评测基准，旨在系统评估模型在跨学科、多模态场景下的复杂推理能力与专业知识应用水平。

语言英文难度中等难度多模态理解机构个人

SimpleVQA

Simple Visual Question Answering

首个全面评估多模态大模型在回答自然语言简短问题时事实性能力的多模态基准。

语言英文难度中等难度多模态理解机构个人

DocVQA

Document Visual Question Answering

DocVQA是一个针对文档图像的视觉问答基准数据集。

语言英文难度中等难度多模态理解机构个人

常识推理

3

HellaSwag

Hella Swag

一个包含 70,000 个多项选择题的基准，用于评估模型的常识推理能力。

语言英语难度Intermediate常识推理机构University of Washington

ARC

AI2 Reasoning Challenge

一个包含 7787 个多项选择题的基准，用于评估模型的常识推理能力。

语言英语难度Advanced常识推理机构Allen Institute for AI

Simple Bench

一个用于评估大模型常识水平的评测基准

语言英文难度高难度常识推理机构个人

OpenClaw智能体能力综合测评

2

Pinch Bench

一个用于评估大模型作为OpenClaw控制中心的测试基准

语言英文难度中等难度OpenClaw智能体能力综合测评机构Kilo Code

Claw Bench

一个用于测试大模型在OpenClaw常见的5类任务中的能力的评测基准

语言英文难度中等难度OpenClaw智能体能力综合测评机构个人

文本向量检索

2

MTEB

Massive Text Embedding Benchmark

一个用于评估文本嵌入模型在不同任务上水平的评测基准

语言中文难度中等难度文本向量检索机构个人

Context Arena

Context Arena

基于多轮对话数据集测试大模型超长上下文的能力

语言英文难度中等难度文本向量检索机构个人

长上下文能力

2

AA-LCR

Artificial Analysis - Long Context Reasoning

AA-LCR 是由独立 AI 评测机构 Artificial Analysis 开发的基准测试集，旨在真实模拟知识工作者（如分析师、研究员、律师）处理海量文档的场景。

语言英文难度中等难度长上下文能力机构Artificial Analysis

LongBench v2

LongBench v2: Deeper Understanding and Reasoning on Realistic Long-context Multitasks

LongBench v2 是面向真实长上下文理解和推理的基准，包含 503 道多选题，文本长度覆盖 8k 到 2M words，任务覆盖单/多文档问答、长对话、代码仓库理解和结构化数据理解等场景。

语言English难度Advanced长上下文能力机构THUDM / Tsinghua University

AI Agent - 信息收集

1

BrowseComp

一个用于评估大模型AI Agent定位难以查找信息的能力的评测基准

语言英文难度中等难度AI Agent - 信息收集机构OpenAI

写作和创作

1

Creative Writing

Creative Writing v3

用顶尖大模型来判断大模型创意写作方面的评测基准

语言英文难度中等难度写作和创作机构个人

图像向量嵌入

1

MMEB-v2-Image

Massive Multimodal Embedding Benchmark - V2 - Image

用于评测大模型图像向量嵌入能力的评测基准

语言英文难度中等难度图像向量嵌入机构TIGER-Lab

常识问答

1

SimpleQA

OpenAI发布的一个针对大模型事实问答的能力评测基准，可以有效检验模型幻觉严重程度

语言英文难度高难度常识问答机构OpenAI

指令跟随

1

IF Bench

Instruction Following Bench

IF Bench是一个针对大语言模型（LLM）指令跟随能力的评测基准。该基准聚焦于模型对新颖、复杂约束的泛化表现，通过 58 个可验证的单轮任务进行评估

语言英文难度中等难度指令跟随机构A21 Labs

生产力知识

1

GDPval-AA

Gross Domestic Product Value - Artificial Analysis

衡量AI模型在对美国GDP贡献最大的行业中，完成知识型工作的能力

语言英文难度高难度生产力知识机构OpenAI

真实性评估

1

TruthfulQA

一个包含 817 个问题的基准，旨在评估模型是否能够生成真实且准确的答案，而不是编造信息。

语言英语难度Advanced真实性评估机构Google

自然语言理解

1

SuperGLUE

Super Generalized Language Understanding Evaluation

一个包含 8 个自然语言理解任务的基准，旨在评估模型在复杂的语言理解和推理任务上的性能。

语言英语难度Advanced自然语言理解机构NYU & Facebook AI

阅读理解

1

DROP

Discrete Reasoning over the content of Paragraphs

一个需要模型进行离散推理的阅读理解基准，包括计数、比较和排序等操作。

语言英语难度Advanced阅读理解机构Allen Institute for AI