GSM8K
查看详情Grade School Math 8K
一个包含 8500 道小学数学题的基准,用于评估模型的数学推理能力。
加载中...
评测基准库
本页面汇总了当前业界主流的大模型评测基准,包括AIME 2025, SWE Bench Verified, MMLU、GSM8K、HumanEval 等。我们致力于为研究者和开发者提供一个全面的参考平台,帮助大家了解不同大模型在各种评测数据集上的性能表现。
全部基准
60
所有类型
18
所有语言
4
大模型在评测基准的详细评测结果:主流大模型评测基准榜单
已匹配 60 个基准,建议先看对应榜单,再进入模型对比。
Grade School Math 8K
一个包含 8500 道小学数学题的基准,用于评估模型的数学推理能力。
Mathematics Problem Solving
一个具有挑战性的数学问题数据集,包含代数、微积分、几何、概率等多个领域。
OpenAI从MATH评测数据集中精选的500个更具代表性的数学评测基准
AIME全称是American Invitational Mathematics Examination,即美国数学邀请赛,是美国面向中学生的邀请式竞赛,3个小时完成15道题,难度很高。
2025年美国数学竞赛邀请赛的试题,用于测试大模型的数学推理能力
International Mathematical Olympiad 2024
2024年国际奥林匹克信息竞赛评测基准
International Mathematical Olympiad 2025
2025年国际奥林匹克信息竞赛
FrontierMath (Tier 1-3)
FrontierMath 是一个用于评估人工智能高级数学推理能力的基准测试。它由数百个由数学家精心设计的全新且极具挑战性的数学问题组成,旨在真实地衡量当前AI系统的推理极限。
FrontierMath 是一个用于评估人工智能高级数学推理能力的基准测试。FrontierMath - Tier 4是其中研究生级别的难题!
International Mathematics Olympiad-ProofBench
谷歌发布的用于评估大型语言模型生成完整、逻辑严谨的数学证明能力大模型评测基准
International Mathematics Olympiad-ProofBench Advanced
谷歌发布的用于评估大型语言模型生成完整、逻辑严谨的数学证明能力大模型评测基准
International Mathematical Olympiad-AnswerBench
用于测试大模型在高难度(国际奥林匹克数学竞赛)数学问题上的回答能力
American Invitational Mathematics Examination 2026
基于2026年美国数学邀请赛的大模型数学推理能力评测基准
Massive Multitask Language Understanding
一个涵盖 57 个主题的多项选择题基准,用于评估大规模语言模型的知识和推理能力。
Massive Multitask Language Understanding Professional Level
MMLU 的专业级别版本,包含更具挑战性的问题,旨在评估模型在专业领域的理解和推理能力。
Beyond the Imitation Game Benchmark
一个包含 200 多个不同任务的综合基准,用于评估模型的各种能力,包括推理、语言理解和知识。
Chinese Evaluation Benchmark
一个涵盖人文社科、理工科等多个学科的中文多项选择题基准,用于评估模型在中文环境下的知识和推理能力。
Big Bench Hard
BIG-Bench 的困难子集,包含更具挑战性的任务,用于评估模型的极限能力。
Keras创始人创建的通用人工智能评测系统
Humanity's Last Exam
研究生水平以上的超高难度、覆盖超多学科的大模型评测基准
GPQA Diamond 旨在提供一个全面的框架,能够测试模型在多种推理场景下的能力,并推动大模型在更加复杂任务上的改进。
A Graduate-Level Google-Proof Q&A Benchmark
一个可以防止使用谷歌作弊的研究生级别难度的大模型评测基准
极具挑战性的大模型通用能力评测基准
一种抗污染的大型语言模型基准测试
一个包含 164 个手写编程问题的基准,用于评估模型生成代码的能力。
Mostly Basic Python Problems
一个包含 974 个简单的 Python 编程问题的基准,用于评估模型生成代码的能力。
Software Engineering Bench
一个从GitHub上提炼的真实世界的Python代码仓的任务评测数据集
Software Engineering Bench - Verified
OpenAI基于SWE-Bench提炼的更加准确和更具代表性的大模型代码工程任务解决能力评测
Individual Contributor SWE-Lancer(Diamond)
OpenAI开源的评测大模型解决独立软件工程任务能力的评测基准
SWE Manager-Lancer(Diamond)
OpenAI开源的评测大模型解决软件工程管理任务能力的评测基准
LiveCodeBench 是一个动态更新的基准测试平台,通过来自顶级竞赛平台的高难度编程任务,全面评估大型语言模型在复杂编码场景中的能力。
一个使用编程竞赛题目测试大模型代码生成能力的评测基准
Software Engineering Bench Pro - Public Dataset
一个用于评估大模型解决真实世界代码工程的评测基准
Software Engineering Bench Pro - Commercial Dataset
一个用于评估大模型解决真实世界代码工程的评测基准
Aider-Polyglot Benchmark
一个用于评估大模型在“按照指令对代码进行实际可落地的编辑”上的能力的评测基准
τ²-Bench - Overall
用于评估大模型智能体在双控(人机协同)环境下任务执行与沟通能力的开放基准
面向电信领域的用于评估大模型在人机协同场景下的任务执行能力
Artificial Analysis选择的用于评估大模型在终端环境下使用工具能力的评测基准
用于评测大模型在命令行环境下执行工具的Agentic能力的评测基准
Terminal Bench Hard 2.0
用于评估大模型在终端环境下使用工具能力的评测基准的升级版本
Tool Decathlon是一个用于评估大模型在真实环境中使用工具执行复杂任务的能力的评测基准
OS World Verified
一个用于验证大模型Agent在操作计算机方面能力的评测基准,OSWorld的升级版本
Massive Multi-discipline Multimodal Understanding and Reasoning
首个以大学水平学科知识为基础构建的多模态评测基准,旨在系统评估模型在跨学科、多模态场景下的复杂推理能力与专业知识应用水平。
Simple Visual Question Answering
首个全面评估多模态大模型在回答自然语言简短问题时事实性能力的多模态基准。
Document Visual Question Answering
DocVQA是一个针对文档图像的视觉问答基准数据集。