搜索博客

大模型排行榜

大模型评测基准

大模型列表

大模型对比

语言中文

搜索博客

DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台，持续更新可落地的 AI 能力图谱。

产品

评测榜单
模型对比
数据资源

资源

部署教程
原创内容
工具导航

关于

关于我们
隐私政策
数据收集方法
联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例，为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

评测基准库

业界主流大模型评测基准

本页面汇总了当前业界主流的大模型评测基准，包括AIME 2025, SWE Bench Verified, MMLU、GSM8K、HumanEval 等。我们致力于为研究者和开发者提供一个全面的参考平台，帮助大家了解不同大模型在各种评测数据集上的性能表现。

查看模型榜单开始模型对比

全部基准

115

所有类型

20

所有语言

7

大模型在评测基准的详细评测结果：主流大模型评测基准榜单

115 / 115

下一步去榜单去对比

已匹配 115 个基准，建议先看对应榜单，再进入模型对比。

查看榜单进入模型对比

分类导航

编程与软件工程

21

HumanEval

一个包含 164 个手写编程问题的基准，用于评估模型生成代码的能力。

语言英文难度基础编程与软件工程机构OpenAI

MBPP

Mostly Basic Python Problems

一个包含 974 个简单的 Python 编程问题的基准，用于评估模型生成代码的能力。

语言英文编程与软件工程机构个人

SWE-bench

Software Engineering Bench

一个从GitHub上提炼的真实世界的Python代码仓的任务评测数据集

语言英文难度高难度编程与软件工程机构普林斯顿大学

SWE-bench Verified

Software Engineering Bench - Verified

OpenAI基于SWE-Bench提炼的更加准确和更具代表性的大模型代码工程任务解决能力评测

语言英文难度高难度编程与软件工程机构OpenAI

IC SWE-Lancer(Diamond)

Individual Contributor SWE-Lancer(Diamond)

OpenAI开源的评测大模型解决独立软件工程任务能力的评测基准

语言英文难度高难度编程与软件工程机构OpenAI

SWE Manager Lancer(Diamond)

SWE Manager-Lancer(Diamond)

OpenAI开源的评测大模型解决软件工程管理任务能力的评测基准

语言英文难度高难度编程与软件工程机构OpenAI

LiveCodeBench

LiveCodeBench 是一个动态更新的基准测试平台，通过来自顶级竞赛平台的高难度编程任务，全面评估大型语言模型在复杂编码场景中的能力。

语言多语言难度高难度编程与软件工程机构UC Berkeley

CodeForces

一个使用编程竞赛题目测试大模型代码生成能力的评测基准

语言英文难度高难度编程与软件工程机构个人

SWE-Bench Pro - Public

Software Engineering Bench Pro - Public Dataset

一个用于评估大模型解决真实世界代码工程的评测基准

语言英文难度高难度编程与软件工程机构Scale AI

SWE-Bench Pro - Commercial

Software Engineering Bench Pro - Commercial Dataset

一个用于评估大模型解决真实世界代码工程的评测基准

语言英文难度高难度编程与软件工程机构Scale AI

SWE-bench Multilingual

覆盖9种编程语言的大模型软件工程能力的评测基准

语言多语言难度中等难度编程与软件工程机构个人

DeepSWE

DeepSWE: Long-Horizon Software Engineering Benchmark

DeepSWE 是 Datacurve 推出的长程软件工程基准，包含 113 个原创任务，覆盖 91 个活跃开源仓库和 TypeScript、Go、Python、JavaScript、Rust 五种语言，强调多文件修改、行为正确性和更低污染风险。

语言Multilingual code难度Advanced编程与软件工程机构Datacurve

CodeClash

CodeClash: Benchmarking Goal-Oriented Software Engineering

CodeClash 是面向目标驱动软件工程的开放基准，要求模型在多轮 tournament 中维护和改进代码库，以胜率、Elo 等方式评估模型能否围绕高层目标进行策略规划、日志分析、代码演化和长期维护。

语言English难度Advanced编程与软件工程机构Stanford University / Princeton University / Cornell University

AA Coding Agent Index

Artificial Analysis Coding Agent Index

Artificial Analysis 面向编程智能体（agentic coding）场景的第三方综合评测指数。

语言en编程与软件工程机构Artificial Analysis

SWE-Marathon

SWE-Marathon: Can Agents Autonomously Complete Ultra-Long-Horizon Software Work?

SWE-Marathon 是面向超长周期软件工程智能体的评测基准，包含 20 个跨软件工程及相关技术领域的多小时任务，考察持续规划、长上下文理解、记忆、自我验证和复杂环境执行能力，并使用多层验证与对抗审查降低捷径解和奖励劫持的影响。

语言English难度Advanced编程与软件工程机构SWE-Marathon

Program Bench

Program Bench 是 Kimi K3 官方技术博客完整评测表采用的基准。本条目用于承载官方发布成绩；Kimi K3 的全局测试设置为 reasoning_effort=max、temperature=1.0、top_p=1.0，具体 harness、工具使用和重复运行口径以官方脚注为准。

语言English难度Advanced编程与软件工程机构Vals AI

FrontierSWE

FrontierSWE 是 Kimi K3 官方技术博客完整评测表采用的基准。本条目用于承载官方发布成绩；Kimi K3 的全局测试设置为 reasoning_effort=max、temperature=1.0、top_p=1.0，具体 harness、工具使用和重复运行口径以官方脚注为准。

语言English难度Advanced编程与软件工程

PostTrain Bench

PostTrain Bench 是 Kimi K3 官方技术博客完整评测表采用的基准。本条目用于承载官方发布成绩；Kimi K3 的全局测试设置为 reasoning_effort=max、temperature=1.0、top_p=1.0，具体 harness、工具使用和重复运行口径以官方脚注为准。

语言English难度Advanced编程与软件工程

MLS Bench

MLS Bench Lite

MLS Bench 是 Kimi K3 官方技术博客完整评测表采用的基准。本条目用于承载官方发布成绩；Kimi K3 的全局测试设置为 reasoning_effort=max、temperature=1.0、top_p=1.0，具体 harness、工具使用和重复运行口径以官方脚注为准。

语言English难度Advanced编程与软件工程

Kimi Code Bench 2.0

Kimi Code Bench 2.0（Kimi 内部评测）是 Kimi K3 官方技术博客完整评测表采用的基准。本条目用于承载官方发布成绩；Kimi K3 的全局测试设置为 reasoning_effort=max、temperature=1.0、top_p=1.0，具体 harness、工具使用和重复运行口径以官方脚注为准。

语言English难度Advanced编程与软件工程机构Moonshot AI

SciCode

SciCode 是面向科研代码生成与问题求解的评测基准；Kimi K3 模型卡引用 Artificial Analysis 截至 2026-07-23 的结果。

语言English难度Advanced编程与软件工程机构SciCode

综合评估

15

MMLU

Massive Multitask Language Understanding

一个涵盖 57 个主题的多项选择题基准，用于评估大规模语言模型的知识和推理能力。

语言英文难度基础综合评估机构个人

MMLU Pro

Massive Multitask Language Understanding Professional Level

MMLU 的专业级别版本，包含更具挑战性的问题，旨在评估模型在专业领域的理解和推理能力。

语言英文难度中等难度综合评估机构Berkeley Artificial Intelligence Research

BIG-bench

Beyond the Imitation Game Benchmark

一个包含 200 多个不同任务的综合基准，用于评估模型的各种能力，包括推理、语言理解和知识。

语言多语言难度Advanced综合评估机构Google

C-Eval

Chinese Evaluation Benchmark

一个涵盖人文社科、理工科等多个学科的中文多项选择题基准，用于评估模型在中文环境下的知识和推理能力。

语言中文难度基础综合评估机构请选择发布机构

BBH

Big Bench Hard

BIG-Bench 的困难子集，包含更具挑战性的任务，用于评估模型的极限能力。

语言英语难度Expert综合评估机构Google

ARC-AGI

Keras创始人创建的通用人工智能评测系统

语言英文综合评估机构个人

HLE

Humanity's Last Exam

研究生水平以上的超高难度、覆盖超多学科的大模型评测基准

语言英文难度高难度综合评估机构Center for AI Safety

GPQA Diamond

GPQA Diamond 旨在提供一个全面的框架，能够测试模型在多种推理场景下的能力，并推动大模型在更加复杂任务上的改进。

语言英文难度高难度综合评估机构CohereAI

GPQA

A Graduate-Level Google-Proof Q&A Benchmark

一个可以防止使用谷歌作弊的研究生级别难度的大模型评测基准

语言英文难度高难度综合评估机构CohereAI

ARC-AGI-2

极具挑战性的大模型通用能力评测基准

语言英文难度高难度综合评估机构个人

LiveBench

一种抗污染的大型语言模型基准测试

语言英文难度中等难度综合评估机构个人

ARC-AGI-3

一个用于评估大模型智力的综合评测基准

语言英文难度高难度综合评估机构个人

AA Intelligence Index

Artificial Analysis Intelligence Index

Artificial Analysis 第三方综合智能评测指数，覆盖推理、知识、编程等多维度任务，按厂商公开 API 独立测试。

语言en综合评估机构Artificial Analysis

Vals Index

Vals AI Index

Vals AI 第三方综合评测指数，覆盖法律、金融、医疗等真实行业任务的准确率测试。

语言en综合评估机构Vals AI

CritPt

CritPt 是 Kimi K3 开放权重模型卡采用的推理与知识基准；K3 成绩由模型卡引用 Artificial Analysis 截至 2026-07-23 的结果。

语言English难度Advanced综合评估机构Artificial Analysis

AI Agent - 工具使用

14

Terminal-Bench

用于评测大模型在命令行环境下执行工具的Agentic能力的评测基准

语言英文难度高难度AI Agent - 工具使用机构个人

Terminal Bench 2.0

Terminal Bench Hard 2.0

用于评估大模型在终端环境下使用工具能力的评测基准的升级版本

语言英文难度高难度AI Agent - 工具使用机构个人

Tool Decathlon

Tool Decathlon是一个用于评估大模型在真实环境中使用工具执行复杂任务的能力的评测基准

语言英文难度高难度AI Agent - 工具使用机构个人

OSWorld-Verified

OS World Verified

一个用于验证大模型Agent在操作计算机方面能力的评测基准，OSWorld的升级版本

语言英文难度中等难度AI Agent - 工具使用机构个人

TerminalBench 2.1

一个针对AI代理在真实终端环境中的能力评测基准，由Stanford University与Laude Institute合作开发

语言英文难度中等难度AI Agent - 工具使用机构Stanford CRFM

MCP-Atlas

MCP-Atlas: A Large-Scale Benchmark for Tool-Use Competency with Real MCP Servers

MCP-Atlas 是 Scale AI 推出的真实 MCP 服务器工具使用评测，覆盖 36 个 MCP servers、220 个工具和 1000 个自然语言任务，用于衡量模型发现工具、跨服务器编排、多步调用和基于工具结果综合答案的能力。

语言English难度AdvancedAI Agent - 工具使用机构Scale AI

Vals CyberBench

Vals AI 网络安全专项评测子榜单，测试模型在漏洞分析、渗透测试等网络安全任务中的表现。

语言enAI Agent - 工具使用机构Vals AI

OSWorld 2.0

OSWorld 2.0 评测计算机操作智能体在真实桌面环境中完成任务的成功率，数值经二手来源 MarkTechPost 转引 OpenAI system card 数据，与 OSWorld-Verified 为不同版本/口径，独立建档。

语言enAI Agent - 工具使用机构OpenAI system card (via MarkTechPost)

Agents' Last Exam

Agents' Last Exam 评测智能体在高难度综合任务上的表现，数值经二手来源 MarkTechPost 转引 OpenAI system card 数据（52.7）；另一转引来源新浪财经给出 53.6，存在约 1 分出入，以 MarkTechPost/system card 口径的 52.7 为准。

语言enAI Agent - 工具使用机构MarkTechPost (citing OpenAI system card)

Toolathlon-Verified

Toolathlon-Verified 是 Kimi K3 官方技术博客完整评测表采用的基准。本条目用于承载官方发布成绩；Kimi K3 的全局测试设置为 reasoning_effort=max、temperature=1.0、top_p=1.0，具体 harness、工具使用和重复运行口径以官方脚注为准。

语言English难度AdvancedAI Agent - 工具使用

Automation Bench

AutomationBench

Automation Bench 是 Kimi K3 官方技术博客完整评测表采用的基准。本条目用于承载官方发布成绩；Kimi K3 的全局测试设置为 reasoning_effort=max、temperature=1.0、top_p=1.0，具体 harness、工具使用和重复运行口径以官方脚注为准。

语言English难度AdvancedAI Agent - 工具使用

MLE-Bench

MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

MLE-Bench 用 75 个 Kaggle 竞赛任务评估 AI 智能体执行端到端机器学习工程工作的能力，覆盖数据准备、模型训练、实验运行与结果改进。Gemini 3.6 Flash 官方模型卡使用该基准报告模型对比成绩。

语言English难度AdvancedAI Agent - 工具使用机构OpenAI

MCPMark-Verified

MCPMark-Verified 用于评估智能体通过 MCP 工具完成真实任务的能力；Kimi K3 成绩来自官方开放权重模型卡。

语言English难度AdvancedAI Agent - 工具使用机构MCPMark

SaaS-Bench

SaaS-Bench 用于评估智能体操作软件即服务应用并完成跨步骤任务的能力；Kimi K3 成绩来自官方开放权重模型卡。

语言English难度AdvancedAI Agent - 工具使用机构SaaS-Bench

多模态理解

13

MMMU

Massive Multi-discipline Multimodal Understanding and Reasoning

首个以大学水平学科知识为基础构建的多模态评测基准，旨在系统评估模型在跨学科、多模态场景下的复杂推理能力与专业知识应用水平。

语言英文难度中等难度多模态理解机构个人

SimpleVQA

Simple Visual Question Answering

首个全面评估多模态大模型在回答自然语言简短问题时事实性能力的多模态基准。

语言英文难度中等难度多模态理解机构个人

DocVQA

Document Visual Question Answering

DocVQA是一个针对文档图像的视觉问答基准数据集。

语言英文难度中等难度多模态理解机构个人

MMMU-Pro

MMMU-Pro 是 Kimi K3 官方技术博客完整评测表采用的基准。本条目用于承载官方发布成绩；Kimi K3 的全局测试设置为 reasoning_effort=max、temperature=1.0、top_p=1.0，具体 harness、工具使用和重复运行口径以官方脚注为准。

语言English难度Advanced多模态理解

CharXiv RQ

CharXiv (RQ)

CharXiv RQ 是 Kimi K3 官方技术博客完整评测表采用的基准。本条目用于承载官方发布成绩；Kimi K3 的全局测试设置为 reasoning_effort=max、temperature=1.0、top_p=1.0，具体 harness、工具使用和重复运行口径以官方脚注为准。

语言English难度Advanced多模态理解

MathVision

MathVision 是 Kimi K3 官方技术博客完整评测表采用的基准。本条目用于承载官方发布成绩；Kimi K3 的全局测试设置为 reasoning_effort=max、temperature=1.0、top_p=1.0，具体 harness、工具使用和重复运行口径以官方脚注为准。

语言English难度Advanced多模态理解

BabyVision

BabyVision 是 Kimi K3 官方技术博客完整评测表采用的基准。本条目用于承载官方发布成绩；Kimi K3 的全局测试设置为 reasoning_effort=max、temperature=1.0、top_p=1.0，具体 harness、工具使用和重复运行口径以官方脚注为准。

语言English难度Advanced多模态理解

ZeroBench Main

ZeroBench_main

ZeroBench Main 是 Kimi K3 官方技术博客完整评测表采用的基准。本条目用于承载官方发布成绩；Kimi K3 的全局测试设置为 reasoning_effort=max、temperature=1.0、top_p=1.0，具体 harness、工具使用和重复运行口径以官方脚注为准。

语言English难度Advanced多模态理解

WorldVQA ForceAnswer

WorldVQA ForceAnswer 是 Kimi K3 官方技术博客完整评测表采用的基准。本条目用于承载官方发布成绩；Kimi K3 的全局测试设置为 reasoning_effort=max、temperature=1.0、top_p=1.0，具体 harness、工具使用和重复运行口径以官方脚注为准。

语言English难度Advanced多模态理解机构Moonshot AI

OmniDocBench

OmniDocBench 是 Kimi K3 官方技术博客完整评测表采用的基准。本条目用于承载官方发布成绩；Kimi K3 的全局测试设置为 reasoning_effort=max、temperature=1.0、top_p=1.0，具体 harness、工具使用和重复运行口径以官方脚注为准。

语言English难度Advanced多模态理解机构OpenDataLab

PerceptionBench

PerceptionBench（Kimi 内部评测）是 Kimi K3 官方技术博客完整评测表采用的基准。本条目用于承载官方发布成绩；Kimi K3 的全局测试设置为 reasoning_effort=max、temperature=1.0、top_p=1.0，具体 harness、工具使用和重复运行口径以官方脚注为准。

语言English难度Advanced多模态理解机构Moonshot AI

Video-MME (w. sub)

Video-MME with Subtitles

Video-MME（带字幕）评估模型对视频内容与字幕信息的综合理解能力；Kimi K3 成绩来自官方开放权重模型卡。

语言English难度Advanced多模态理解机构Video-MME

MMVU

MMVU 是多模态视频理解评测；Kimi K3 成绩来自官方开放权重模型卡。

语言English难度Advanced多模态理解机构MMVU

数学推理

13

GSM8K

Grade School Math 8K

一个包含 8500 道小学数学题的基准，用于评估模型的数学推理能力。

语言英语难度Intermediate数学推理机构Google

MATH

Mathematics Problem Solving

一个具有挑战性的数学问题数据集，包含代数、微积分、几何、概率等多个领域。

语言英语难度Expert数学推理机构Google

MATH-500

OpenAI从MATH评测数据集中精选的500个更具代表性的数学评测基准

语言英文难度高难度数学推理机构OpenAI

AIME 2024

AIME全称是American Invitational Mathematics Examination，即美国数学邀请赛，是美国面向中学生的邀请式竞赛，3个小时完成15道题，难度很高。

语言英文难度高难度数学推理机构个人

AIME2025

2025年美国数学竞赛邀请赛的试题，用于测试大模型的数学推理能力

语言英文难度高难度数学推理机构个人

IMO 2024

International Mathematical Olympiad 2024

2024年国际奥林匹克信息竞赛评测基准

语言英文难度高难度数学推理机构Google Deep Mind

IMO 2025

International Mathematical Olympiad 2025

2025年国际奥林匹克信息竞赛

语言英文难度高难度数学推理机构个人

FrontierMath

FrontierMath (Tier 1-3)

FrontierMath 是一个用于评估人工智能高级数学推理能力的基准测试。它由数百个由数学家精心设计的全新且极具挑战性的数学问题组成，旨在真实地衡量当前AI系统的推理极限。

语言英文难度高难度数学推理机构Epoch AI

FrontierMath - Tier 4

FrontierMath 是一个用于评估人工智能高级数学推理能力的基准测试。FrontierMath - Tier 4是其中研究生级别的难题！

语言英文难度高难度数学推理机构Epoch AI

IMO-ProofBench

International Mathematics Olympiad-ProofBench

谷歌发布的用于评估大型语言模型生成完整、逻辑严谨的数学证明能力大模型评测基准

语言英文难度高难度数学推理机构Google Deep Mind

IMO-ProofBench Advanced

International Mathematics Olympiad-ProofBench Advanced

谷歌发布的用于评估大型语言模型生成完整、逻辑严谨的数学证明能力大模型评测基准

语言英文难度高难度数学推理机构Google Deep Mind

IMO-AnswerBench

International Mathematical Olympiad-AnswerBench

用于测试大模型在高难度（国际奥林匹克数学竞赛）数学问题上的回答能力

语言英文难度高难度数学推理机构DeepMind

AIME 2026

American Invitational Mathematics Examination 2026

基于2026年美国数学邀请赛的大模型数学推理能力评测基准

语言英文难度高难度数学推理机构个人

生产力知识

11

GDPval-AA

Gross Domestic Product Value - Artificial Analysis

衡量AI模型在对美国GDP贡献最大的行业中，完成知识型工作的能力

语言英文难度高难度生产力知识机构OpenAI

GDPval-AA v2

GDPval-AA v2 是 Kimi K3 官方技术博客完整评测表采用的基准。本条目用于承载官方发布成绩；Kimi K3 的全局测试设置为 reasoning_effort=max、temperature=1.0、top_p=1.0，具体 harness、工具使用和重复运行口径以官方脚注为准。

语言English难度Advanced生产力知识机构Artificial Analysis

AA-Briefcase

Artificial Analysis Briefcase

AA-Briefcase 是 Kimi K3 官方技术博客完整评测表采用的基准。本条目用于承载官方发布成绩；Kimi K3 的全局测试设置为 reasoning_effort=max、temperature=1.0、top_p=1.0，具体 harness、工具使用和重复运行口径以官方脚注为准。

语言English难度Advanced生产力知识机构Artificial Analysis

Office QA Pro

OfficeQA Pro

Office QA Pro 是 Kimi K3 官方技术博客完整评测表采用的基准。本条目用于承载官方发布成绩；Kimi K3 的全局测试设置为 reasoning_effort=max、temperature=1.0、top_p=1.0，具体 harness、工具使用和重复运行口径以官方脚注为准。

语言English难度Advanced生产力知识

SpreadsheetBench 2

SpreadsheetBench 2 是 Kimi K3 官方技术博客完整评测表采用的基准。本条目用于承载官方发布成绩；Kimi K3 的全局测试设置为 reasoning_effort=max、temperature=1.0、top_p=1.0，具体 harness、工具使用和重复运行口径以官方脚注为准。

语言English难度Advanced生产力知识

DECK-Bench

DECK-Bench（Kimi 内部评测）是 Kimi K3 官方技术博客完整评测表采用的基准。本条目用于承载官方发布成绩；Kimi K3 的全局测试设置为 reasoning_effort=max、temperature=1.0、top_p=1.0，具体 harness、工具使用和重复运行口径以官方脚注为准。

语言English难度Advanced生产力知识机构Moonshot AI

ResearchRubrics

ResearchRubrics 是 Kimi K3 开放权重模型卡报告的智能体研究能力评测，具体测试设置以官方模型卡和技术报告为准。

语言English难度Advanced生产力知识机构Moonshot AI

Harvey Lab-AA

Harvey Lab - Artificial Analysis

Harvey Lab-AA 是 Artificial Analysis 的专业法律知识工作评测；Kimi K3 模型卡报告 criterion pass rate。

语言English难度Advanced生产力知识机构Artificial Analysis

CorpFin v2

Corporate Finance v2

CorpFin v2 是 Vals AI 的企业财务知识工作评测；Kimi K3 成绩由官方模型卡引用。

语言English难度Advanced生产力知识机构Vals AI

Finance Agent v2

Finance Agent v2 是 Vals AI 的金融智能体知识工作评测；Kimi K3 成绩由官方模型卡引用。

语言English难度Advanced生产力知识机构Vals AI

Legal Research Bench

Legal Research Bench 是 Vals AI 的法律研究知识工作评测；Kimi K3 成绩由官方模型卡引用。

语言English难度Advanced生产力知识机构Vals AI

Agent能力评测

8

Aider-Polyglot

Aider-Polyglot Benchmark

一个用于评估大模型在“按照指令对代码进行实际可落地的编辑”上的能力的评测基准

语言英文难度高难度Agent能力评测机构个人

τ²-Bench

τ²-Bench - Overall

用于评估大模型智能体在双控（人机协同）环境下任务执行与沟通能力的开放基准

语言中文难度中等难度Agent能力评测机构个人

τ²-Bench - Telecom

面向电信领域的用于评估大模型在人机协同场景下的任务执行能力

语言英文难度中等难度Agent能力评测机构个人

Terminal Bench Hard

Artificial Analysis选择的用于评估大模型在终端环境下使用工具能力的评测基准

语言英文难度高难度Agent能力评测机构个人

GAIA

GAIA: A Benchmark for General AI Assistants

GAIA 是 Meta / Hugging Face 等提出的通用 AI Assistant 基准，包含 466 个真实问题，要求模型综合推理、多模态理解、网页浏览和工具使用能力；公开部分问题并保留部分答案用于排行榜。

语言English难度AdvancedAgent能力评测机构Meta AI / Hugging Face

Job Bench

JobBench

Job Bench 是 Kimi K3 官方技术博客完整评测表采用的基准。本条目用于承载官方发布成绩；Kimi K3 的全局测试设置为 reasoning_effort=max、temperature=1.0、top_p=1.0，具体 harness、工具使用和重复运行口径以官方脚注为准。

语言English难度AdvancedAgent能力评测

APEX-Agents

APEX-Agents 是 Kimi K3 官方技术博客完整评测表采用的基准。本条目用于承载官方发布成绩；Kimi K3 的全局测试设置为 reasoning_effort=max、temperature=1.0、top_p=1.0，具体 harness、工具使用和重复运行口径以官方脚注为准。

语言English难度AdvancedAgent能力评测

τ³-Banking

τ³-Benchmark - Banking

τ³-Banking 是 Kimi K3 模型卡采用的银行业务智能体评测，考察多轮交互和工具驱动任务完成能力。

语言English难度AdvancedAgent能力评测机构τ³-Benchmark

常识推理

3

HellaSwag

Hella Swag

一个包含 70,000 个多项选择题的基准，用于评估模型的常识推理能力。

语言英语难度Intermediate常识推理机构University of Washington

ARC

AI2 Reasoning Challenge

一个包含 7787 个多项选择题的基准，用于评估模型的常识推理能力。

语言英语难度Advanced常识推理机构Allen Institute for AI

Simple Bench

一个用于评估大模型常识水平的评测基准

语言英文难度高难度常识推理机构个人

AI Agent - 信息收集

2

BrowseComp

一个用于评估大模型AI Agent定位难以查找信息的能力的评测基准

语言英文难度中等难度AI Agent - 信息收集机构OpenAI

DeepSearchQA

DeepSearchQA 是 Kimi K3 官方技术博客完整评测表采用的基准。本条目用于承载官方发布成绩；Kimi K3 的全局测试设置为 reasoning_effort=max、temperature=1.0、top_p=1.0，具体 harness、工具使用和重复运行口径以官方脚注为准。

语言English难度AdvancedAI Agent - 信息收集

OpenClaw智能体能力综合测评

2

Pinch Bench

一个用于评估大模型作为OpenClaw控制中心的测试基准

语言英文难度中等难度OpenClaw智能体能力综合测评机构Kilo Code

Claw Bench

一个用于测试大模型在OpenClaw常见的5类任务中的能力的评测基准

语言英文难度中等难度OpenClaw智能体能力综合测评机构个人

文本向量检索

2

MTEB

Massive Text Embedding Benchmark

一个用于评估文本嵌入模型在不同任务上水平的评测基准

语言中文难度中等难度文本向量检索机构个人

Context Arena

Context Arena

基于多轮对话数据集测试大模型超长上下文的能力

语言英文难度中等难度文本向量检索机构个人

长上下文

2

GDM-MRCR v2 (8-needle, 128K)

Google DeepMind MRCR v2 8-needle - 128K Average

GDM-MRCR v2（8-needle）用于评估模型从长上下文中检索并整合多个关键信息的能力。本目录项对应 Google DeepMind 模型卡中的 128K average 测试条件，与 1M pointwise 口径分开记录。

语言English难度Advanced长上下文机构Google DeepMind

GDM-MRCR v2 (8-needle, 1M)

Google DeepMind MRCR v2 8-needle - 1M Pointwise

GDM-MRCR v2（8-needle）用于评估模型从长上下文中检索并整合多个关键信息的能力。本目录项对应 Google DeepMind 模型卡中的 1M pointwise 测试条件，与 128K average 口径分开记录。

语言English难度Advanced长上下文机构Google DeepMind

长上下文能力

2

AA-LCR

Artificial Analysis - Long Context Reasoning

AA-LCR 是由独立 AI 评测机构 Artificial Analysis 开发的基准测试集，旨在真实模拟知识工作者（如分析师、研究员、律师）处理海量文档的场景。

语言英文难度中等难度长上下文能力机构Artificial Analysis

LongBench v2

LongBench v2: Deeper Understanding and Reasoning on Realistic Long-context Multitasks

LongBench v2 是面向真实长上下文理解和推理的基准，包含 503 道多选题，文本长度覆盖 8k 到 2M words，任务覆盖单/多文档问答、长对话、代码仓库理解和结构化数据理解等场景。

语言English难度Advanced长上下文能力机构THUDM / Tsinghua University

写作和创作

1

Creative Writing

Creative Writing v3

用顶尖大模型来判断大模型创意写作方面的评测基准

语言英文难度中等难度写作和创作机构个人

图像向量嵌入

1

MMEB-v2-Image

Massive Multimodal Embedding Benchmark - V2 - Image

用于评测大模型图像向量嵌入能力的评测基准

语言英文难度中等难度图像向量嵌入机构TIGER-Lab

常识问答

1

SimpleQA

OpenAI发布的一个针对大模型事实问答的能力评测基准，可以有效检验模型幻觉严重程度

语言英文难度高难度常识问答机构OpenAI

指令跟随

1

IF Bench

Instruction Following Bench

IF Bench是一个针对大语言模型（LLM）指令跟随能力的评测基准。该基准聚焦于模型对新颖、复杂约束的泛化表现，通过 58 个可验证的单轮任务进行评估

语言英文难度中等难度指令跟随机构A21 Labs

真实性评估

1

TruthfulQA

一个包含 817 个问题的基准，旨在评估模型是否能够生成真实且准确的答案，而不是编造信息。

语言英语难度Advanced真实性评估机构Google

自然语言理解

1

SuperGLUE

Super Generalized Language Understanding Evaluation

一个包含 8 个自然语言理解任务的基准，旨在评估模型在复杂的语言理解和推理任务上的性能。

语言英语难度Advanced自然语言理解机构NYU & Facebook AI

阅读理解

1

DROP

Discrete Reasoning over the content of Paragraphs

一个需要模型进行离散推理的阅读理解基准，包括计数、比较和排序等操作。

语言英语难度Advanced阅读理解机构Allen Institute for AI