AI模型评测对比

大模型评测对比中心

对比多个大模型在不同评测基准（Benchmark）上的表现得分，帮助您选择性能最优的模型。

💡至少选择 2 个模型，未选评测时会自动填充常见榜单，便于快速生成对比结果。

1选择模型已选: 0

暂未选择模型

GPT-6
By OpenAI
MiniMax M3 Pro
By MiniMaxAI
Claude Opus 5
By Anthropic
Gemini 3.6 Flash
By Google Deep Mind
Qwen-Image-3.0
By 阿里巴巴
Gemini 3.5 Flash-Lite
By Google Deep Mind
Qwen3.8-Max-Preview
By 阿里巴巴
Kimi K3
By Moonshot AI
Inkling
By Thinking Machines Lab
Qwen-Audio-3.0-TTS-Plus
By 阿里巴巴
Qwen-Audio-3.0-TTS-Flash
By 阿里巴巴
Muse Spark 1.1
By Facebook AI研究实验室
Grok 4.5
By xAI
GPT-Live-1
By OpenAI
GPT-Live-1 mini
By OpenAI
Hy3
By 腾讯AI实验室
Claude Sonnet 5
By Anthropic
GPT-5.6 Sol
By OpenAI
GPT-5.6 Terra
By OpenAI
GPT-5.6 Luna
By OpenAI
GLM-GA
By 智谱AI
Seed2.1 Pro
By 字节跳动Seed团队
Unlimited-OCR
By 百度
Gemini 3.5 Flash
By Google Deep Mind
Gemini 3.5 Pro
By Google Deep Mind
GLM-5.2
By 智谱AI
Kimi K2.7 Code
By Moonshot AI
Claude Fable 5
By Anthropic
Gemini 3.5 Live Translate
By Google Deep Mind
Nemotron 3 Ultra
By NVIDIA
Gemini-SQL2
By Google Research
MiniMax M3
By MiniMaxAI
DeepSeek-V4.1
By DeepSeek-AI
Qwen3.7-Plus
By 阿里巴巴
Claude Sonnet 4.8
By Anthropic
Step 3.7 Flash
By StepFunAI
Claude Opus 4.8
By Anthropic
Qwen3.7-Max-Preview
By 阿里巴巴
Qwen3.7 Max
By 阿里巴巴
Gemma 4 120B
By Google Deep Mind
Gemini Omni
By Google Deep Mind
Grok Image (20260519)
By xAI
Composer 2.5
By Cursor
Grok 4.3 Beta
By xAI
MiniCPM-V 4.6
By OpenBMB
Happy Horse
By 阿里巴巴
Gemini 3.1 Flash-Lite
By Google Deep Mind
Mistral Medium 3.5
By MistralAI
MiniCPM5-1B
By OpenBMB
ERNIE-5.1-Preview
By 百度

2选择评测（可选）已选: 0

暂未选择评测

MMLU
综合评估
MMLU Pro
综合评估
GSM8K
数学推理
HumanEval
编程与软件工程
MBPP
编程与软件工程
HellaSwag
常识推理
ARC
常识推理
TruthfulQA
真实性评估
BIG-bench
综合评估
C-Eval
综合评估
SuperGLUE
自然语言理解
DROP
阅读理解
MATH
数学推理
BBH
综合评估
ARC-AGI
综合评估
HLE
综合评估
GPQA Diamond
综合评估
SimpleQA
常识问答
SWE-bench
编程与软件工程
SWE-bench Verified
编程与软件工程
MATH-500
数学推理
AIME 2024
数学推理
IC SWE-Lancer(Diamond)
编程与软件工程
SWE Manager Lancer(Diamond)
编程与软件工程
LiveCodeBench
编程与软件工程
GPQA
综合评估
AIME2025
数学推理
ARC-AGI-2
综合评估
Creative Writing
写作和创作
MTEB
文本向量检索
Terminal-Bench
AI Agent - 工具使用
MMMU
多模态理解
SimpleVQA
多模态理解
CodeForces
编程与软件工程
Simple Bench
常识推理
IMO 2024
数学推理
IMO 2025
数学推理
Aider-Polyglot
Agent能力评测
τ²-Bench
Agent能力评测
FrontierMath
数学推理
FrontierMath - Tier 4
数学推理
DocVQA
多模态理解
SWE-Bench Pro - Public
编程与软件工程
SWE-Bench Pro - Commercial
编程与软件工程
τ²-Bench - Telecom
Agent能力评测
IF Bench
指令跟随
BrowseComp
AI Agent - 信息收集
LiveBench
综合评估
IMO-ProofBench
数学推理
Terminal Bench Hard
Agent能力评测
Terminal Bench 2.0
AI Agent - 工具使用
IMO-ProofBench Advanced
数学推理
Tool Decathlon
AI Agent - 工具使用
Context Arena
文本向量检索
MMEB-v2-Image
图像向量嵌入
IMO-AnswerBench
数学推理
GDPval-AA
生产力知识
AA-LCR
长上下文能力
AIME 2026
数学推理
OSWorld-Verified
AI Agent - 工具使用
Pinch Bench
OpenClaw智能体能力综合测评
SWE-bench Multilingual
编程与软件工程
Claw Bench
OpenClaw智能体能力综合测评
ARC-AGI-3
综合评估
TerminalBench 2.1
AI Agent - 工具使用
MCP-Atlas
AI Agent - 工具使用
DeepSWE
编程与软件工程
CodeClash
编程与软件工程
GAIA
Agent能力评测
LongBench v2
长上下文能力
AA Intelligence Index
综合评估
AA Coding Agent Index
编程与软件工程
Vals Index
综合评估
Vals CyberBench
AI Agent - 工具使用
OSWorld 2.0
AI Agent - 工具使用
Agents' Last Exam
AI Agent - 工具使用
SWE-Marathon
编程与软件工程
Program Bench
编程与软件工程
FrontierSWE
编程与软件工程
PostTrain Bench
编程与软件工程
MLS Bench
编程与软件工程
Kimi Code Bench 2.0
编程与软件工程
GDPval-AA v2
生产力知识
DeepSearchQA
AI Agent - 信息收集
Toolathlon-Verified
AI Agent - 工具使用
Automation Bench
AI Agent - 工具使用
Job Bench
Agent能力评测
AA-Briefcase
生产力知识
APEX-Agents
Agent能力评测
Office QA Pro
生产力知识
SpreadsheetBench 2
生产力知识
DECK-Bench
生产力知识
MMMU-Pro
多模态理解
CharXiv RQ
多模态理解
MathVision
多模态理解
BabyVision
多模态理解
ZeroBench Main
多模态理解
WorldVQA ForceAnswer
多模态理解
OmniDocBench
多模态理解
PerceptionBench
多模态理解
MLE-Bench
AI Agent - 工具使用
GDM-MRCR v2 (8-needle, 128K)
长上下文
GDM-MRCR v2 (8-needle, 1M)
长上下文
CritPt
综合评估
SciCode
编程与软件工程
ResearchRubrics
生产力知识
MCPMark-Verified
AI Agent - 工具使用
SaaS-Bench
AI Agent - 工具使用
τ³-Banking
Agent能力评测
Harvey Lab-AA
生产力知识
CorpFin v2
生产力知识
Finance Agent v2
生产力知识
Legal Research Bench
生产力知识
Video-MME (w. sub)
多模态理解
MMVU
多模态理解

如何用 DataLearnerAI 进行大模型对比与选型？

这个页面聚合了 DataLearnerAI 收录的主流大模型与评测榜单数据，支持按模型名称和评测基准搜索、勾选，然后一键生成对比结果页。对比结果中会展示各模型的参数规模、上下文长度、开源与商用授权信息以及在公开评测榜单上的得分。

典型使用场景包括：为企业内部选型不同厂商的大模型 API、在科研中对比多种基础模型在同一评测集上的表现，或为个人项目挑选适合中文、代码、推理等任务的大模型。

如果你已经知道希望对比的模型名称（例如 GPT-4o、Qwen、Llama 等），可以先在左侧搜索并勾选模型，再在右侧选择 MMLU、GSM8K 等评测基准，最后点击上方按钮生成可视化对比页面，便于与团队共享和讨论。

大模型评测对比中心

1选择模型已选: 0

2选择评测（可选）已选: 0

热门对比配置

如何用 DataLearnerAI 进行大模型对比与选型？

大模型评测对比中心

1选择模型已选: 0

2选择评测（可选）已选: 0

热门对比配置

如何用 DataLearnerAI 进行大模型对比与选型？