AI模型评测对比

大模型评测对比中心

对比多个大模型在不同评测基准（Benchmark）上的表现得分，帮助您选择性能最优的模型。

💡至少选择 2 个模型，未选评测时会自动填充常见榜单，便于快速生成对比结果。

1选择模型已选: 0

暂未选择模型

Claude Sonnet 5
By Anthropic
GPT-5.6 Sol
By OpenAI
GPT-5.6 Terra
By OpenAI
GPT-5.6 Luna
By OpenAI
GLM-GA
By 智谱AI
Seed 2.1 Pro
By 字节跳动Seed团队
Seedance 2.5
By 字节跳动Seed团队
Unlimited-OCR
By 百度
Gemini 3.5 Flash
By Google Deep Mind
Gemini 3.5 Pro
By Google Deep Mind
GLM-5.2
By 智谱AI
Kimi K2.7 Code
By Moonshot AI
Claude Fable 5
By Anthropic
Gemini 3.5 Live Translate
By Google Deep Mind
Nemotron 3 Ultra
By NVIDIA
Gemini-SQL2
By Google Research
MiniMax M3
By MiniMaxAI
DeepSeek-V4.1
By DeepSeek-AI
Claude Sonnet 4.8
By Anthropic
Step 3.7 Flash
By StepFunAI
Claude Opus 4.8
By Anthropic
Qwen3.7-Max-Preview
By 阿里巴巴
Qwen3.7-Plus-Preview
By 阿里巴巴
Gemma 4 120B
By Google Deep Mind
Gemini Omni
By Google Deep Mind
Grok Image (20260519)
By xAI
Composer 2.5
By Cursor
Grok 4.3 Beta
By xAI
MiniCPM-V 4.6
By OpenBMB
Happy Horse
By 阿里巴巴
Gemini 3.1 Flash-Lite
By Google Deep Mind
Mistral Medium 3.5
By MistralAI
MiniCPM5-1B
By OpenBMB
ERNIE-5.1-Preview
By 百度
DeepSeek-V4-Pro
By DeepSeek-AI
DeepSeek-V4-Flash
By DeepSeek-AI
DeepSeek-V4-Pro-Base
By DeepSeek-AI
DeepSeek-V4-Flash-Base
By DeepSeek-AI
GPT-5.5
By OpenAI
GPT-5.5 Pro
By OpenAI
Hy3 Pre
By 腾讯AI实验室
Qwen3.6-27B
By 阿里巴巴
GPT-image-2
By OpenAI
Qwen3.6-Max-Preview
By 阿里巴巴
Kimi K2.6
By Moonshot AI
Opus 4.7
By Anthropic
Gemini 3.1 Flash TTS
By Google Deep Mind
Qwen3.6-35B-A3B
By 阿里巴巴
Muse Spark
By Facebook AI研究实验室
Claude Mythos Preview
By Anthropic

2选择评测（可选）已选: 0

暂未选择评测

MMLU
综合评估
MMLU Pro
综合评估
GSM8K
数学推理
HumanEval
编程与软件工程
MBPP
编程与软件工程
HellaSwag
常识推理
ARC
常识推理
TruthfulQA
真实性评估
BIG-bench
综合评估
C-Eval
综合评估
SuperGLUE
自然语言理解
DROP
阅读理解
MATH
数学推理
BBH
综合评估
ARC-AGI
综合评估
HLE
综合评估
GPQA Diamond
综合评估
SimpleQA
常识问答
SWE-bench
编程与软件工程
SWE-bench Verified
编程与软件工程
MATH-500
数学推理
AIME 2024
数学推理
IC SWE-Lancer(Diamond)
编程与软件工程
SWE Manager Lancer(Diamond)
编程与软件工程
LiveCodeBench
编程与软件工程
GPQA
综合评估
AIME2025
数学推理
ARC-AGI-2
综合评估
Creative Writing
写作和创作
MTEB
文本向量检索
Terminal-Bench
AI Agent - 工具使用
MMMU
多模态理解
SimpleVQA
多模态理解
CodeForces
编程与软件工程
Simple Bench
常识推理
IMO 2024
数学推理
IMO 2025
数学推理
Aider-Polyglot
Agent能力评测
τ²-Bench
Agent能力评测
FrontierMath
数学推理
FrontierMath - Tier 4
数学推理
DocVQA
多模态理解
SWE-Bench Pro - Public
编程与软件工程
SWE-Bench Pro - Commercial
编程与软件工程
τ²-Bench - Telecom
Agent能力评测
IF Bench
指令跟随
BrowseComp
AI Agent - 信息收集
LiveBench
综合评估
IMO-ProofBench
数学推理
Terminal Bench Hard
Agent能力评测
Terminal Bench 2.0
AI Agent - 工具使用
IMO-ProofBench Advanced
数学推理
Tool Decathlon
AI Agent - 工具使用
Context Arena
文本向量检索
MMEB-v2-Image
图像向量嵌入
IMO-AnswerBench
数学推理
GDPval-AA
生产力知识
AA-LCR
长上下文能力
AIME 2026
数学推理
OSWorld-Verified
AI Agent - 工具使用
Pinch Bench
OpenClaw智能体能力综合测评
SWE-bench Multilingual
编程与软件工程
Claw Bench
OpenClaw智能体能力综合测评
ARC-AGI-3
综合评估
TerminalBench 2.1
AI Agent - 工具使用
MCP-Atlas
AI Agent - 工具使用
DeepSWE
编程与软件工程
CodeClash
编程与软件工程
GAIA
Agent能力评测
LongBench v2
长上下文能力

如何用 DataLearnerAI 进行大模型对比与选型？

这个页面聚合了 DataLearnerAI 收录的主流大模型与评测榜单数据，支持按模型名称和评测基准搜索、勾选，然后一键生成对比结果页。对比结果中会展示各模型的参数规模、上下文长度、开源与商用授权信息以及在公开评测榜单上的得分。

典型使用场景包括：为企业内部选型不同厂商的大模型 API、在科研中对比多种基础模型在同一评测集上的表现，或为个人项目挑选适合中文、代码、推理等任务的大模型。

如果你已经知道希望对比的模型名称（例如 GPT-4o、Qwen、Llama 等），可以先在左侧搜索并勾选模型，再在右侧选择 MMLU、GSM8K 等评测基准，最后点击上方按钮生成可视化对比页面，便于与团队共享和讨论。

大模型评测对比中心

1选择模型已选: 0

2选择评测（可选）已选: 0

热门对比配置

如何用 DataLearnerAI 进行大模型对比与选型？

大模型评测对比中心

1选择模型已选: 0

2选择评测（可选）已选: 0

热门对比配置

如何用 DataLearnerAI 进行大模型对比与选型？