AI模型评测对比

LLM Benchmark Comparison

Compare benchmark scores across multiple LLMs to find the best-performing model for your needs.

💡Select at least two models. When no benchmarks are chosen, common leaderboards will be prefilled to generate results quickly.

1Select models已选: 0

No models selected yet

GPT-6
By OpenAI
Claude Opus 5
By Anthropic
MiniMax M3 Pro
By MiniMaxAI
Kimi K3
By Moonshot AI
Inkling
By Thinking Machines Lab
Muse Spark 1.1
By Facebook AI研究实验室
Grok 4.5
By xAI
GPT-Live-1
By OpenAI
GPT-Live-1 mini
By OpenAI
Hy3
By 腾讯AI实验室
Claude Sonnet 5
By Anthropic
GPT-5.6 Sol
By OpenAI
GPT-5.6 Terra
By OpenAI
GPT-5.6 Luna
By OpenAI
GLM-GA
By 智谱AI
Seed 2.1 Pro
By 字节跳动Seed团队
Seedance 2.5
By 字节跳动Seed团队
Unlimited-OCR
By 百度
Gemini 3.5 Flash
By Google Deep Mind
Gemini 3.5 Pro
By Google Deep Mind
GLM-5.2
By 智谱AI
Kimi K2.7 Code
By Moonshot AI
Claude Fable 5
By Anthropic
Gemini 3.5 Live Translate
By Google Deep Mind
Nemotron 3 Ultra
By NVIDIA
Gemini-SQL2
By Google Research
MiniMax M3
By MiniMaxAI
DeepSeek-V4.1
By DeepSeek-AI
Claude Sonnet 4.8
By Anthropic
Step 3.7 Flash
By StepFunAI
Claude Opus 4.8
By Anthropic
Qwen3.7-Max-Preview
By 阿里巴巴
Qwen3.7-Plus-Preview
By 阿里巴巴
Gemma 4 120B
By Google Deep Mind
Gemini Omni
By Google Deep Mind
Grok Image (20260519)
By xAI
Composer 2.5
By Cursor
Grok 4.3 Beta
By xAI
MiniCPM-V 4.6
By OpenBMB
Happy Horse
By 阿里巴巴
Gemini 3.1 Flash-Lite
By Google Deep Mind
Mistral Medium 3.5
By MistralAI
MiniCPM5-1B
By OpenBMB
ERNIE-5.1-Preview
By 百度
DeepSeek-V4-Pro
By DeepSeek-AI
DeepSeek-V4-Flash
By DeepSeek-AI
DeepSeek-V4-Pro-Base
By DeepSeek-AI
DeepSeek-V4-Flash-Base
By DeepSeek-AI
GPT-5.5
By OpenAI
GPT-5.5 Pro
By OpenAI

2Benchmarks (optional)已选: 0

No benchmarks selected yet

MMLU
综合评估
MMLU Pro
综合评估
GSM8K
数学推理
HumanEval
编程与软件工程
MBPP
编程与软件工程
HellaSwag
常识推理
ARC
常识推理
TruthfulQA
真实性评估
BIG-bench
综合评估
C-Eval
综合评估
SuperGLUE
自然语言理解
DROP
阅读理解
MATH
数学推理
BBH
综合评估
ARC-AGI
综合评估
HLE
综合评估
GPQA Diamond
综合评估
SimpleQA
常识问答
SWE-bench
编程与软件工程
SWE-bench Verified
编程与软件工程
MATH-500
数学推理
AIME 2024
数学推理
IC SWE-Lancer(Diamond)
编程与软件工程
SWE Manager Lancer(Diamond)
编程与软件工程
LiveCodeBench
编程与软件工程
GPQA
综合评估
AIME2025
数学推理
ARC-AGI-2
综合评估
Creative Writing
写作和创作
MTEB
文本向量检索
Terminal-Bench
AI Agent - 工具使用
MMMU
多模态理解
SimpleVQA
多模态理解
CodeForces
编程与软件工程
Simple Bench
常识推理
IMO 2024
数学推理
IMO 2025
数学推理
Aider-Polyglot
Agent能力评测
τ²-Bench
Agent能力评测
FrontierMath
数学推理
FrontierMath - Tier 4
数学推理
DocVQA
多模态理解
SWE-Bench Pro - Public
编程与软件工程
SWE-Bench Pro - Commercial
编程与软件工程
τ²-Bench - Telecom
Agent能力评测
IF Bench
指令跟随
BrowseComp
AI Agent - 信息收集
LiveBench
综合评估
IMO-ProofBench
数学推理
Terminal Bench Hard
Agent能力评测
Terminal Bench 2.0
AI Agent - 工具使用
IMO-ProofBench Advanced
数学推理
Tool Decathlon
AI Agent - 工具使用
Context Arena
文本向量检索
MMEB-v2-Image
图像向量嵌入
IMO-AnswerBench
数学推理
GDPval-AA
生产力知识
AA-LCR
长上下文能力
AIME 2026
数学推理
OSWorld-Verified
AI Agent - 工具使用
Pinch Bench
OpenClaw智能体能力综合测评
SWE-bench Multilingual
编程与软件工程
Claw Bench
OpenClaw智能体能力综合测评
ARC-AGI-3
综合评估
TerminalBench 2.1
AI Agent - 工具使用
MCP-Atlas
AI Agent - 工具使用
DeepSWE
编程与软件工程
CodeClash
编程与软件工程
GAIA
Agent能力评测
LongBench v2
长上下文能力
AA Intelligence Index
综合评估
AA Coding Agent Index
编程与软件工程
Vals Index
综合评估
Vals CyberBench
AI Agent - 工具使用
OSWorld 2.0
AI Agent - 工具使用
Agents' Last Exam
AI Agent - 工具使用
SWE-Marathon
编程与软件工程
Program Bench
编程与软件工程
FrontierSWE
编程与软件工程
PostTrain Bench
编程与软件工程
MLS Bench
编程与软件工程
Kimi Code Bench 2.0
编程与软件工程
GDPval-AA v2
生产力知识
DeepSearchQA
AI Agent - 信息收集
Toolathlon-Verified
AI Agent - 工具使用
Automation Bench
AI Agent - 工具使用
Job Bench
Agent能力评测
AA-Briefcase
生产力知识
APEX-Agents
Agent能力评测
Office QA Pro
生产力知识
SpreadsheetBench 2
生产力知识
DECK-Bench
生产力知识
MMMU-Pro
多模态理解
CharXiv RQ
多模态理解
MathVision
多模态理解
BabyVision
多模态理解
ZeroBench Main
多模态理解
WorldVQA ForceAnswer
多模态理解
OmniDocBench
多模态理解
PerceptionBench
多模态理解

Popular comparisons

Opus 4.7与GPT-5.4全面对比？Opus 4.7是否更强？

Claude Opus 4.7 于2026年4月16日发布，距离 GPT-5.4 亮相仅六周，Anthropic 在这一轮的模型竞争中完成了反超。在可直接横向比较的9项基准中，Opus 4.7 赢得6项、持平1项，GPT-5.4 仅胜出2项

claude-opus-4-7 gpt-5-4·2026-04-17

Opus 4.7与Opus 4.6对比有哪些提升和下降的地方？Opus 4.7与Opus 4.6全面对比分析

Anthropic在2026年4月16日发布了Opus 4.7，相比较Opus 4.6，Agentic任务能力明显提升，但是在长上下文等方面居然有了劣化情况，这次小版本升级社区评价并不那么好。

claude-opus-4-7 claude-opus-4-6·2026-04-17

Opus 4.7 与 Claude最强模型Claude Mythos差多少

Mythos 定义上限，Opus 4.7 是当下最强可用选项，Claude最强旗舰对比

claude-opus-4-7 claude-mythos-preview·2026-04-17

GLM-5.1相比较GLM-5升级了什么？GLM-5.1与GLM-5全面数据和评测对比

GLM-5.1 与 GLM-5 全面对比：相同基座架构，不同后训练方向。GLM-5.1 在 SWE-Bench Pro 以 58.4 分跻身全球第一，CyberGym 超越 Claude Opus 4.6，并在 600 轮迭代的 Agentic 任务中展现出显著的长时运行优势；但数学与通用推理能力与 GLM-5 基本持平。查看完整 benchmark 对比数据，快速判断哪款模型更适合你的使用场景。

glm-5-1 glm-5·2026-04-08

Claude Mythos与GPT-5.4 Pro模型全面评测的详细对比

全面对比 Claude Mythos Preview 与 GPT-5.4 Pro 的评测得分、API 定价与核心规格。Mythos 在 HLE、GPQA Diamond、SWE-bench 等主要基准上全面领先，但目前不对公众开放；GPT-5.4 Pro 在 BrowseComp 和数学方向有优势，是当前可公开调用的最强模型。

claude-mythos-preview gpt-5-4-pro·2026-04-08

Claude Mythos Preview 与 Opus 4.6 的基本信息和评测数据全面对比

Anthropic最强模型Mythos与此前Anthropic最强的Opus 4.6模型对比，能力有多好！

claude-mythos-preview claude-opus-4-6·2026-04-08

300亿参数规模的开源顶级模型对比：谷歌Gemma4-31b与阿里Qwen3.5-27B评测对比

Google DeepMind于2026年4月2日发布了Gemma 4，阿里巴巴Qwen团队于同年2月25日发布了Qwen3.5，两者都是目前30B参数量级里各自最强的开源模型。

google-gemma-4-31b qwen3-5-27b-dense·2026-04-03

全球最强模型GPT-5.4与Opus 4.6的评测对比分析

GPT-5.4与Opus 4.6是当今全球毫无疑问的最强2个模型，本页面主要对比二者在不同评测上的差异

gpt-5-4 claude-opus-4-6·2026-03-25

智谱GLM-5和月之暗面Kimi K2.5参数对比、性能对比和评测结果对比

国产最强2大模型GLM-5和月之暗面K2.5全方位对比，包括基本信息、参数信息和评测结果对比