AI 大模型评测排行榜
综合排名与各项 Benchmark 分数持续更新,覆盖 MMLU Pro、HLE、SWE-Bench 等主流评测,帮你快速定位最优模型。
查看评测基准详情数据更新于 2026-04-08 06:54:36
综合排名
目前没有一个被普遍认可的"AI 模型综合排名",因此我们选取了两个具有代表性、且切入角度不同的综合榜单并列展示。Artificial Analysis 智能指数(AA Intelligence Index)汇总编程、数学、推理等 10 项标准化评测的跑分,衡量模型的客观能力;LMArena(原 Chatbot Arena)基于全球用户匿名盲测 A/B 投票得出的 Elo 分数,反映真实使用体感。两者分别提供客观基准与主观偏好的视角。
#模型分数
1049
MiMo-V2-Pro
Xiaomi
#模型Elo
11502
claude-opus-4-6-thinking
Anthropic
41492
grok-4.20-beta1
xAI
61485
gpt-5.4-high
OpenAI
71482
gpt-5.2-chat-latest-20260210
OpenAI
81481
grok-4.20-beta-0309-reasoning
xAI
101474
claude-opus-4-5-20251101-thinking-32k
Anthropic
来源:LMArena
单项评测排名
按数学、编程、Agent 等维度深入对比各模型能力,帮你在具体场景下快速找到最优选择。下方可切换不同评测基准,也可直接进入对应类别排行榜查看完整排名。 查看全部评测基准。
评测方向
大模型性能评测结果
数据来源:DataLearnerAI暂无图表数据
排序: