AI大模型评测排行榜
聚合 ARC-AGI-2、AIME 2025、SWE-bench Verified 等主流评测的实时排名,按综合、数学、编程、Agent 等维度快速筛选。
查看评测基准详情数据更新于 2026-04-25 14:44:58
综合排名
目前没有一个被普遍认可的"AI 模型综合排名",因此我们选取了两个具有代表性、且切入角度不同的综合榜单并列展示。Artificial Analysis 智能指数(AA Intelligence Index)汇总编程、数学、推理等 10 项标准化评测的跑分,衡量模型的客观能力;LMArena(原 Chatbot Arena)基于全球用户匿名盲测 A/B 投票得出的 Elo 分数,反映真实使用体感。两者分别提供客观基准与主观偏好的视角。
#模型分数
8
X
MiMo-V2.5-Pro
54
#模型Elo
8
grok-4.20-beta1
1482
9

gpt-5.4-high
1481
10
grok-4.20-beta-0309-reasoning
1479
来源:LMArena
单项评测排名
按数学、编程、Agent 等维度筛选排名。下方可切换评测基准,也可直接进入分类排行榜查看完整排名。 查看全部评测基准。
评测方向
大模型性能评测结果
数据来源:DataLearnerAI1
Claude Mythos Preview
扩展思考工具
HLE64.70
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified93.90
τ²-Bench—
不开源
12
Gemini 3.1 Pro Preview
思考水平 · 高工具
HLE51.40
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified80.60
τ²-Bench90.80
不开源
13
10400BKimi K2 Thinking
并行 · 开启思考工具
HLE51.00
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
14
Qwen 3.6 Plus Preview
开启思考工具
HLE50.60
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified78.80
τ²-Bench—
不开源
18
10000BQwen3-Max-Thinking
开启思考工具
HLE49.80
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench82.10
不开源
HLE48.40
ARC-AGI-284.60
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
不开源
22
397BQwen3.5-397B-A17B
开启思考工具联网
HLE48.30
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
23
16000BDeepSeek-V4-Pro
思考水平 · 极高工具
HLE48.20
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified80.60
τ²-Bench—
免费商用
25
Gemini 3.0 Pro (Preview 11-2025)
思考水平 · 高工具
HLE45.80
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
不开源
27
2840BDeepSeek-V4-Flash
思考水平 · 极高工具
HLE45.10
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified79.00
τ²-Bench—
免费商用
28
10400BKimi K2 Thinking
开启思考工具
HLE44.90
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified71.30
τ²-Bench—
免费商用
29
16000BDeepSeek-V4-Pro
思考水平 · 高工具
HLE44.70
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified79.40
τ²-Bench—
免费商用
30
Gemini 3.1 Pro Preview
思考水平 · 高
HLE44.40
ARC-AGI-277.10
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
不开源
排序:


