DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

AI大模型评测排行榜

聚合 ARC-AGI-2、AIME 2025、SWE-bench Verified 等主流评测的实时排名,按综合、数学、编程、Agent 等维度快速筛选。

查看评测基准详情数据更新于 2026-04-21 13:41:03

截至 2026年4月,AA 智能指数前列模型包括 Gemini 3.1 Pro Preview、GPT-5.4、GPT-5.3 Codex,该指数汇总编程、推理、科学等 10 项标准化评测。

LMArena 文本生成榜当前靠前的模型包括 Claude Opus 4.6、Claude Opus 4.6、Muse Spark,排名基于真人匿名 A/B 投票。

下方可按数学、编程、Agent 等分类查看单项排名。数据口径说明见 数据方法论,延伸阅读见 大模型分析博客。

综合排名

目前没有一个被普遍认可的"AI 模型综合排名",因此我们选取了两个具有代表性、且切入角度不同的综合榜单并列展示。Artificial Analysis 智能指数(AA Intelligence Index)汇总编程、数学、推理等 10 项标准化评测的跑分,衡量模型的客观能力;LMArena(原 Chatbot Arena)基于全球用户匿名盲测 A/B 投票得出的 Elo 分数,反映真实使用体感。两者分别提供客观基准与主观偏好的视角。

AA Intelligence Index

完整排名

汇总编程、数学、科学、推理、智能体等 10 项标准化评测的综合分数。

数据更新于 2026年04月17日

#模型分数
1
Google Deep Mind
Gemini 3.1 Pro PreviewGoogle Deep Mind
57
2
OpenAI
GPT-5.4OpenAI
57
3
OpenAI
GPT-5.3 CodexOpenAI
54
4
Anthropic
Claude Opus 4.6Anthropic
53
5
F
Muse SparkFacebook AI研究实验室
52
6
Anthropic
Claude Sonnet 4.6Anthropic
52
7
智
GLM 5.1智谱AI
51
8
阿
Qwen 3.6 Plus Preview阿里巴巴
50
9
智
GLM-5智谱AI
50
10
MiniMaxAI
MiniMax-M2.7MiniMaxAI
50
来源:Artificial Analysis

LMArena Text Generation

完整排名

基于匿名众包 A/B 对战的 Elo 评分,反映真实用户对回答质量的偏好。

数据更新于 2026年04月14日

#模型Elo
1
Anthropic
Claude Opus 4.6Anthropic
1502
2
Anthropic
Claude Opus 4.6Anthropic
1496
3
F
Muse SparkFacebook AI研究实验室
1495
4
Google Deep Mind
Gemini 3.1 Pro PreviewGoogle Deep Mind
1493
5
Google Deep Mind
Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind
1486
6
xAI
grok-4.20-beta1xAI
1485
7
OpenAI
gpt-5.4-highOpenAI
1481
8
xAI
grok-4.20-beta-0309-reasoningxAI
1479
9
OpenAI
gpt-5.2-chat-latest-20260210OpenAI
1476
10
xAI
grok-4.20-multi-agent-beta-0309xAI
1476
来源:LMArena

单项评测排名

按数学、编程、Agent 等维度筛选排名。下方可切换评测基准,也可直接进入分类排行榜查看完整排名。 查看全部评测基准。

评测方向
综合排名
ARC-AGI-2HLEMMLU Pro进入全部基准列表
数学
AIME 2025FrontierMathMATH-500进入数学能力排行榜
编程
SWE-bench VerifiedLiveCodeBenchSWE-Bench Pro进入编程能力排行榜
Agent
τ²-BenchTerminal Bench 2.0Aider-Polyglot进入 Agent 能力排行榜
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源

大模型性能评测结果

数据来源:DataLearnerAI
排名模型参数(亿)开源情况
1
Gemini 3 Deep Think - 2620
开启思考
84.6048.40————不开源
2
GPT-5.4 Pro
思考水平 · 高
83.3042.70————不开源
3
Gemini 3.1 Pro Preview
思考水平 · 高
77.1044.40————不开源
4
GPT-5.4
77.10—————不开源
5
GPT-5.4
思考水平 · 极高
74.0039.80————不开源
6
Claude Opus 4.6
扩展思考
66.30—99.79———不开源
7
Claude Opus 4.6
思考水平 · 低
64.60—————不开源
8
Claude Sonnet 4.6
开启思考
58.3033.20—79.60——不开源
9
GPT-5.4
思考水平 · 中
55.40—————不开源
10
GPT-5.2 Pro
开启思考
54.2036.60————不开源
11
GPT-5.2
并行 · 深度思考模式
54.20—————不开源
12
GPT-5.2
思考水平 · 极高
52.9034.50100.00———不开源
13
Gemini 3.0 Pro (Preview 11-2025)
并行 · 开启思考
45.1041.00————不开源
14
GPT-5.2
思考水平 · 高
43.30—————不开源
15
Muse Spark
开启思考
42.5042.80————不开源
16
Opus 4.5
扩展思考
37.6030.80————不开源
17
Gemini 3.0 Flash
开启思考
33.6033.7095.2068.70——不开源
18
Gemini 3.0 Pro (Preview 11-2025)
开启思考
31.1037.5095.0076.20——不开源
19
GPT-5.4
思考水平 · 低
29.20—————不开源
20
GPT-5.2
思考水平 · 中
26.70—————不开源
21
GPT-5-Pro
开启思考
18.0030.7096.70———不开源
22
GPT-5.1
思考水平 · 高
17.60—94.0076.30——不开源
23
Grok 4
开启思考
15.9025.4091.7058.60——不开源
24
Claude Sonnet 4.5
开启思考
13.6017.7087.00———不开源
25
Kimi K2.5
开启思考
11.8030.1096.10——10000B免费商用
26
GPT-5
思考水平 · 高
9.90——72.80——不开源
27
GPT-5.2
思考水平 · 低
9.70—————不开源
28
Claude Opus 4
8.6010.7075.5072.50——不开源
29
GPT-5
思考水平 · 中
7.50—————不开源
30
OpenAI o3
开启思考
6.5020.3288.9069.10——不开源
1
Gemini 3 Deep Think - 2620
开启思考
ARC-AGI-284.60
HLE48.40
AIME2025—
SWE-bench Verified—
τ²-Bench—
不开源
2
GPT-5.4 Pro
思考水平 · 高
ARC-AGI-283.30
HLE42.70
AIME2025—
SWE-bench Verified—
τ²-Bench—
不开源
3
Gemini 3.1 Pro Preview
思考水平 · 高
ARC-AGI-277.10
HLE44.40
AIME2025—
SWE-bench Verified—
τ²-Bench—
不开源
4
GPT-5.4
ARC-AGI-277.10
HLE—
AIME2025—
SWE-bench Verified—
τ²-Bench—
不开源
5
GPT-5.4
思考水平 · 极高
ARC-AGI-274.00
HLE39.80
AIME2025—
SWE-bench Verified—
τ²-Bench—
不开源
6
Claude Opus 4.6
扩展思考
ARC-AGI-266.30
HLE—
AIME202599.79
SWE-bench Verified—
τ²-Bench—
不开源
7
Claude Opus 4.6
思考水平 · 低
ARC-AGI-264.60
HLE—
AIME2025—
SWE-bench Verified—
τ²-Bench—
不开源
8
Claude Sonnet 4.6
开启思考
ARC-AGI-258.30
HLE33.20
AIME2025—
SWE-bench Verified79.60
τ²-Bench—
不开源
9
GPT-5.4
思考水平 · 中
ARC-AGI-255.40
HLE—
AIME2025—
SWE-bench Verified—
τ²-Bench—
不开源
10
GPT-5.2 Pro
开启思考
ARC-AGI-254.20
HLE36.60
AIME2025—
SWE-bench Verified—
τ²-Bench—
不开源
11
GPT-5.2
并行 · 深度思考模式
ARC-AGI-254.20
HLE—
AIME2025—
SWE-bench Verified—
τ²-Bench—
不开源
12
GPT-5.2
思考水平 · 极高
ARC-AGI-252.90
HLE34.50
AIME2025100.00
SWE-bench Verified—
τ²-Bench—
不开源
13
Gemini 3.0 Pro (Preview 11-2025)
并行 · 开启思考
ARC-AGI-245.10
HLE41.00
AIME2025—
SWE-bench Verified—
τ²-Bench—
不开源
14
GPT-5.2
思考水平 · 高
ARC-AGI-243.30
HLE—
AIME2025—
SWE-bench Verified—
τ²-Bench—
不开源
15
Muse Spark
开启思考
ARC-AGI-242.50
HLE42.80
AIME2025—
SWE-bench Verified—
τ²-Bench—
不开源
16
Opus 4.5
扩展思考
ARC-AGI-237.60
HLE30.80
AIME2025—
SWE-bench Verified—
τ²-Bench—
不开源
17
Gemini 3.0 Flash
开启思考
ARC-AGI-233.60
HLE33.70
AIME202595.20
SWE-bench Verified68.70
τ²-Bench—
不开源
18
Gemini 3.0 Pro (Preview 11-2025)
开启思考
ARC-AGI-231.10
HLE37.50
AIME202595.00
SWE-bench Verified76.20
τ²-Bench—
不开源
19
GPT-5.4
思考水平 · 低
ARC-AGI-229.20
HLE—
AIME2025—
SWE-bench Verified—
τ²-Bench—
不开源
20
GPT-5.2
思考水平 · 中
ARC-AGI-226.70
HLE—
AIME2025—
SWE-bench Verified—
τ²-Bench—
不开源
21
GPT-5-Pro
开启思考
ARC-AGI-218.00
HLE30.70
AIME202596.70
SWE-bench Verified—
τ²-Bench—
不开源
22
GPT-5.1
思考水平 · 高
ARC-AGI-217.60
HLE—
AIME202594.00
SWE-bench Verified76.30
τ²-Bench—
不开源
23
Grok 4
开启思考
ARC-AGI-215.90
HLE25.40
AIME202591.70
SWE-bench Verified58.60
τ²-Bench—
不开源
24
Claude Sonnet 4.5
开启思考
ARC-AGI-213.60
HLE17.70
AIME202587.00
SWE-bench Verified—
τ²-Bench—
不开源
25
Kimi K2.5
开启思考
10000B
ARC-AGI-211.80
HLE30.10
AIME202596.10
SWE-bench Verified—
τ²-Bench—
免费商用
26
GPT-5
思考水平 · 高
ARC-AGI-29.90
HLE—
AIME2025—
SWE-bench Verified72.80
τ²-Bench—
不开源
27
GPT-5.2
思考水平 · 低
ARC-AGI-29.70
HLE—
AIME2025—
SWE-bench Verified—
τ²-Bench—
不开源
28
Claude Opus 4
ARC-AGI-28.60
HLE10.70
AIME202575.50
SWE-bench Verified72.50
τ²-Bench—
不开源
29
GPT-5
思考水平 · 中
ARC-AGI-27.50
HLE—
AIME2025—
SWE-bench Verified—
τ²-Bench—
不开源
30
OpenAI o3
开启思考
ARC-AGI-26.50
HLE20.32
AIME202588.90
SWE-bench Verified69.10
τ²-Bench—
不开源
排序:
查看全部 346 个模型的 ARC-AGI-2 完整排名