DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

AI大模型评测排行榜

聚合 ARC-AGI-2、AIME 2025、SWE-bench Verified 等主流评测的实时排名,按综合、数学、编程、Agent 等维度快速筛选。

查看评测基准详情数据更新于 2026-04-25 14:44:58

截至 2026年4月,AA 智能指数前列模型包括 GPT-5.5 (xhigh)、GPT-5.5 (high)、Opus 4.7 (max),该指数汇总编程、推理、科学等 10 项标准化评测。

LMArena 文本生成榜当前靠前的模型包括 Opus 4.7 (thinking)、Claude Opus 4.6 (thinking)、Claude Opus 4.6,排名基于真人匿名 A/B 投票。

下方可按数学、编程、Agent 等分类查看单项排名。数据口径说明见 数据方法论,延伸阅读见 大模型分析博客。

综合排名

目前没有一个被普遍认可的"AI 模型综合排名",因此我们选取了两个具有代表性、且切入角度不同的综合榜单并列展示。Artificial Analysis 智能指数(AA Intelligence Index)汇总编程、数学、推理等 10 项标准化评测的跑分,衡量模型的客观能力;LMArena(原 Chatbot Arena)基于全球用户匿名盲测 A/B 投票得出的 Elo 分数,反映真实使用体感。两者分别提供客观基准与主观偏好的视角。

AA Intelligence Index

完整排名

汇总编程、数学、科学、推理、智能体等 10 项标准化评测的综合分数。

数据更新于 2026年04月25日

#模型分数
1
OpenAI
GPT-5.5 (xhigh)OpenAI
60
2
OpenAI
GPT-5.5 (high)OpenAI
59
3
Anthropic
Opus 4.7 (max)Anthropic
57
4
Google Deep Mind
Gemini 3.1 Pro PreviewGoogle Deep Mind
57
5
OpenAI
GPT-5.4 (xhigh)OpenAI
57
6
OpenAI
GPT-5.5 (medium)OpenAI
57
7
Moonshot AI
Kimi K2.6Moonshot AI
54
8
X
MiMo-V2.5-ProXiaomi
54
9
OpenAI
GPT-5.3 Codex (xhigh)OpenAI
54
10
F
Muse SparkFacebook AI研究实验室
52
来源:Artificial Analysis

LMArena Text Generation

完整排名

基于匿名众包 A/B 对战的 Elo 评分,反映真实用户对回答质量的偏好。

数据更新于 2026年04月24日

#模型Elo
1
Anthropic
Opus 4.7 (thinking)Anthropic
1503
2
Anthropic
Claude Opus 4.6 (thinking)Anthropic
1503
3
Anthropic
Claude Opus 4.6Anthropic
1496
4
Anthropic
Opus 4.7Anthropic
1494
5
Google Deep Mind
Gemini 3.1 Pro PreviewGoogle Deep Mind
1493
6
F
Muse SparkFacebook AI研究实验室
1492
7
Google Deep Mind
Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind
1486
8
xAI
grok-4.20-beta1xAI
1482
9
OpenAI
gpt-5.4-highOpenAI
1481
10
xAI
grok-4.20-beta-0309-reasoningxAI
1479
来源:LMArena

单项评测排名

按数学、编程、Agent 等维度筛选排名。下方可切换评测基准,也可直接进入分类排行榜查看完整排名。 查看全部评测基准。

评测方向
综合排名
ARC-AGI-2HLEMMLU Pro进入全部基准列表
数学
AIME 2025FrontierMathMATH-500进入数学能力排行榜
编程
SWE-bench VerifiedLiveCodeBenchSWE-Bench Pro进入编程能力排行榜
Agent
τ²-BenchTerminal Bench 2.0Aider-Polyglot进入 Agent 能力排行榜
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源

大模型性能评测结果

数据来源:DataLearnerAI
排名模型参数(亿)开源情况
1
Claude Mythos Preview
扩展思考工具
64.70——93.90——不开源
2
GPT-5.4 Pro
思考水平 · 高工具
58.70—————不开源
3
Muse Spark
并行 · 深度思考模式
58.00—————不开源
4
GPT-5.5 Pro
思考水平 · 极高工具
57.20—39.60———不开源
5
Claude Mythos Preview
扩展思考
56.80—————不开源
6
Opus 4.7
扩展思考工具
54.70——87.60——不开源
7
Kimi K2.6
开启思考工具联网
54.00————10000B免费商用
8
Claude Opus 4.6
扩展思考工具联网
53.00—————不开源
9
GLM 5.1
开启思考工具
52.30————754B免费商用
10
GPT-5.5
思考水平 · 高工具
52.20—35.40———不开源
11
GPT-5.4
思考水平 · 极高工具
52.10—————不开源
12
Gemini 3.1 Pro Preview
思考水平 · 高工具
51.40——80.6090.80—不开源
13
Kimi K2 Thinking
并行 · 开启思考工具
51.00————10400B免费商用
14
Qwen 3.6 Plus Preview
开启思考工具
50.60——78.80——不开源
15
GLM-5
开启思考工具
50.40———89.707440B免费商用
16
Muse Spark
开启思考工具
50.40——77.40——不开源
17
GPT-5.2 Pro
开启思考工具
50.00—————不开源
18
Qwen3-Max-Thinking
开启思考工具
49.80———82.1010000B不开源
19
Claude Sonnet 4.6
开启思考工具
49.00—————不开源
20
Qwen3.5-27B
开启思考工具
48.50———79.00270B免费商用
21
Gemini 3 Deep Think - 2620
开启思考
48.4084.60————不开源
22
Qwen3.5-397B-A17B
开启思考工具联网
48.30————397B免费商用
23
DeepSeek-V4-Pro
思考水平 · 极高工具
48.20——80.60—16000B免费商用
24
Opus 4.7
扩展思考
46.90—————不开源
25
Gemini 3.0 Pro (Preview 11-2025)
思考水平 · 高工具
45.80—————不开源
26
GPT-5.2
深度思考模式工具联网
45.50—————不开源
27
DeepSeek-V4-Flash
思考水平 · 极高工具
45.10——79.00—2840B免费商用
28
Kimi K2 Thinking
开启思考工具
44.90——71.30—10400B免费商用
29
DeepSeek-V4-Pro
思考水平 · 高工具
44.70——79.40—16000B免费商用
30
Gemini 3.1 Pro Preview
思考水平 · 高
44.4077.10————不开源
1
Claude Mythos Preview
扩展思考工具
HLE64.70
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified93.90
τ²-Bench—
不开源
2
GPT-5.4 Pro
思考水平 · 高工具
HLE58.70
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
不开源
3
Muse Spark
并行 · 深度思考模式
HLE58.00
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
不开源
4
GPT-5.5 Pro
思考水平 · 极高工具
HLE57.20
ARC-AGI-2—
FrontierMath - Tier 439.60
SWE-bench Verified—
τ²-Bench—
不开源
5
Claude Mythos Preview
扩展思考
HLE56.80
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
不开源
6
Opus 4.7
扩展思考工具
HLE54.70
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified87.60
τ²-Bench—
不开源
7
Kimi K2.6
开启思考工具联网
10000B
HLE54.00
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
8
Claude Opus 4.6
扩展思考工具联网
HLE53.00
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
不开源
9
GLM 5.1
开启思考工具
754B
HLE52.30
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
10
GPT-5.5
思考水平 · 高工具
HLE52.20
ARC-AGI-2—
FrontierMath - Tier 435.40
SWE-bench Verified—
τ²-Bench—
不开源
11
GPT-5.4
思考水平 · 极高工具
HLE52.10
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
不开源
12
Gemini 3.1 Pro Preview
思考水平 · 高工具
HLE51.40
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified80.60
τ²-Bench90.80
不开源
13
Kimi K2 Thinking
并行 · 开启思考工具
10400B
HLE51.00
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
14
Qwen 3.6 Plus Preview
开启思考工具
HLE50.60
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified78.80
τ²-Bench—
不开源
15
GLM-5
开启思考工具
7440B
HLE50.40
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench89.70
免费商用
16
Muse Spark
开启思考工具
HLE50.40
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified77.40
τ²-Bench—
不开源
17
GPT-5.2 Pro
开启思考工具
HLE50.00
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
不开源
18
Qwen3-Max-Thinking
开启思考工具
10000B
HLE49.80
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench82.10
不开源
19
Claude Sonnet 4.6
开启思考工具
HLE49.00
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
不开源
20
Qwen3.5-27B
开启思考工具
270B
HLE48.50
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench79.00
免费商用
21
Gemini 3 Deep Think - 2620
开启思考
HLE48.40
ARC-AGI-284.60
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
不开源
22
Qwen3.5-397B-A17B
开启思考工具联网
397B
HLE48.30
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
23
DeepSeek-V4-Pro
思考水平 · 极高工具
16000B
HLE48.20
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified80.60
τ²-Bench—
免费商用
24
Opus 4.7
扩展思考
HLE46.90
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
不开源
25
Gemini 3.0 Pro (Preview 11-2025)
思考水平 · 高工具
HLE45.80
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
不开源
26
GPT-5.2
深度思考模式工具联网
HLE45.50
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
不开源
27
DeepSeek-V4-Flash
思考水平 · 极高工具
2840B
HLE45.10
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified79.00
τ²-Bench—
免费商用
28
Kimi K2 Thinking
开启思考工具
10400B
HLE44.90
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified71.30
τ²-Bench—
免费商用
29
DeepSeek-V4-Pro
思考水平 · 高工具
16000B
HLE44.70
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified79.40
τ²-Bench—
免费商用
30
Gemini 3.1 Pro Preview
思考水平 · 高
HLE44.40
ARC-AGI-277.10
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
不开源
排序:
查看全部 367 个模型的 HLE 完整排名