DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

AI大模型评测排行榜

聚合 ARC-AGI-2、AIME 2025、SWE-bench Verified 等主流评测的实时排名,按综合、数学、编程、Agent 等维度快速筛选。

查看评测基准详情数据更新于 2026-05-02 07:14:49

截至 2026年5月,AA 智能指数前列模型包括 GPT-5.5 (xhigh)、GPT-5.5 (high)、Opus 4.7 (max),该指数汇总编程、推理、科学等 10 项标准化评测。

LMArena 文本生成榜当前靠前的模型包括 Opus 4.7 (thinking)、Claude Opus 4.6 (thinking)、Claude Opus 4.6,排名基于真人匿名 A/B 投票。

下方可按数学、编程、Agent 等分类查看单项排名。数据口径说明见 数据方法论,延伸阅读见 大模型分析博客。

综合排名

目前没有一个被普遍认可的"AI 模型综合排名",因此我们选取了两个具有代表性、且切入角度不同的综合榜单并列展示。Artificial Analysis 智能指数(AA Intelligence Index)汇总编程、数学、推理等 10 项标准化评测的跑分,衡量模型的客观能力;LMArena(原 Chatbot Arena)基于全球用户匿名盲测 A/B 投票得出的 Elo 分数,反映真实使用体感。两者分别提供客观基准与主观偏好的视角。

AA Intelligence Index

完整排名

汇总编程、数学、科学、推理、智能体等 10 项标准化评测的综合分数。

数据更新于 2026年05月10日

#模型分数
1
OpenAI
GPT-5.5 (xhigh)OpenAI
60
2
OpenAI
GPT-5.5 (high)OpenAI
59
3
Anthropic
Opus 4.7 (max)Anthropic
57
4
Google Deep Mind
Gemini 3.1 Pro PreviewGoogle Deep Mind
57
5
OpenAI
GPT-5.5 (medium)OpenAI
57
6
Moonshot AI
Kimi K2.6Moonshot AI
54
7
X
MiMo-V2.5-ProXiaomi
54
8
OpenAI
GPT-5.3 Codex (xhigh)OpenAI
54
9
xAI
Grok 4.3xAI
53
10
F
Muse SparkFacebook AI研究实验室
52
来源:Artificial Analysis

LMArena Text Generation

完整排名

基于匿名众包 A/B 对战的 Elo 评分,反映真实用户对回答质量的偏好。

数据更新于 2026年05月07日

#模型Elo
1
Anthropic
Opus 4.7 (thinking)Anthropic
1503
2
Anthropic
Claude Opus 4.6 (thinking)Anthropic
1502
3
Anthropic
Claude Opus 4.6Anthropic
1498
4
Google Deep Mind
Gemini 3.1 Pro PreviewGoogle Deep Mind
1492
5
Anthropic
Opus 4.7Anthropic
1491
6
F
Muse SparkFacebook AI研究实验室
1490
7
Google Deep Mind
Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind
1486
8
OpenAI
gpt-5.5-highOpenAI
1484
9
xAI
grok-4.20-beta1xAI
1480
10
OpenAI
gpt-5.2-chat-latest-20260210OpenAI
1477
来源:LMArena

单项评测排名

按数学、编程、Agent 等维度筛选排名。下方可切换评测基准,也可直接进入分类排行榜查看完整排名。 查看全部评测基准。

评测方向
综合排名
ARC-AGI-2HLEMMLU Pro进入全部基准列表
数学
AIME 2025FrontierMathMATH-500进入数学能力排行榜
编程
SWE-bench VerifiedLiveCodeBenchSWE-Bench Pro进入编程能力排行榜
Agent
τ²-BenchTerminal Bench 2.0Aider-Polyglot进入 Agent 能力排行榜
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
来源:全部国产模型

大模型性能评测结果

数据来源:DataLearnerAI
各评测基准展示所有评测模式中的最高得分。点击模型名称可查看不同评测模式的详细结果。
排名模型开源情况
Anthropic
Opus 4.7
Anthropic
54.7075.8022.9087.60—闭源
Anthropic
Opus 4.5
Anthropic
43.2037.604.2080.9081.99闭源
Anthropic
Claude Opus 4.6
Anthropic
53.0066.3022.9080.8491.89闭源
4
DeepSeek-AI
DeepSeek-V4-Pro
DeepSeek-AI
48.20——80.60—免费商用
5
Anthropic
Claude Sonnet 4
Anthropic
9.605.90—80.2052.00闭源
6
Moonshot AI
Kimi K2.6
Moonshot AI
54.00——80.20—免费商用
7
MiniMaxAI
MiniMax M2.5
MiniMaxAI
19.404.90—80.20—免费商用
8
DeepSeek-AI
DeepSeek-V4-Flash
DeepSeek-AI
45.10——79.00—免费商用
9
Facebook AI研究实验室
Muse Spark
Facebook AI研究实验室
58.0042.5014.6077.40—闭源
10
阿里巴巴
Qwen3.6-27B
阿里巴巴
24.00——77.20—免费商用
11
OpenAI
GPT-5.1
OpenAI
42.7017.6012.5076.30—闭源
12
阿里巴巴
Qwen3-Max-Thinking
阿里巴巴
49.80——75.3082.10闭源
13
OpenAI
o3-pro
OpenAI
21.00——75.00—闭源
14
Anthropic
Opus 4.1
Anthropic
——4.2074.50—闭源
15
阿里巴巴
Qwen3.6-35B-A3B
阿里巴巴
21.40——73.40—免费商用
16
DeepSeek-AI
DeepSeek V3.2
DeepSeek-AI
25.104.002.1073.1080.30免费商用
17
Anthropic
Claude Opus 4
Anthropic
10.708.604.2072.5072.50闭源
18
阿里巴巴
Qwen3.5-27B
阿里巴巴
48.50——72.4079.00免费商用
19
Moonshot AI
Kimi K2 Thinking
Moonshot AI
51.00——71.30—免费商用
20
OpenAI
OpenAI o3
OpenAI
20.326.502.1069.10—闭源
21
OpenAI
OpenAI o4 - mini
OpenAI
17.70—6.3068.1056.90闭源
22
DeepSeek-AI
DeepSeek V3.2-Exp
DeepSeek-AI
20.30——67.8066.70免费商用
23
Google Deep Mind
Gemini 2.5-Pro
Google Deep Mind
21.604.902.1067.20—闭源
24
智谱AI
GLM-4.5
智谱AI
14.40——64.20—免费商用
25
Google Deep Mind
Gemini 2.5 Pro Experimental 03-25
Google Deep Mind
18.80—4.2063.80—闭源
26
Google Deep Mind
Gemini-2.5-Pro-Preview-05-06
Google Deep Mind
21.60—2.1063.20—闭源
27
OpenAI
GPT OSS 120B
OpenAI
19.00——60.10—免费商用
28
智谱AI
GLM-4.7-Flash
智谱AI
14.40——59.2079.50免费商用
29
xAI
Grok 4
xAI
38.6015.902.1058.60—闭源
30
DeepSeek-AI
DeepSeek-R1-0528
DeepSeek-AI
17.701.30—57.60—免费商用
31
智谱AI
GLM-4.5-Air
智谱AI
10.60——57.60—免费商用
32
MiniMaxAI
MiniMax-M1-80k
MiniMaxAI
8.40——56.00—免费商用
33
MiniMaxAI
MiniMax-M1-40k
MiniMaxAI
7.20——55.60—免费商用
34
xAI
Grok 4.1
xAI
———54.60—闭源
35
Google Deep Mind
Gemini 2.5 Flash
Google Deep Mind
11.00—4.2050.00—闭源
36
OpenAI
OpenAI o3-mini (high)
OpenAI
——4.2049.30—闭源
37
DeepSeek-AI
DeepSeek-R1
DeepSeek-AI
———49.20—免费商用
38
OpenAI
OpenAI o1
OpenAI
9.10——48.90—闭源
39
OpenAI
OpenAI o3-mini
OpenAI
13.40—4.2040.80—闭源
40
阿里巴巴
Qwen3-235B-A22B
阿里巴巴
7.60——34.4034.40免费商用
41
OpenAI
GPT OSS 20B
OpenAI
17.30——34.0047.70免费商用
42
Google Deep Mind
Gemini 2.5 Flash-Lite
Google Deep Mind
6.90——27.60—闭源
43
OpenAI
GPT-5.5 Pro
OpenAI
57.2084.6039.60——闭源
44
智谱AI
GLM 5.1
智谱AI
52.30————免费商用
45
OpenAI
GPT-5.5
OpenAI
52.2085.0035.40——闭源
46
OpenAI
GPT-5.2 Pro
OpenAI
50.0054.2031.30——闭源
47
Google Deep Mind
Gemini 3 Deep Think - 2620
Google Deep Mind
48.4084.60———闭源
48
OpenAI
GPT-5-Pro
OpenAI
42.0018.0014.60——闭源
49
OpenAI
GPT-5.4 mini
OpenAI
41.50—2.10——闭源
50
DeepSeek-AI
DeepSeek V3.2 Speciale
DeepSeek-AI
30.60————免费商用
Opus 4.7
Anthropic
HLE54.70
ARC-AGI-275.80
FrontierMath - Tier 422.90
SWE-bench Verified87.60
τ²-Bench—
闭源
Opus 4.5
Anthropic
HLE43.20
ARC-AGI-237.60
FrontierMath - Tier 44.20
SWE-bench Verified80.90
τ²-Bench81.99
闭源
Claude Opus 4.6
Anthropic
HLE53.00
ARC-AGI-266.30
FrontierMath - Tier 422.90
SWE-bench Verified80.84
τ²-Bench91.89
闭源
4
DeepSeek-V4-Pro
DeepSeek-AI
HLE48.20
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified80.60
τ²-Bench—
免费商用
5
Claude Sonnet 4
Anthropic
HLE9.60
ARC-AGI-25.90
FrontierMath - Tier 4—
SWE-bench Verified80.20
τ²-Bench52.00
闭源
6
Kimi K2.6
Moonshot AI
HLE54.00
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified80.20
τ²-Bench—
免费商用
7
MiniMax M2.5
MiniMaxAI
HLE19.40
ARC-AGI-24.90
FrontierMath - Tier 4—
SWE-bench Verified80.20
τ²-Bench—
免费商用
8
DeepSeek-V4-Flash
DeepSeek-AI
HLE45.10
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified79.00
τ²-Bench—
免费商用
9
Muse Spark
Facebook AI研究实验室
HLE58.00
ARC-AGI-242.50
FrontierMath - Tier 414.60
SWE-bench Verified77.40
τ²-Bench—
闭源
10
Qwen3.6-27B
阿里巴巴
HLE24.00
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified77.20
τ²-Bench—
免费商用
11
GPT-5.1
OpenAI
HLE42.70
ARC-AGI-217.60
FrontierMath - Tier 412.50
SWE-bench Verified76.30
τ²-Bench—
闭源
12
Qwen3-Max-Thinking
阿里巴巴
HLE49.80
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified75.30
τ²-Bench82.10
闭源
13
o3-pro
OpenAI
HLE21.00
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified75.00
τ²-Bench—
闭源
14
Opus 4.1
Anthropic
HLE—
ARC-AGI-2—
FrontierMath - Tier 44.20
SWE-bench Verified74.50
τ²-Bench—
闭源
15
Qwen3.6-35B-A3B
阿里巴巴
HLE21.40
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified73.40
τ²-Bench—
免费商用
16
DeepSeek V3.2
DeepSeek-AI
HLE25.10
ARC-AGI-24.00
FrontierMath - Tier 42.10
SWE-bench Verified73.10
τ²-Bench80.30
免费商用
17
Claude Opus 4
Anthropic
HLE10.70
ARC-AGI-28.60
FrontierMath - Tier 44.20
SWE-bench Verified72.50
τ²-Bench72.50
闭源
18
Qwen3.5-27B
阿里巴巴
HLE48.50
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified72.40
τ²-Bench79.00
免费商用
19
Kimi K2 Thinking
Moonshot AI
HLE51.00
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified71.30
τ²-Bench—
免费商用
20
OpenAI o3
OpenAI
HLE20.32
ARC-AGI-26.50
FrontierMath - Tier 42.10
SWE-bench Verified69.10
τ²-Bench—
闭源
21
OpenAI o4 - mini
OpenAI
HLE17.70
ARC-AGI-2—
FrontierMath - Tier 46.30
SWE-bench Verified68.10
τ²-Bench56.90
闭源
22
DeepSeek V3.2-Exp
DeepSeek-AI
HLE20.30
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified67.80
τ²-Bench66.70
免费商用
23
Gemini 2.5-Pro
Google Deep Mind
HLE21.60
ARC-AGI-24.90
FrontierMath - Tier 42.10
SWE-bench Verified67.20
τ²-Bench—
闭源
24
GLM-4.5
智谱AI
HLE14.40
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified64.20
τ²-Bench—
免费商用
25
Gemini 2.5 Pro Experimental 03-25
Google Deep Mind
HLE18.80
ARC-AGI-2—
FrontierMath - Tier 44.20
SWE-bench Verified63.80
τ²-Bench—
闭源
26
Gemini-2.5-Pro-Preview-05-06
Google Deep Mind
HLE21.60
ARC-AGI-2—
FrontierMath - Tier 42.10
SWE-bench Verified63.20
τ²-Bench—
闭源
27
GPT OSS 120B
OpenAI
HLE19.00
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified60.10
τ²-Bench—
免费商用
28
GLM-4.7-Flash
智谱AI
HLE14.40
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified59.20
τ²-Bench79.50
免费商用
29
Grok 4
xAI
HLE38.60
ARC-AGI-215.90
FrontierMath - Tier 42.10
SWE-bench Verified58.60
τ²-Bench—
闭源
30
DeepSeek-R1-0528
DeepSeek-AI
HLE17.70
ARC-AGI-21.30
FrontierMath - Tier 4—
SWE-bench Verified57.60
τ²-Bench—
免费商用
31
GLM-4.5-Air
智谱AI
HLE10.60
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified57.60
τ²-Bench—
免费商用
32
MiniMax-M1-80k
MiniMaxAI
HLE8.40
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified56.00
τ²-Bench—
免费商用
33
MiniMax-M1-40k
MiniMaxAI
HLE7.20
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified55.60
τ²-Bench—
免费商用
34
Grok 4.1
xAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified54.60
τ²-Bench—
闭源
35
Gemini 2.5 Flash
Google Deep Mind
HLE11.00
ARC-AGI-2—
FrontierMath - Tier 44.20
SWE-bench Verified50.00
τ²-Bench—
闭源
36
OpenAI o3-mini (high)
OpenAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 44.20
SWE-bench Verified49.30
τ²-Bench—
闭源
37
DeepSeek-R1
DeepSeek-AI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified49.20
τ²-Bench—
免费商用
38
OpenAI o1
OpenAI
HLE9.10
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified48.90
τ²-Bench—
闭源
39
OpenAI o3-mini
OpenAI
HLE13.40
ARC-AGI-2—
FrontierMath - Tier 44.20
SWE-bench Verified40.80
τ²-Bench—
闭源
40
Qwen3-235B-A22B
阿里巴巴
HLE7.60
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified34.40
τ²-Bench34.40
免费商用
41
GPT OSS 20B
OpenAI
HLE17.30
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified34.00
τ²-Bench47.70
免费商用
42
Gemini 2.5 Flash-Lite
Google Deep Mind
HLE6.90
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified27.60
τ²-Bench—
闭源
43
GPT-5.5 Pro
OpenAI
HLE57.20
ARC-AGI-284.60
FrontierMath - Tier 439.60
SWE-bench Verified—
τ²-Bench—
闭源
44
GLM 5.1
智谱AI
HLE52.30
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
45
GPT-5.5
OpenAI
HLE52.20
ARC-AGI-285.00
FrontierMath - Tier 435.40
SWE-bench Verified—
τ²-Bench—
闭源
46
GPT-5.2 Pro
OpenAI
HLE50.00
ARC-AGI-254.20
FrontierMath - Tier 431.30
SWE-bench Verified—
τ²-Bench—
闭源
47
Gemini 3 Deep Think - 2620
Google Deep Mind
HLE48.40
ARC-AGI-284.60
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
48
GPT-5-Pro
OpenAI
HLE42.00
ARC-AGI-218.00
FrontierMath - Tier 414.60
SWE-bench Verified—
τ²-Bench—
闭源
49
GPT-5.4 mini
OpenAI
HLE41.50
ARC-AGI-2—
FrontierMath - Tier 42.10
SWE-bench Verified—
τ²-Bench—
闭源
50
DeepSeek V3.2 Speciale
DeepSeek-AI
HLE30.60
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
排序:
已显示 50 / 80 个模型查看 SWE-bench Verified 基准测试完整页面

排行榜常见问题

01

排行榜的数据来源是什么?

所有得分来自一手出处:模型官方 model card、技术报告、论文、厂商博客与可复现的第三方评测。每一行均链回对应的模型详情页,可查看原始引用。

02

为什么同一模型在不同基准上分数差异很大?

每个基准测的能力不一样:推理类(HLE、ARC-AGI-2)、数学类(AIME、FrontierMath)、编程类(SWE-bench Verified)、Agent 工具使用类(τ²-Bench)等。模型在某一能力上专门优化后,往往会牺牲另一些能力,因此排行榜按基准分别展示,而不是合并成一个分数。

03

排行榜多久更新一次?

数据每 5 分钟自动重新校验一次;新模型或新评测结果一旦公开就会同步收录。页面顶部的"数据更新于"指示器反映最近一次数据刷新时间。

04

综合排名应该怎么解读?

综合榜聚合了模型在多个核心基准上的位次,可作为初筛工具。但落地选型时建议进入与你业务最相关的单项基准查看,例如 Coding Agent 看 SWE-bench Verified、工具调用场景看 τ²-Bench。

05

开源大模型和闭源 API 模型怎么对比?

使用顶部的"许可"筛选切换为"全部",开源与闭源模型可在同一基准列直接对比。除分数外,还需考虑总持有成本:闭源模型按 API 用量计费,开源模型则需衡量自部署的硬件与运维成本。