DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

AI大模型评测排行榜

聚合 ARC-AGI-2、AIME 2025、SWE-bench Verified 等主流评测的实时排名,按综合、数学、编程、Agent 等维度快速筛选。

查看评测基准详情数据更新于 2026-05-02 07:14:49

截至 2026年5月,AA 智能指数前列模型包括 GPT-5.5 (xhigh)、GPT-5.5 (high)、Opus 4.7 (max),该指数汇总编程、推理、科学等 10 项标准化评测。

LMArena 文本生成榜当前靠前的模型包括 Opus 4.7 (thinking)、Claude Opus 4.6 (thinking)、Claude Opus 4.6,排名基于真人匿名 A/B 投票。

下方可按数学、编程、Agent 等分类查看单项排名。数据口径说明见 数据方法论,延伸阅读见 大模型分析博客。

综合排名

目前没有一个被普遍认可的"AI 模型综合排名",因此我们选取了两个具有代表性、且切入角度不同的综合榜单并列展示。Artificial Analysis 智能指数(AA Intelligence Index)汇总编程、数学、推理等 10 项标准化评测的跑分,衡量模型的客观能力;LMArena(原 Chatbot Arena)基于全球用户匿名盲测 A/B 投票得出的 Elo 分数,反映真实使用体感。两者分别提供客观基准与主观偏好的视角。

AA Intelligence Index

完整排名

汇总编程、数学、科学、推理、智能体等 10 项标准化评测的综合分数。

数据更新于 2026年05月10日

#模型分数
1
OpenAI
GPT-5.5 (xhigh)OpenAI
60
2
OpenAI
GPT-5.5 (high)OpenAI
59
3
Anthropic
Opus 4.7 (max)Anthropic
57
4
Google Deep Mind
Gemini 3.1 Pro PreviewGoogle Deep Mind
57
5
OpenAI
GPT-5.5 (medium)OpenAI
57
6
Moonshot AI
Kimi K2.6Moonshot AI
54
7
X
MiMo-V2.5-ProXiaomi
54
8
OpenAI
GPT-5.3 Codex (xhigh)OpenAI
54
9
xAI
Grok 4.3xAI
53
10
F
Muse SparkFacebook AI研究实验室
52
来源:Artificial Analysis

LMArena Text Generation

完整排名

基于匿名众包 A/B 对战的 Elo 评分,反映真实用户对回答质量的偏好。

数据更新于 2026年05月07日

#模型Elo
1
Anthropic
Opus 4.7 (thinking)Anthropic
1503
2
Anthropic
Claude Opus 4.6 (thinking)Anthropic
1502
3
Anthropic
Claude Opus 4.6Anthropic
1498
4
Google Deep Mind
Gemini 3.1 Pro PreviewGoogle Deep Mind
1492
5
Anthropic
Opus 4.7Anthropic
1491
6
F
Muse SparkFacebook AI研究实验室
1490
7
Google Deep Mind
Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind
1486
8
OpenAI
gpt-5.5-highOpenAI
1484
9
xAI
grok-4.20-beta1xAI
1480
10
OpenAI
gpt-5.2-chat-latest-20260210OpenAI
1477
来源:LMArena

单项评测排名

按数学、编程、Agent 等维度筛选排名。下方可切换评测基准,也可直接进入分类排行榜查看完整排名。 查看全部评测基准。

评测方向
综合排名
ARC-AGI-2HLEMMLU Pro进入全部基准列表
数学
AIME 2025FrontierMathMATH-500进入数学能力排行榜
编程
SWE-bench VerifiedLiveCodeBenchSWE-Bench Pro进入编程能力排行榜
Agent
τ²-BenchTerminal Bench 2.0Aider-Polyglot进入 Agent 能力排行榜
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
来源:全部国产模型

大模型性能评测结果

数据来源:DataLearnerAI
各评测基准展示所有评测模式中的最高得分。点击模型名称可查看不同评测模式的详细结果。
排名模型开源情况
Anthropic
Claude Mythos Preview
Anthropic
64.70——93.90—闭源
Anthropic
Claude Sonnet 4.5
Anthropic
33.6013.604.2082.0084.70闭源
OpenAI
GPT-5.2
OpenAI
45.5054.2018.8080.0082.00闭源
4
Anthropic
Claude Sonnet 4.6
Anthropic
49.0058.308.3079.60—闭源
5
阿里巴巴
Qwen 3.6 Plus Preview
阿里巴巴
50.60——78.80—闭源
6
智谱AI
GLM-5
智谱AI
50.404.902.1077.8089.70免费商用
7
MiniMaxAI
M2.1
MiniMaxAI
22.00——74.80—免费商用
8
StepFunAI
Step 3.5 Flash
StepFunAI
———74.4088.20免费商用
9
智谱AI
GLM-4.7
智谱AI
42.80—2.1073.8087.40免费商用
10
xAI
Grok 4 Heavy
xAI
44.40—2.1073.50—闭源
11
Anthropic
Claude Sonnet 3.7
Anthropic
10.30——70.3061.80闭源
12
阿里巴巴
Qwen3 Max (Preview)
阿里巴巴
11.10——69.6074.00闭源
13
MiniMaxAI
MiniMax M2
MiniMaxAI
12.50——69.4077.20免费商用
14
Moonshot AI
Kimi K2 0905
Moonshot AI
21.70——69.20—免费商用
15
Google Deep Mind
Gemini 3.0 Flash
Google Deep Mind
43.5033.604.2068.7090.20闭源
16
DeepSeek-AI
DeepSeek-V3.1 Terminus
DeepSeek-AI
21.70——68.4037.00免费商用
17
智谱AI
GLM-4.6
智谱AI
30.40—2.1068.0075.90免费商用
18
DeepSeek-AI
DeepSeek-V3.1
DeepSeek-AI
15.90——66.00—免费商用
19
OpenAI
GPT-4.1
OpenAI
3.70——54.6054.70闭源
20
Google Deep Mind
Gemini 2.5 Flash-Preview-09-2025
Google Deep Mind
———54.00—闭源
21
Moonshot AI
Kimi K2
Moonshot AI
4.70—0.0151.8064.30免费商用
22
Anthropic
Claude 3.5 Sonnet New
Anthropic
———49.00—闭源
23
DeepSeek-AI
DeepSeek-V3-0324
DeepSeek-AI
5.20——38.8038.80免费商用
24
OpenAI
GPT-4.5
OpenAI
———38.00—闭源
25
OpenAI
GPT-4o(2024-11-20)
OpenAI
———31.00—闭源
26
OpenAI
GPT-4.1 mini
OpenAI
———23.6053.00闭源
27
阿里巴巴
Qwen3-30B-A3B-2507
阿里巴巴
9.80——22.0049.00免费商用
28
Google Deep Mind
Gemini 2.5 Deep Think
Google Deep Mind
34.80—10.40——闭源
29
DeepMind
Gemma 4 31B
DeepMind
26.50———76.90免费商用
30
xAI
Grok 4 Fast
xAI
20.00————闭源
31
DeepMind
Gemma 4 26B A4B
DeepMind
17.20———68.20免费商用
32
阿里巴巴
Qwen3.6-Max-Preview
阿里巴巴
—————闭源
33
MistralAI
Mistral-7B-Instruct-v0.3
MistralAI
—————免费商用
34
Moonshot AI
Moonlight-16B-A3B-Instruct
Moonshot AI
—————免费商用
35
Facebook AI研究实验室
Llama3.1-8B-Instruct
Facebook AI研究实验室
—————免费商用
36
Tencent ARC
Hunyuan-7B
Tencent ARC
—————免费商用
37
xAI
Grok 3
xAI
—————闭源
38
阿里巴巴
Qwen3-4B-Thinking-2507
阿里巴巴
—————免费商用
39
阿里巴巴
Qwen3-4B-2507
阿里巴巴
—————免费商用
40
OpenAI
GPT-4.1 nano
OpenAI
—————闭源
41
xAI
Grok 2
xAI
—————免费商用
42
阿里巴巴
Qwen3-235B-A22B-2507
阿里巴巴
—1.30———免费商用
43
华为
Pangu Pro MoE
华为
—————免费商用
44
OpenAI
GPT-4o(2025-03-27)
OpenAI
—————闭源
45
DeepMind
Gemini 2.0 Pro Experimental
DeepMind
—————闭源
46
华为
Pangu Embedded
华为
—————免费商用
47
百度
ERNIE-4.5-300B-A47B
百度
—————免费商用
48
阿里巴巴
Qwen2.5-Max
阿里巴巴
—————闭源
49
DeepSeek-AI
DeepSeek-V3
DeepSeek-AI
—————免费商用
50
xAI
Grok-1.5
xAI
—————闭源
Claude Mythos Preview
Anthropic
HLE64.70
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified93.90
τ²-Bench—
闭源
Claude Sonnet 4.5
Anthropic
HLE33.60
ARC-AGI-213.60
FrontierMath - Tier 44.20
SWE-bench Verified82.00
τ²-Bench84.70
闭源
GPT-5.2
OpenAI
HLE45.50
ARC-AGI-254.20
FrontierMath - Tier 418.80
SWE-bench Verified80.00
τ²-Bench82.00
闭源
4
Claude Sonnet 4.6
Anthropic
HLE49.00
ARC-AGI-258.30
FrontierMath - Tier 48.30
SWE-bench Verified79.60
τ²-Bench—
闭源
5
Qwen 3.6 Plus Preview
阿里巴巴
HLE50.60
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified78.80
τ²-Bench—
闭源
6
GLM-5
智谱AI
HLE50.40
ARC-AGI-24.90
FrontierMath - Tier 42.10
SWE-bench Verified77.80
τ²-Bench89.70
免费商用
7
M2.1
MiniMaxAI
HLE22.00
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified74.80
τ²-Bench—
免费商用
8
Step 3.5 Flash
StepFunAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified74.40
τ²-Bench88.20
免费商用
9
GLM-4.7
智谱AI
HLE42.80
ARC-AGI-2—
FrontierMath - Tier 42.10
SWE-bench Verified73.80
τ²-Bench87.40
免费商用
10
Grok 4 Heavy
xAI
HLE44.40
ARC-AGI-2—
FrontierMath - Tier 42.10
SWE-bench Verified73.50
τ²-Bench—
闭源
11
Claude Sonnet 3.7
Anthropic
HLE10.30
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified70.30
τ²-Bench61.80
闭源
12
Qwen3 Max (Preview)
阿里巴巴
HLE11.10
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified69.60
τ²-Bench74.00
闭源
13
MiniMax M2
MiniMaxAI
HLE12.50
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified69.40
τ²-Bench77.20
免费商用
14
Kimi K2 0905
Moonshot AI
HLE21.70
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified69.20
τ²-Bench—
免费商用
15
Gemini 3.0 Flash
Google Deep Mind
HLE43.50
ARC-AGI-233.60
FrontierMath - Tier 44.20
SWE-bench Verified68.70
τ²-Bench90.20
闭源
16
DeepSeek-V3.1 Terminus
DeepSeek-AI
HLE21.70
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified68.40
τ²-Bench37.00
免费商用
17
GLM-4.6
智谱AI
HLE30.40
ARC-AGI-2—
FrontierMath - Tier 42.10
SWE-bench Verified68.00
τ²-Bench75.90
免费商用
18
DeepSeek-V3.1
DeepSeek-AI
HLE15.90
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified66.00
τ²-Bench—
免费商用
19
GPT-4.1
OpenAI
HLE3.70
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified54.60
τ²-Bench54.70
闭源
20
Gemini 2.5 Flash-Preview-09-2025
Google Deep Mind
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified54.00
τ²-Bench—
闭源
21
Kimi K2
Moonshot AI
HLE4.70
ARC-AGI-2—
FrontierMath - Tier 40.01
SWE-bench Verified51.80
τ²-Bench64.30
免费商用
22
Claude 3.5 Sonnet New
Anthropic
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified49.00
τ²-Bench—
闭源
23
DeepSeek-V3-0324
DeepSeek-AI
HLE5.20
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified38.80
τ²-Bench38.80
免费商用
24
GPT-4.5
OpenAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified38.00
τ²-Bench—
闭源
25
GPT-4o(2024-11-20)
OpenAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified31.00
τ²-Bench—
闭源
26
GPT-4.1 mini
OpenAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified23.60
τ²-Bench53.00
闭源
27
Qwen3-30B-A3B-2507
阿里巴巴
HLE9.80
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified22.00
τ²-Bench49.00
免费商用
28
Gemini 2.5 Deep Think
Google Deep Mind
HLE34.80
ARC-AGI-2—
FrontierMath - Tier 410.40
SWE-bench Verified—
τ²-Bench—
闭源
29
Gemma 4 31B
DeepMind
HLE26.50
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench76.90
免费商用
30
Grok 4 Fast
xAI
HLE20.00
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
31
Gemma 4 26B A4B
DeepMind
HLE17.20
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench68.20
免费商用
32
Qwen3.6-Max-Preview
阿里巴巴
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
33
Mistral-7B-Instruct-v0.3
MistralAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
34
Moonlight-16B-A3B-Instruct
Moonshot AI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
35
Llama3.1-8B-Instruct
Facebook AI研究实验室
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
36
Hunyuan-7B
Tencent ARC
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
37
Grok 3
xAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
38
Qwen3-4B-Thinking-2507
阿里巴巴
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
39
Qwen3-4B-2507
阿里巴巴
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
40
GPT-4.1 nano
OpenAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
41
Grok 2
xAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
42
Qwen3-235B-A22B-2507
阿里巴巴
HLE—
ARC-AGI-21.30
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
43
Pangu Pro MoE
华为
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
44
GPT-4o(2025-03-27)
OpenAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
45
Gemini 2.0 Pro Experimental
DeepMind
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
46
Pangu Embedded
华为
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
47
ERNIE-4.5-300B-A47B
百度
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
48
Qwen2.5-Max
阿里巴巴
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
49
DeepSeek-V3
DeepSeek-AI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
50
Grok-1.5
xAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
排序:
已显示 50 / 60 个模型查看 SWE-bench Verified 基准测试完整页面

排行榜常见问题

01

排行榜的数据来源是什么?

所有得分来自一手出处:模型官方 model card、技术报告、论文、厂商博客与可复现的第三方评测。每一行均链回对应的模型详情页,可查看原始引用。

02

为什么同一模型在不同基准上分数差异很大?

每个基准测的能力不一样:推理类(HLE、ARC-AGI-2)、数学类(AIME、FrontierMath)、编程类(SWE-bench Verified)、Agent 工具使用类(τ²-Bench)等。模型在某一能力上专门优化后,往往会牺牲另一些能力,因此排行榜按基准分别展示,而不是合并成一个分数。

03

排行榜多久更新一次?

数据每 5 分钟自动重新校验一次;新模型或新评测结果一旦公开就会同步收录。页面顶部的"数据更新于"指示器反映最近一次数据刷新时间。

04

综合排名应该怎么解读?

综合榜聚合了模型在多个核心基准上的位次,可作为初筛工具。但落地选型时建议进入与你业务最相关的单项基准查看,例如 Coding Agent 看 SWE-bench Verified、工具调用场景看 τ²-Bench。

05

开源大模型和闭源 API 模型怎么对比?

使用顶部的"许可"筛选切换为"全部",开源与闭源模型可在同一基准列直接对比。除分数外,还需考虑总持有成本:闭源模型按 API 用量计费,开源模型则需衡量自部署的硬件与运维成本。