DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

AI大模型评测排行榜

聚合 ARC-AGI-2、AIME 2025、SWE-bench Verified 等主流评测的实时排名,按综合、数学、编程、Agent 等维度快速筛选。

查看评测基准详情数据更新于 2026-06-01 11:41:50

截至 2026年6月,AA 智能指数前列模型包括 Claude Opus 4.8 (max)、GPT-5.5 (xhigh)、GPT-5.5 (high),该指数汇总编程、推理、科学等 10 项标准化评测。

LMArena 文本生成榜当前靠前的模型包括 Claude Opus 4.6 (thinking)、Opus 4.7 (thinking)、Claude Opus 4.6,排名基于真人匿名 A/B 投票。

下方可按数学、编程、Agent 等分类查看单项排名。数据口径说明见 数据方法论,延伸阅读见 大模型分析博客。

综合排名

目前没有一个被普遍认可的"AI 模型综合排名",因此我们选取了两个具有代表性、且切入角度不同的综合榜单并列展示。Artificial Analysis 智能指数(AA Intelligence Index)汇总编程、数学、推理等 10 项标准化评测的跑分,衡量模型的客观能力;LMArena(原 Chatbot Arena)基于全球用户匿名盲测 A/B 投票得出的 Elo 分数,反映真实使用体感。两者分别提供客观基准与主观偏好的视角。

AA Intelligence Index

完整排名

汇总编程、数学、科学、推理、智能体等 10 项标准化评测的综合分数。

数据更新于 2026年06月07日

#模型分数
1
Anthropic
Claude Opus 4.8 (max)Anthropic
61
2
OpenAI
GPT-5.5 (xhigh)OpenAI
60
3
OpenAI
GPT-5.5 (high)OpenAI
59
4
Anthropic
Opus 4.7 (max)Anthropic
57
5
Google Deep Mind
Gemini 3.1 Pro PreviewGoogle Deep Mind
57
6
OpenAI
GPT-5.5 (medium)OpenAI
57
7
阿
Qwen3.7 Max阿里巴巴
57
8
Google Deep Mind
Gemini 3.5 FlashGoogle Deep Mind
55
9
Google
Gemini 3.5 Flash (medium)Google
55
10
MiniMax
MiniMax-M3MiniMax
55
来源:Artificial Analysis

LMArena Text Generation

完整排名

基于匿名众包 A/B 对战的 Elo 评分,反映真实用户对回答质量的偏好。

数据更新于 2026年06月05日

#模型Elo
1
Anthropic
Claude Opus 4.6 (thinking)Anthropic
1504
2
Anthropic
Opus 4.7 (thinking)Anthropic
1501
3
Anthropic
Claude Opus 4.6Anthropic
1498
4
Anthropic
Opus 4.7Anthropic
1493
5
F
Muse SparkFacebook AI研究实验室
1489
6
Google Deep Mind
Gemini 3.1 Pro PreviewGoogle Deep Mind
1488
7
Google Deep Mind
Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind
1486
8
Anthropic
claude-opus-4-8-thinkingAnthropic
1482
9
OpenAI
GPT-5.5 (high)OpenAI
1482
10
OpenAI
GPT-5.4 (high)OpenAI
1479
来源:LMArena

单项评测排名

按数学、编程、Agent 等维度筛选排名。下方可切换评测基准,也可直接进入分类排行榜查看完整排名。 查看全部评测基准。

评测方向
综合排名
ARC-AGI-2HLEMMLU Pro进入全部基准列表
数学
AIME 2025FrontierMathMATH-500进入数学能力排行榜
编程
SWE-bench VerifiedLiveCodeBenchSWE-Bench Pro进入编程能力排行榜
Agent
τ²-BenchTerminal Bench 2.0Aider-Polyglot进入 Agent 能力排行榜
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
来源:全部国产模型

AI 模型推荐

按 MATH-500 排序
当前 SOTA
Google Deep Mind

Gemini-2.5-Pro-Preview-05-06

Google Deep Mind

98.80MATH-500
查看详情
最佳开源

此基准下暂无符合条件的模型。

最佳国产
腾讯AI实验室

Hunyuan-T1

腾讯AI实验室

96.20MATH-500−2.60
查看详情

大模型性能评测结果

数据来源:DataLearnerAI

点击任意行查看模型详情;勾选左侧 可对比最多 4 个模型。表中分数为各评测模式中的最高得分。

排名模型
开源情况
Google Deep Mind
Gemini-2.5-Pro-Preview-05-06
Google Deep Mind
21.60—2.1063.20—闭源详情详情
Google Deep Mind
Gemini 2.5-Pro
Google Deep Mind
21.604.902.1067.20—闭源详情详情
Anthropic
Claude Opus 4
Anthropic
10.708.604.2072.5072.50闭源详情详情
4
OpenAI
OpenAI o3
OpenAI
20.326.502.1069.10—闭源详情详情
5
OpenAI
OpenAI o3-mini (high)
OpenAI
——4.2049.30—闭源详情详情
6
Anthropic
Claude Opus 4.6
Anthropic
53.0066.3022.9080.8491.89闭源详情详情
7
OpenAI
OpenAI o1
OpenAI
9.10——48.90—闭源详情详情
8
腾讯AI实验室
Hunyuan-T1
腾讯AI实验室
—————闭源详情详情
9
Anthropic
Claude Sonnet 3.7-64K Extended Thinking
Anthropic
—————闭源详情详情
10
Moonshot AI
Kimi k1.5 (Long-CoT)
Moonshot AI
—————闭源详情详情
11
OpenAI
OpenAI o3-mini
OpenAI
13.40—4.2040.80—闭源详情详情
12
Moonshot AI
Kimi k1.5 (Short-CoT)
Moonshot AI
—————闭源详情详情
13
Microsoft Azure
Phi-4-instruct (reasoning-trained)
Microsoft Azure
—————闭源详情详情
14
OpenAI
OpenAI o1-mini
OpenAI
—————闭源详情详情
15
Anthropic
Claude Sonnet 4
Anthropic
9.605.90—80.2052.00闭源详情详情
16
Google Deep Mind
Gemini 2.5 Flash-Lite
Google Deep Mind
6.90——27.60—闭源详情详情
17
Facebook AI研究实验室
Muse Spark
Facebook AI研究实验室
58.0042.5014.6077.40—闭源详情详情
18
Anthropic
Claude Opus 4.8
Anthropic
57.90——88.60—闭源详情详情
19
OpenAI
GPT-5.5 Pro
OpenAI
57.2084.6039.60——闭源详情详情
20
Anthropic
Opus 4.7
Anthropic
54.7075.8022.9087.60—闭源详情详情
21
阿里巴巴
Qwen3.7-Max-Preview
阿里巴巴
53.50——80.40—闭源详情详情
22
OpenAI
GPT-5.5
OpenAI
52.2085.0035.40——闭源详情详情
23
OpenAI
GPT-5.2 Pro
OpenAI
50.0054.2031.30——闭源详情详情
24
阿里巴巴
Qwen3-Max-Thinking
阿里巴巴
49.80——75.3082.10闭源详情详情
25
Google Deep Mind
Gemini 3 Deep Think - 2620
Google Deep Mind
48.4084.60———闭源详情详情
26
Anthropic
Opus 4.5
Anthropic
43.2037.604.2080.9081.99闭源详情详情
27
OpenAI
GPT-5.1
OpenAI
42.7017.6012.5076.30—闭源详情详情
28
OpenAI
GPT-5-Pro
OpenAI
42.0018.0014.60——闭源详情详情
29
OpenAI
GPT-5.4 mini
OpenAI
41.50—2.10——闭源详情详情
30
xAI
Grok 4
xAI
38.6015.902.1058.60—闭源详情详情
31
OpenAI
o3-pro
OpenAI
21.00——75.00—闭源详情详情
32
Google Deep Mind
Gemini 2.5 Pro Experimental 03-25
Google Deep Mind
18.80—4.2063.80—闭源详情详情
33
OpenAI
OpenAI o4 - mini
OpenAI
17.70—6.3068.1056.90闭源详情详情
34
xAI
Grok 4.1 Fast
xAI
17.60———82.71闭源详情详情
35
Google Deep Mind
Gemini 2.5 Flash
Google Deep Mind
11.00—4.2050.00—闭源详情详情
36
Cursor
Composer 1.5
Cursor
—————闭源详情详情
37
OpenAI
GPT-5-Nano
OpenAI
——2.10——闭源详情详情
38
OpenAI
GPT-5.1 Instant
OpenAI
—0.00———闭源详情详情
39
xAI
Grok 3.5
xAI
—————闭源详情详情
40
MistralAI
Magistral-Medium-2506
MistralAI
—————闭源详情详情
41
Moonshot AI
Kimi-k1.6-IOI
Moonshot AI
—————闭源详情详情
42
OpenAI
OpenAI o3-mini (medium)
OpenAI
—————闭源详情详情
43
Moonshot AI
Kimi-k1.6-IOI-high
Moonshot AI
—————闭源详情详情
44
xAI
Grok-3 - Reasoning Beta
xAI
—————闭源详情详情
45
Google Deep Mind
Gemini 2.5 Pro Deep Think
Google Deep Mind
——10.40——闭源详情详情
46
xAI
Grok 4.1
xAI
———54.60—闭源详情详情
47
Anthropic
Opus 4.1
Anthropic
——4.2074.50—闭源详情详情
48
腾讯AI实验室
Hunyuan-TurboS
腾讯AI实验室
—————闭源详情详情
Gemini-2.5-Pro-Preview-05-06Google Deep Mind
HLE21.60
ARC-AGI-2—
FrontierMath - Tier 42.10
SWE-bench Verified63.20
τ²-Bench—
闭源
Gemini 2.5-ProGoogle Deep Mind
HLE21.60
ARC-AGI-24.90
FrontierMath - Tier 42.10
SWE-bench Verified67.20
τ²-Bench—
闭源
Claude Opus 4Anthropic
HLE10.70
ARC-AGI-28.60
FrontierMath - Tier 44.20
SWE-bench Verified72.50
τ²-Bench72.50
闭源
4
OpenAI o3OpenAI
HLE20.32
ARC-AGI-26.50
FrontierMath - Tier 42.10
SWE-bench Verified69.10
τ²-Bench—
闭源
5
OpenAI o3-mini (high)OpenAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 44.20
SWE-bench Verified49.30
τ²-Bench—
闭源
6
Claude Opus 4.6Anthropic
HLE53.00
ARC-AGI-266.30
FrontierMath - Tier 422.90
SWE-bench Verified80.84
τ²-Bench91.89
闭源
7
OpenAI o1OpenAI
HLE9.10
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified48.90
τ²-Bench—
闭源
8
Hunyuan-T1腾讯AI实验室
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
9
Claude Sonnet 3.7-64K Extended ThinkingAnthropic
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
10
Kimi k1.5 (Long-CoT)Moonshot AI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
11
OpenAI o3-miniOpenAI
HLE13.40
ARC-AGI-2—
FrontierMath - Tier 44.20
SWE-bench Verified40.80
τ²-Bench—
闭源
12
Kimi k1.5 (Short-CoT)Moonshot AI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
13
Phi-4-instruct (reasoning-trained)Microsoft Azure
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
14
OpenAI o1-miniOpenAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
15
Claude Sonnet 4Anthropic
HLE9.60
ARC-AGI-25.90
FrontierMath - Tier 4—
SWE-bench Verified80.20
τ²-Bench52.00
闭源
16
Gemini 2.5 Flash-LiteGoogle Deep Mind
HLE6.90
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified27.60
τ²-Bench—
闭源
17
Muse SparkFacebook AI研究实验室
HLE58.00
ARC-AGI-242.50
FrontierMath - Tier 414.60
SWE-bench Verified77.40
τ²-Bench—
闭源
18
Claude Opus 4.8Anthropic
HLE57.90
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified88.60
τ²-Bench—
闭源
19
GPT-5.5 ProOpenAI
HLE57.20
ARC-AGI-284.60
FrontierMath - Tier 439.60
SWE-bench Verified—
τ²-Bench—
闭源
20
Opus 4.7Anthropic
HLE54.70
ARC-AGI-275.80
FrontierMath - Tier 422.90
SWE-bench Verified87.60
τ²-Bench—
闭源
21
Qwen3.7-Max-Preview阿里巴巴
HLE53.50
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified80.40
τ²-Bench—
闭源
22
GPT-5.5OpenAI
HLE52.20
ARC-AGI-285.00
FrontierMath - Tier 435.40
SWE-bench Verified—
τ²-Bench—
闭源
23
GPT-5.2 ProOpenAI
HLE50.00
ARC-AGI-254.20
FrontierMath - Tier 431.30
SWE-bench Verified—
τ²-Bench—
闭源
24
Qwen3-Max-Thinking阿里巴巴
HLE49.80
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified75.30
τ²-Bench82.10
闭源
25
Gemini 3 Deep Think - 2620Google Deep Mind
HLE48.40
ARC-AGI-284.60
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
26
Opus 4.5Anthropic
HLE43.20
ARC-AGI-237.60
FrontierMath - Tier 44.20
SWE-bench Verified80.90
τ²-Bench81.99
闭源
27
GPT-5.1OpenAI
HLE42.70
ARC-AGI-217.60
FrontierMath - Tier 412.50
SWE-bench Verified76.30
τ²-Bench—
闭源
28
GPT-5-ProOpenAI
HLE42.00
ARC-AGI-218.00
FrontierMath - Tier 414.60
SWE-bench Verified—
τ²-Bench—
闭源
29
GPT-5.4 miniOpenAI
HLE41.50
ARC-AGI-2—
FrontierMath - Tier 42.10
SWE-bench Verified—
τ²-Bench—
闭源
30
Grok 4xAI
HLE38.60
ARC-AGI-215.90
FrontierMath - Tier 42.10
SWE-bench Verified58.60
τ²-Bench—
闭源
31
o3-proOpenAI
HLE21.00
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified75.00
τ²-Bench—
闭源
32
Gemini 2.5 Pro Experimental 03-25Google Deep Mind
HLE18.80
ARC-AGI-2—
FrontierMath - Tier 44.20
SWE-bench Verified63.80
τ²-Bench—
闭源
33
OpenAI o4 - miniOpenAI
HLE17.70
ARC-AGI-2—
FrontierMath - Tier 46.30
SWE-bench Verified68.10
τ²-Bench56.90
闭源
34
Grok 4.1 FastxAI
HLE17.60
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench82.71
闭源
35
Gemini 2.5 FlashGoogle Deep Mind
HLE11.00
ARC-AGI-2—
FrontierMath - Tier 44.20
SWE-bench Verified50.00
τ²-Bench—
闭源
36
Composer 1.5Cursor
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
37
GPT-5-NanoOpenAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 42.10
SWE-bench Verified—
τ²-Bench—
闭源
38
GPT-5.1 InstantOpenAI
HLE—
ARC-AGI-20.00
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
39
Grok 3.5xAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
40
Magistral-Medium-2506MistralAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
41
Kimi-k1.6-IOIMoonshot AI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
42
OpenAI o3-mini (medium)OpenAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
43
Kimi-k1.6-IOI-highMoonshot AI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
44
Grok-3 - Reasoning BetaxAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
45
Gemini 2.5 Pro Deep ThinkGoogle Deep Mind
HLE—
ARC-AGI-2—
FrontierMath - Tier 410.40
SWE-bench Verified—
τ²-Bench—
闭源
46
Grok 4.1xAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified54.60
τ²-Bench—
闭源
47
Opus 4.1Anthropic
HLE—
ARC-AGI-2—
FrontierMath - Tier 44.20
SWE-bench Verified74.50
τ²-Bench—
闭源
48
Hunyuan-TurboS腾讯AI实验室
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
排序:

排行榜常见问题

01

排行榜的数据来源是什么?

所有得分来自一手出处:模型官方 model card、技术报告、论文、厂商博客与可复现的第三方评测。每一行均链回对应的模型详情页,可查看原始引用。

02

为什么同一模型在不同基准上分数差异很大?

每个基准测的能力不一样:推理类(HLE、ARC-AGI-2)、数学类(AIME、FrontierMath)、编程类(SWE-bench Verified)、Agent 工具使用类(τ²-Bench)等。模型在某一能力上专门优化后,往往会牺牲另一些能力,因此排行榜按基准分别展示,而不是合并成一个分数。

03

排行榜多久更新一次?

数据每 5 分钟自动重新校验一次;新模型或新评测结果一旦公开就会同步收录。页面顶部的"数据更新于"指示器反映最近一次数据刷新时间。

04

综合排名应该怎么解读?

综合榜聚合了模型在多个核心基准上的位次,可作为初筛工具。但落地选型时建议进入与你业务最相关的单项基准查看,例如 Coding Agent 看 SWE-bench Verified、工具调用场景看 τ²-Bench。

05

开源大模型和闭源 API 模型怎么对比?

使用顶部的"许可"筛选切换为"全部",开源与闭源模型可在同一基准列直接对比。除分数外,还需考虑总持有成本:闭源模型按 API 用量计费,开源模型则需衡量自部署的硬件与运维成本。

探索更多

排行榜只覆盖参与评测的模型。你还可以按模型、机构或评测基准浏览完整内容。

全部 AI 模型

浏览收录的全部模型,按机构、类型、发布时间筛选,不止于评测得分。

进入浏览
全部机构

查看这些模型背后的机构与公司,及其完整的模型阵容。

进入浏览
全部评测基准

深入了解每个评测基准的考察内容、评分方式与完整排名。

进入浏览