DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

AI大模型评测排行榜

聚合 ARC-AGI-2、AIME 2025、SWE-bench Verified 等主流评测的实时排名,按综合、数学、编程、Agent 等维度快速筛选。

查看评测基准详情数据更新于 2026-06-01 11:41:50

截至 2026年6月,AA 智能指数前列模型包括 Claude Opus 4.8 (max)、GPT-5.5 (xhigh)、GPT-5.5 (high),该指数汇总编程、推理、科学等 10 项标准化评测。

LMArena 文本生成榜当前靠前的模型包括 Claude Opus 4.6 (thinking)、Opus 4.7 (thinking)、Claude Opus 4.6,排名基于真人匿名 A/B 投票。

下方可按数学、编程、Agent 等分类查看单项排名。数据口径说明见 数据方法论,延伸阅读见 大模型分析博客。

综合排名

目前没有一个被普遍认可的"AI 模型综合排名",因此我们选取了两个具有代表性、且切入角度不同的综合榜单并列展示。Artificial Analysis 智能指数(AA Intelligence Index)汇总编程、数学、推理等 10 项标准化评测的跑分,衡量模型的客观能力;LMArena(原 Chatbot Arena)基于全球用户匿名盲测 A/B 投票得出的 Elo 分数,反映真实使用体感。两者分别提供客观基准与主观偏好的视角。

AA Intelligence Index

完整排名

汇总编程、数学、科学、推理、智能体等 10 项标准化评测的综合分数。

数据更新于 2026年06月07日

#模型分数
1
Anthropic
Claude Opus 4.8 (max)Anthropic
61
2
OpenAI
GPT-5.5 (xhigh)OpenAI
60
3
OpenAI
GPT-5.5 (high)OpenAI
59
4
Anthropic
Opus 4.7 (max)Anthropic
57
5
Google Deep Mind
Gemini 3.1 Pro PreviewGoogle Deep Mind
57
6
OpenAI
GPT-5.5 (medium)OpenAI
57
7
阿
Qwen3.7 Max阿里巴巴
57
8
Google Deep Mind
Gemini 3.5 FlashGoogle Deep Mind
55
9
Google
Gemini 3.5 Flash (medium)Google
55
10
MiniMax
MiniMax-M3MiniMax
55
来源:Artificial Analysis

LMArena Text Generation

完整排名

基于匿名众包 A/B 对战的 Elo 评分,反映真实用户对回答质量的偏好。

数据更新于 2026年06月05日

#模型Elo
1
Anthropic
Claude Opus 4.6 (thinking)Anthropic
1504
2
Anthropic
Opus 4.7 (thinking)Anthropic
1501
3
Anthropic
Claude Opus 4.6Anthropic
1498
4
Anthropic
Opus 4.7Anthropic
1493
5
F
Muse SparkFacebook AI研究实验室
1489
6
Google Deep Mind
Gemini 3.1 Pro PreviewGoogle Deep Mind
1488
7
Google Deep Mind
Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind
1486
8
Anthropic
claude-opus-4-8-thinkingAnthropic
1482
9
OpenAI
GPT-5.5 (high)OpenAI
1482
10
OpenAI
GPT-5.4 (high)OpenAI
1479
来源:LMArena

单项评测排名

按数学、编程、Agent 等维度筛选排名。下方可切换评测基准,也可直接进入分类排行榜查看完整排名。 查看全部评测基准。

评测方向
综合排名
ARC-AGI-2HLEMMLU Pro进入全部基准列表
数学
AIME 2025FrontierMathMATH-500进入数学能力排行榜
编程
SWE-bench VerifiedLiveCodeBenchSWE-Bench Pro进入编程能力排行榜
Agent
τ²-BenchTerminal Bench 2.0Aider-Polyglot进入 Agent 能力排行榜
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
来源:全部国产模型

AI 模型推荐

按 SWE-Bench Pro - Public 排序
当前 SOTA
OpenAI

GPT-5

OpenAI

36.30SWE-Bench Pro - Public
查看详情
最佳开源
Google Deep Mind

Gemma 3 - 12B (IT)

Google Deep Mind

—SWE-Bench Pro - Public
查看详情
最佳国产
阿里巴巴

Qwen2.5-3B

阿里巴巴

—SWE-Bench Pro - Public
查看详情

大模型性能评测结果

数据来源:DataLearnerAI

点击任意行查看模型详情;勾选左侧 可对比最多 4 个模型。表中分数为各评测模式中的最高得分。

排名模型
开源情况
OpenAI
GPT-5
OpenAI
35.209.9012.5072.8080.00闭源详情详情
OpenAI
GPT-5-mini
OpenAI
5.00—6.30——闭源详情详情
Google Deep Mind
Gemma 3 - 12B (IT)
Google Deep Mind
—————免费商用详情详情
4
Cursor
Composer 1
Cursor
—————闭源详情详情
5
MistralAI
Mistral Large
MistralAI
—————闭源详情详情
6
xAI
Grok 3 mini
xAI
—————闭源详情详情
7
Facebook AI研究实验室
Llama-3.2-3B
Facebook AI研究实验室
—————免费商用详情详情
8
阿里巴巴
Qwen2.5-3B
阿里巴巴
—————免费商用详情详情
9
Facebook AI研究实验室
Llama3.1-8B
Facebook AI研究实验室
—————免费商用详情详情
10
Google Research
Gemma 2 - 9B
Google Research
—————免费商用详情详情
11
阿里巴巴
Qwen2.5-7B
阿里巴巴
—————免费商用详情详情
12
Facebook AI研究实验室
Llama3.1-70B
Facebook AI研究实验室
—————免费商用详情详情
13
Google Deep Mind
Gemma2-27B
Google Deep Mind
—————免费商用详情详情
14
阿里巴巴
Qwen2.5-72B
阿里巴巴
—————免费商用详情详情
15
Facebook AI研究实验室
Llama3.1-405B
Facebook AI研究实验室
—————免费商用详情详情
16
OpenAI
GPT-4o mini
OpenAI
—————闭源详情详情
17
阿里巴巴
Qwen2.5-14B
阿里巴巴
—————免费商用详情详情
18
Anthropic
Claude 3.5 Haiku
Anthropic
—————闭源详情详情
19
Facebook AI研究实验室
Llama3.1-70B-Instruct
Facebook AI研究实验室
—————免费商用详情详情
20
MistralAI
Mistral-Small-3.1-24B-Instruct-2503
MistralAI
—————免费商用详情详情
21
腾讯AI实验室
Hunyuan-A13B-Instruct
腾讯AI实验室
—————免费商用详情详情
22
阿里巴巴
Qwen2.5-32B
阿里巴巴
—————免费商用详情详情
23
Microsoft Azure
Phi 4 - 14B
Microsoft Azure
—————不可商用详情详情
24
Facebook AI研究实验室
Llama3.1-405B Instruct
Facebook AI研究实验室
—————免费商用详情详情
25
Google Deep Mind
Gemini 1.5 Pro
Google Deep Mind
—————闭源详情详情
GPT-5OpenAI
HLE35.20
ARC-AGI-29.90
FrontierMath - Tier 412.50
SWE-bench Verified72.80
τ²-Bench80.00
闭源
GPT-5-miniOpenAI
HLE5.00
ARC-AGI-2—
FrontierMath - Tier 46.30
SWE-bench Verified—
τ²-Bench—
闭源
Gemma 3 - 12B (IT)Google Deep Mind
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
4
Composer 1Cursor
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
5
Mistral LargeMistralAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
6
Grok 3 minixAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
7
Llama-3.2-3BFacebook AI研究实验室
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
8
Qwen2.5-3B阿里巴巴
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
9
Llama3.1-8BFacebook AI研究实验室
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
10
Gemma 2 - 9BGoogle Research
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
11
Qwen2.5-7B阿里巴巴
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
12
Llama3.1-70BFacebook AI研究实验室
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
13
Gemma2-27BGoogle Deep Mind
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
14
Qwen2.5-72B阿里巴巴
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
15
Llama3.1-405BFacebook AI研究实验室
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
16
GPT-4o miniOpenAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
17
Qwen2.5-14B阿里巴巴
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
18
Claude 3.5 HaikuAnthropic
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
19
Llama3.1-70B-InstructFacebook AI研究实验室
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
20
Mistral-Small-3.1-24B-Instruct-2503MistralAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
21
Hunyuan-A13B-Instruct腾讯AI实验室
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
22
Qwen2.5-32B阿里巴巴
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
23
Phi 4 - 14BMicrosoft Azure
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
不可商用
24
Llama3.1-405B InstructFacebook AI研究实验室
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
25
Gemini 1.5 ProGoogle Deep Mind
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
闭源
排序:

排行榜常见问题

01

排行榜的数据来源是什么?

所有得分来自一手出处:模型官方 model card、技术报告、论文、厂商博客与可复现的第三方评测。每一行均链回对应的模型详情页,可查看原始引用。

02

为什么同一模型在不同基准上分数差异很大?

每个基准测的能力不一样:推理类(HLE、ARC-AGI-2)、数学类(AIME、FrontierMath)、编程类(SWE-bench Verified)、Agent 工具使用类(τ²-Bench)等。模型在某一能力上专门优化后,往往会牺牲另一些能力,因此排行榜按基准分别展示,而不是合并成一个分数。

03

排行榜多久更新一次?

数据每 5 分钟自动重新校验一次;新模型或新评测结果一旦公开就会同步收录。页面顶部的"数据更新于"指示器反映最近一次数据刷新时间。

04

综合排名应该怎么解读?

综合榜聚合了模型在多个核心基准上的位次,可作为初筛工具。但落地选型时建议进入与你业务最相关的单项基准查看,例如 Coding Agent 看 SWE-bench Verified、工具调用场景看 τ²-Bench。

05

开源大模型和闭源 API 模型怎么对比?

使用顶部的"许可"筛选切换为"全部",开源与闭源模型可在同一基准列直接对比。除分数外,还需考虑总持有成本:闭源模型按 API 用量计费,开源模型则需衡量自部署的硬件与运维成本。

探索更多

排行榜只覆盖参与评测的模型。你还可以按模型、机构或评测基准浏览完整内容。

全部 AI 模型

浏览收录的全部模型,按机构、类型、发布时间筛选,不止于评测得分。

进入浏览
全部机构

查看这些模型背后的机构与公司,及其完整的模型阵容。

进入浏览
全部评测基准

深入了解每个评测基准的考察内容、评分方式与完整排名。

进入浏览