DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

开源大模型排行榜

聚合开源与开放权重大模型在主流评测基准上的排名,并集中对比得分、参数规模与许可证信息。

查看评测基准详情数据更新于 2026-06-13 11:57:39

综合排名

目前没有一个被普遍认可的"AI 模型综合排名",因此我们选取了两个具有代表性、且切入角度不同的综合榜单并列展示。Artificial Analysis 智能指数(AA Intelligence Index)汇总编程、数学、推理等 10 项标准化评测的跑分,衡量模型的客观能力;LMArena(原 Chatbot Arena)基于全球用户匿名盲测 A/B 投票得出的 Elo 分数,反映真实使用体感。两者分别提供客观基准与主观偏好的视角。

AA Intelligence Index

完整排名

汇总编程、数学、科学、推理、智能体等 10 项标准化评测的综合分数。

数据更新于 2026年06月13日

#模型分数
1
Anthropic
Claude Fable 5 (with fallback)Anthropic
65
2
Anthropic
Claude Opus 4.8 (max)Anthropic
61
3
OpenAI
GPT-5.5 (xhigh)OpenAI
60
4
OpenAI
GPT-5.5 (high)OpenAI
59
5
Anthropic
Opus 4.7 (max)Anthropic
57
6
Google Deep Mind
Gemini 3.1 Pro PreviewGoogle Deep Mind
57
7
OpenAI
GPT-5.5 (medium)OpenAI
57
8
阿
Qwen3.7 Max阿里巴巴
57
9
Google Deep Mind
Gemini 3.5 FlashGoogle Deep Mind
55
10
Google
Gemini 3.5 Flash (medium)Google
55
来源:Artificial Analysis

LMArena Text Generation

完整排名

基于匿名众包 A/B 对战的 Elo 评分,反映真实用户对回答质量的偏好。

数据更新于 2026年06月10日

#模型Elo
1
Anthropic
claude-fable-5Anthropic
1510
2
Anthropic
Claude Opus 4.6 (thinking)Anthropic
1504
3
Anthropic
Opus 4.7 (thinking)Anthropic
1502
4
Anthropic
Claude Opus 4.6Anthropic
1498
5
Anthropic
Opus 4.7Anthropic
1492
6
F
Muse SparkFacebook AI研究实验室
1487
7
Google Deep Mind
Gemini 3.1 Pro PreviewGoogle Deep Mind
1487
8
Google Deep Mind
Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind
1486
9
Anthropic
claude-opus-4-8-thinkingAnthropic
1486
10
OpenAI
GPT-5.5 (high)OpenAI
1481
来源:LMArena

单项评测排名

按数学、编程、Agent 等维度筛选排名。下方可切换评测基准,也可直接进入分类排行榜查看完整排名。 查看全部评测基准。

评测方向
综合排名
ARC-AGI-2HLEMMLU Pro进入全部基准列表
数学
AIME 2025FrontierMathMATH-500进入数学能力排行榜
编程
SWE-bench VerifiedLiveCodeBenchSWE-Bench Pro进入编程能力排行榜
Agent
τ²-BenchTerminal Bench 2.0Aider-Polyglot进入 Agent 能力排行榜
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
来源:全部国产模型

AI 模型推荐

按 Terminal Bench 2.0 排序
当前 SOTA
DeepSeek-AI

DeepSeek-V4-Pro

DeepSeek-AI

67.90Terminal Bench 2.0
查看详情
最佳开源
Moonshot AI

Kimi K2.6

Moonshot AI

66.70Terminal Bench 2.0−1.20
查看详情
最佳国产
智谱AI

GLM 5.1

智谱AI

63.50Terminal Bench 2.0−4.40
查看详情

大模型性能评测结果

数据来源:DataLearnerAI

点击任意行查看模型详情;勾选左侧 可对比最多 4 个模型。表中分数为各评测模式中的最高得分。

排名模型
开源情况
DeepSeek-AI
DeepSeek-V4-Pro
DeepSeek-AI
48.20——80.60—免费商用详情详情
Moonshot AI
Kimi K2.6
Moonshot AI
54.00——80.20—免费商用详情详情
智谱AI
GLM 5.1
智谱AI
52.30————免费商用详情详情
4
智谱AI
GLM-5
智谱AI
50.404.902.1077.8089.70免费商用详情详情
5
阿里巴巴
Qwen3.6-27B
阿里巴巴
24.00——77.20—免费商用详情详情
6
DeepSeek-AI
DeepSeek-V4-Flash
DeepSeek-AI
45.10——79.00—免费商用详情详情
7
阿里巴巴
Qwen3.5-397B-A17B
阿里巴巴
48.30——76.4086.70免费商用详情详情
8
MiniMaxAI
MiniMax M2.5
MiniMaxAI
19.404.90—80.20—免费商用详情详情
9
阿里巴巴
Qwen3.6-35B-A3B
阿里巴巴
21.40——73.40—免费商用详情详情
10
StepFunAI
Step 3.5 Flash
StepFunAI
———74.4088.20免费商用详情详情
11
Moonshot AI
Kimi K2.5
Moonshot AI
50.2011.804.2076.80—免费商用详情详情
12
MiniMaxAI
M2.1
MiniMaxAI
22.00——74.80—免费商用详情详情
13
DeepSeek-AI
DeepSeek V3.2
DeepSeek-AI
25.104.002.1073.1080.30免费商用详情详情
14
阿里巴巴
Qwen3.5-27B
阿里巴巴
48.50——72.4079.00免费商用详情详情
15
智谱AI
GLM-4.7
智谱AI
42.80—2.1073.8087.40免费商用详情详情
16
阿里巴巴
Qwen3-Coder-Next
阿里巴巴
———70.60—免费商用详情详情
17
阿里巴巴
Qwen3-30B-A3B-2507
阿里巴巴
9.80——22.0049.00免费商用详情详情
18
DeepSeek-AI
DeepSeek V3.2-Exp
DeepSeek-AI
20.30——67.8066.70免费商用详情详情
19
MiniMaxAI
MiniMax-M1-80k
MiniMaxAI
8.40——56.00—免费商用详情详情
20
阿里巴巴
Qwen3-235B-A22B
阿里巴巴
7.60——34.4034.40免费商用详情详情
21
MiniMaxAI
MiniMax-M1-40k
MiniMaxAI
7.20——55.60—免费商用详情详情
22
智谱AI
GLM-4.7-Flash
智谱AI
14.40——59.2079.50免费商用详情详情
23
Moonshot AI
Kimi K2 Thinking
Moonshot AI
51.00——71.30—免费商用详情详情
24
智谱AI
GLM-4.6
智谱AI
30.40—2.1068.0075.90免费商用详情详情
25
DeepSeek-AI
DeepSeek-V3-0324
DeepSeek-AI
5.20——38.8038.80免费商用详情详情
26
Moonshot AI
Kimi K2
Moonshot AI
4.70—0.0151.8064.30免费商用详情详情
27
DeepSeek-AI
DeepSeek V3.2 Speciale
DeepSeek-AI
30.60————免费商用详情详情
28
MiniMaxAI
MiniMax-M2.7
MiniMaxAI
28.00————不可商用详情详情
29
DeepSeek-AI
DeepSeek-V3.1 Terminus
DeepSeek-AI
21.70——68.4037.00免费商用详情详情
30
Moonshot AI
Kimi K2 0905
Moonshot AI
21.70——69.20—免费商用详情详情
31
阿里巴巴
Qwen3-235B-A22B-Thinking
阿里巴巴
18.20————免费商用详情详情
32
阿里巴巴
Qwen3-235B-A22B-Thinking-2507
阿里巴巴
18.20————免费商用详情详情
33
DeepSeek-AI
DeepSeek-R1-0528
DeepSeek-AI
17.701.30—57.60—免费商用详情详情
34
DeepSeek-AI
DeepSeek-V3.1
DeepSeek-AI
15.90——66.00—免费商用详情详情
35
智谱AI
GLM-4.5
智谱AI
14.40——64.20—免费商用详情详情
36
MiniMaxAI
MiniMax M2
MiniMaxAI
12.50——69.4077.20免费商用详情详情
37
智谱AI
GLM-4.5-Air
智谱AI
10.60——57.60—免费商用详情详情
38
阿里巴巴
Qwen3-32B
阿里巴巴
—————免费商用详情详情
39
MiniMaxAI
Minimax M3
MiniMaxAI
—————免费商用详情详情
40
阿里巴巴
QwQ-32B
阿里巴巴
—————免费商用详情详情
41
华为
Pangu Embedded
华为
—————免费商用详情详情
42
百度
ERNIE-4.5-300B-A47B
百度
—————免费商用详情详情
43
DeepSeek-AI
DeepSeek-V3
DeepSeek-AI
—————免费商用详情详情
44
阿里巴巴
Qwen2.5-3B
阿里巴巴
—————免费商用详情详情
45
Moonshot AI
Moonlight-16B-A3B-Instruct
Moonshot AI
—————免费商用详情详情
46
DeepSeek-AI
DeepSeek-R1
DeepSeek-AI
———49.20—免费商用详情详情
47
上海人工智能实验室
Intern-S1
上海人工智能实验室
—————免费商用详情详情
48
阿里巴巴
Qwen3-235B-A22B-2507
阿里巴巴
—1.30———免费商用详情详情
49
华为
Pangu Pro MoE
华为
—————免费商用详情详情
50
阿里巴巴
Qwen3-30B-A3B
阿里巴巴
—————免费商用详情详情
DeepSeek-V4-ProDeepSeek-AI
HLE48.20
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified80.60
τ²-Bench—
免费商用
Kimi K2.6Moonshot AI
HLE54.00
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified80.20
τ²-Bench—
免费商用
GLM 5.1智谱AI
HLE52.30
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
4
GLM-5智谱AI
HLE50.40
ARC-AGI-24.90
FrontierMath - Tier 42.10
SWE-bench Verified77.80
τ²-Bench89.70
免费商用
5
Qwen3.6-27B阿里巴巴
HLE24.00
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified77.20
τ²-Bench—
免费商用
6
DeepSeek-V4-FlashDeepSeek-AI
HLE45.10
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified79.00
τ²-Bench—
免费商用
7
Qwen3.5-397B-A17B阿里巴巴
HLE48.30
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified76.40
τ²-Bench86.70
免费商用
8
MiniMax M2.5MiniMaxAI
HLE19.40
ARC-AGI-24.90
FrontierMath - Tier 4—
SWE-bench Verified80.20
τ²-Bench—
免费商用
9
Qwen3.6-35B-A3B阿里巴巴
HLE21.40
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified73.40
τ²-Bench—
免费商用
10
Step 3.5 FlashStepFunAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified74.40
τ²-Bench88.20
免费商用
11
Kimi K2.5Moonshot AI
HLE50.20
ARC-AGI-211.80
FrontierMath - Tier 44.20
SWE-bench Verified76.80
τ²-Bench—
免费商用
12
M2.1MiniMaxAI
HLE22.00
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified74.80
τ²-Bench—
免费商用
13
DeepSeek V3.2DeepSeek-AI
HLE25.10
ARC-AGI-24.00
FrontierMath - Tier 42.10
SWE-bench Verified73.10
τ²-Bench80.30
免费商用
14
Qwen3.5-27B阿里巴巴
HLE48.50
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified72.40
τ²-Bench79.00
免费商用
15
GLM-4.7智谱AI
HLE42.80
ARC-AGI-2—
FrontierMath - Tier 42.10
SWE-bench Verified73.80
τ²-Bench87.40
免费商用
16
Qwen3-Coder-Next阿里巴巴
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified70.60
τ²-Bench—
免费商用
17
Qwen3-30B-A3B-2507阿里巴巴
HLE9.80
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified22.00
τ²-Bench49.00
免费商用
18
DeepSeek V3.2-ExpDeepSeek-AI
HLE20.30
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified67.80
τ²-Bench66.70
免费商用
19
MiniMax-M1-80kMiniMaxAI
HLE8.40
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified56.00
τ²-Bench—
免费商用
20
Qwen3-235B-A22B阿里巴巴
HLE7.60
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified34.40
τ²-Bench34.40
免费商用
21
MiniMax-M1-40kMiniMaxAI
HLE7.20
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified55.60
τ²-Bench—
免费商用
22
GLM-4.7-Flash智谱AI
HLE14.40
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified59.20
τ²-Bench79.50
免费商用
23
Kimi K2 ThinkingMoonshot AI
HLE51.00
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified71.30
τ²-Bench—
免费商用
24
GLM-4.6智谱AI
HLE30.40
ARC-AGI-2—
FrontierMath - Tier 42.10
SWE-bench Verified68.00
τ²-Bench75.90
免费商用
25
DeepSeek-V3-0324DeepSeek-AI
HLE5.20
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified38.80
τ²-Bench38.80
免费商用
26
Kimi K2Moonshot AI
HLE4.70
ARC-AGI-2—
FrontierMath - Tier 40.01
SWE-bench Verified51.80
τ²-Bench64.30
免费商用
27
DeepSeek V3.2 SpecialeDeepSeek-AI
HLE30.60
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
28
MiniMax-M2.7MiniMaxAI
HLE28.00
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
不可商用
29
DeepSeek-V3.1 TerminusDeepSeek-AI
HLE21.70
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified68.40
τ²-Bench37.00
免费商用
30
Kimi K2 0905Moonshot AI
HLE21.70
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified69.20
τ²-Bench—
免费商用
31
Qwen3-235B-A22B-Thinking阿里巴巴
HLE18.20
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
32
Qwen3-235B-A22B-Thinking-2507阿里巴巴
HLE18.20
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
33
DeepSeek-R1-0528DeepSeek-AI
HLE17.70
ARC-AGI-21.30
FrontierMath - Tier 4—
SWE-bench Verified57.60
τ²-Bench—
免费商用
34
DeepSeek-V3.1DeepSeek-AI
HLE15.90
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified66.00
τ²-Bench—
免费商用
35
GLM-4.5智谱AI
HLE14.40
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified64.20
τ²-Bench—
免费商用
36
MiniMax M2MiniMaxAI
HLE12.50
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified69.40
τ²-Bench77.20
免费商用
37
GLM-4.5-Air智谱AI
HLE10.60
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified57.60
τ²-Bench—
免费商用
38
Qwen3-32B阿里巴巴
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
39
Minimax M3MiniMaxAI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
40
QwQ-32B阿里巴巴
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
41
Pangu Embedded华为
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
42
ERNIE-4.5-300B-A47B百度
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
43
DeepSeek-V3DeepSeek-AI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
44
Qwen2.5-3B阿里巴巴
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
45
Moonlight-16B-A3B-InstructMoonshot AI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
46
DeepSeek-R1DeepSeek-AI
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified49.20
τ²-Bench—
免费商用
47
Intern-S1上海人工智能实验室
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
48
Qwen3-235B-A22B-2507阿里巴巴
HLE—
ARC-AGI-21.30
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
49
Pangu Pro MoE华为
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
50
Qwen3-30B-A3B阿里巴巴
HLE—
ARC-AGI-2—
FrontierMath - Tier 4—
SWE-bench Verified—
τ²-Bench—
免费商用
排序:
已显示 50 / 69 个模型查看 Terminal Bench 2.0 基准测试完整页面

排行榜常见问题

01

排行榜上收录了哪些开源大模型?

榜单聚合开放权重或代码公开的大模型,包括 Llama、Qwen、DeepSeek、Mistral、GLM 等模型。这里可能包含宽松协议、非商用协议或其他受限商用协议;GPT、Claude 等仅 API 可用的闭源模型不在此列表中,可在主排行榜查看。

02

为什么同一模型在不同基准上分数差异很大?

每个基准测的能力不一样:推理类(HLE、ARC-AGI-2)、数学类(AIME、FrontierMath)、编程类(SWE-bench Verified)、Agent 工具使用类(τ²-Bench)等。模型在某一能力上专门优化后,往往会牺牲另一些能力,因此排行榜按基准分别展示,而不是合并成一个分数。

03

排行榜多久更新一次?

数据每 5 分钟自动重新校验一次;新模型或新评测结果一旦公开就会同步收录。页面顶部的"数据更新于"指示器反映最近一次数据刷新时间。

04

综合排名应该怎么解读?

综合榜聚合了模型在多个核心基准上的位次,可作为初筛工具。但落地选型时建议进入与你业务最相关的单项基准查看,例如 Coding Agent 看 SWE-bench Verified、工具调用场景看 τ²-Bench。

05

这些开源大模型可以本地运行吗?

大多数榜单上的开源模型在 Hugging Face 或 GitHub 公开权重,可通过 vLLM、Ollama、llama.cpp 等推理框架部署。硬件需求随参数规模上升:7B 模型可在单张消费级 GPU 运行,65B 以上通常需要多卡或量化部署。

探索更多

排行榜只覆盖参与评测的模型。你还可以按模型、机构或评测基准浏览完整内容。

全部 AI 模型

浏览收录的全部模型,按机构、类型、发布时间筛选,不止于评测得分。

进入浏览
全部机构

查看这些模型背后的机构与公司,及其完整的模型阵容。

进入浏览
全部评测基准

深入了解每个评测基准的考察内容、评分方式与完整排名。

进入浏览