开源大模型排行榜

聚合开源与开放权重大模型在主流评测基准上的排名,并集中对比得分、参数规模与许可证信息。

查看评测基准详情数据更新于 2026-06-15 07:27:26

综合排名

目前没有一个被普遍认可的"AI 模型综合排名",因此我们选取了两个具有代表性、且切入角度不同的综合榜单并列展示。Artificial Analysis 智能指数(AA Intelligence Index)汇总编程、数学、推理等 10 项标准化评测的跑分,衡量模型的客观能力;LMArena(原 Chatbot Arena)基于全球用户匿名盲测 A/B 投票得出的 Elo 分数,反映真实使用体感。两者分别提供客观基准与主观偏好的视角。

AA Intelligence Index

完整排名

汇总编程、数学、科学、推理、智能体等 10 项标准化评测的综合分数。

数据更新于 2026年06月13日

#模型分数
1
Anthropic
Claude Fable 5 (with fallback)
65
2
Anthropic
Claude Opus 4.8 (max)
61
5
57
6
Google Deep Mind
Gemini 3.1 Pro Preview
57
8
Qwen3.7 Max
57
9
Google Deep Mind
Gemini 3.5 Flash
55
10
Google
Gemini 3.5 Flash (medium)
55

LMArena Text Generation

完整排名

基于匿名众包 A/B 对战的 Elo 评分,反映真实用户对回答质量的偏好。

数据更新于 2026年06月10日

#模型Elo
1
Anthropic
claude-fable-5
1510
3
1502
4
1498
5
Anthropic
Opus 4.7
1492
6
F
Muse Spark
1487
7
Google Deep Mind
Gemini 3.1 Pro Preview
1487
9
Anthropic
claude-opus-4-8-thinking
1486
10
1481
来源:LMArena

知名模型开发商

查看全部 99 家机构

点击进入开发商主页,查看其全部模型、系列与产品线。

今日推荐每日轮换 · 发现更多机构

单项评测排名

按数学、编程、Agent 等维度筛选排名。下方可切换评测基准,也可直接进入分类排行榜查看完整排名。 查看全部评测基准

AI 模型推荐

按 AIME2025 排序

大模型性能评测结果

数据来源:DataLearnerAI

点击任意行查看模型详情;勾选左侧 可对比最多 4 个模型表中分数为各评测模式中的最高得分。

HLE
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified74.40
τ²-Bench88.20
免费商用
HLE30.40
ARC-AGI-2
FrontierMath - Tier 42.10
SWE-bench Verified68.00
τ²-Bench75.90
免费商用
HLE42.80
ARC-AGI-2
FrontierMath - Tier 42.10
SWE-bench Verified73.80
τ²-Bench87.40
免费商用
HLE21.70
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified68.40
τ²-Bench37.00
免费商用
HLE15.90
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified66.00
τ²-Bench
免费商用
HLE
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
免费商用
HLE22.00
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified74.80
τ²-Bench
免费商用
HLE12.50
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified69.40
τ²-Bench77.20
免费商用
HLE
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
免费商用
HLE21.70
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified69.20
τ²-Bench
免费商用
HLE
ARC-AGI-21.30
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
免费商用
HLE
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
免费商用
HLE
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
免费商用
HLE9.80
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified22.00
τ²-Bench49.00
免费商用
HLE4.70
ARC-AGI-2
FrontierMath - Tier 40.01
SWE-bench Verified51.80
τ²-Bench64.30
免费商用
HLE5.20
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified38.80
τ²-Bench38.80
免费商用
HLE
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
免费商用
HLE
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
免费商用
HLE50.40
ARC-AGI-24.90
FrontierMath - Tier 42.10
SWE-bench Verified77.80
τ²-Bench89.70
免费商用
HLE26.50
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench76.90
免费商用
HLE17.20
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench68.20
免费商用
HLE
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
免费商用
HLE
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
免费商用
HLE
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
免费商用
HLE
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
免费商用
HLE
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
免费商用
HLE
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
免费商用
HLE
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
免费商用
HLE
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
免费商用
HLE
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
免费商用
HLE
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
免费商用
HLE
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
免费商用
HLE
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
免费商用
HLE
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
免费商用
HLE
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
免费商用
排序:

排行榜常见问题

01

排行榜上收录了哪些开源大模型?

榜单聚合开放权重或代码公开的大模型,包括 Llama、Qwen、DeepSeek、Mistral、GLM 等模型。这里可能包含宽松协议、非商用协议或其他受限商用协议;GPT、Claude 等仅 API 可用的闭源模型不在此列表中,可在主排行榜查看。

02

为什么同一模型在不同基准上分数差异很大?

每个基准测的能力不一样:推理类(HLE、ARC-AGI-2)、数学类(AIME、FrontierMath)、编程类(SWE-bench Verified)、Agent 工具使用类(τ²-Bench)等。模型在某一能力上专门优化后,往往会牺牲另一些能力,因此排行榜按基准分别展示,而不是合并成一个分数。

03

排行榜多久更新一次?

数据每 5 分钟自动重新校验一次;新模型或新评测结果一旦公开就会同步收录。页面顶部的"数据更新于"指示器反映最近一次数据刷新时间。

04

综合排名应该怎么解读?

综合榜聚合了模型在多个核心基准上的位次,可作为初筛工具。但落地选型时建议进入与你业务最相关的单项基准查看,例如 Coding Agent 看 SWE-bench Verified、工具调用场景看 τ²-Bench。

05

这些开源大模型可以本地运行吗?

大多数榜单上的开源模型在 Hugging Face 或 GitHub 公开权重,可通过 vLLM、Ollama、llama.cpp 等推理框架部署。硬件需求随参数规模上升:7B 模型可在单张消费级 GPU 运行,65B 以上通常需要多卡或量化部署。

探索更多

排行榜只覆盖参与评测的模型。你还可以按模型、机构或评测基准浏览完整内容。