AI大模型评测排行榜

聚合 ARC-AGI-2、AIME 2025、SWE-bench Verified 等主流评测的实时排名,按综合、数学、编程、Agent 等维度快速筛选。

查看评测基准详情数据更新于 2026-06-17 07:42:33

截至 2026年6月,AA 智能指数前列模型包括 Claude Fable 5 (with fallback)、Claude Opus 4.8 (max)、GPT-5.5 (xhigh),该指数汇总编程、推理、科学等 10 项标准化评测。

LMArena 文本生成榜当前靠前的模型包括 claude-fable-5、Claude Opus 4.6 (thinking)、Opus 4.7 (thinking),排名基于真人匿名 A/B 投票。

下方可按数学、编程、Agent 等分类查看单项排名。数据口径说明见 数据方法论,延伸阅读见 大模型分析博客

综合排名

目前没有一个被普遍认可的"AI 模型综合排名",因此我们选取了两个具有代表性、且切入角度不同的综合榜单并列展示。Artificial Analysis 智能指数(AA Intelligence Index)汇总编程、数学、推理等 10 项标准化评测的跑分,衡量模型的客观能力;LMArena(原 Chatbot Arena)基于全球用户匿名盲测 A/B 投票得出的 Elo 分数,反映真实使用体感。两者分别提供客观基准与主观偏好的视角。

AA Intelligence Index

完整排名

汇总编程、数学、科学、推理、智能体等 10 项标准化评测的综合分数。

数据更新于 2026年06月13日

#模型分数
1
Anthropic
Claude Fable 5 (with fallback)
65
2
Anthropic
Claude Opus 4.8 (max)
61
5
57
6
Google Deep Mind
Gemini 3.1 Pro Preview
57
8
Qwen3.7 Max
57
9
Google Deep Mind
Gemini 3.5 Flash
55
10
Google
Gemini 3.5 Flash (medium)
55

LMArena Text Generation

完整排名

基于匿名众包 A/B 对战的 Elo 评分,反映真实用户对回答质量的偏好。

数据更新于 2026年06月10日

#模型Elo
1
Anthropic
claude-fable-5
1510
3
1502
4
1498
5
Anthropic
Opus 4.7
1492
6
F
Muse Spark
1487
7
Google Deep Mind
Gemini 3.1 Pro Preview
1487
9
Anthropic
claude-opus-4-8-thinking
1486
10
1481
来源:LMArena

知名模型开发商

查看全部 99 家机构

点击进入开发商主页,查看其全部模型、系列与产品线。

今日推荐每日轮换 · 发现更多机构

单项评测排名

按数学、编程、Agent 等维度筛选排名。下方可切换评测基准,也可直接进入分类排行榜查看完整排名。 查看全部评测基准

AI 模型推荐

按 HLE 排序

大模型性能评测结果

数据来源:DataLearnerAI

点击任意行查看模型详情;勾选左侧 可对比最多 4 个模型表中分数为各评测模式中的最高得分。

HLE64.70
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified93.90
τ²-Bench
闭源
HLE59.00
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified95.00
τ²-Bench
闭源
HLE58.70
ARC-AGI-283.30
FrontierMath - Tier 438.00
SWE-bench Verified
τ²-Bench
闭源
HLE58.00
ARC-AGI-242.50
FrontierMath - Tier 414.60
SWE-bench Verified77.40
τ²-Bench
闭源
HLE57.90
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified88.60
τ²-Bench
闭源
HLE57.20
ARC-AGI-284.60
FrontierMath - Tier 439.60
SWE-bench Verified
τ²-Bench
闭源
HLE54.70
ARC-AGI-275.80
FrontierMath - Tier 422.90
SWE-bench Verified87.60
τ²-Bench
闭源
HLE54.70
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
免费商用
HLE54.00
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified80.20
τ²-Bench
免费商用
HLE53.50
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified80.40
τ²-Bench
闭源
HLE53.00
ARC-AGI-266.30
FrontierMath - Tier 422.90
SWE-bench Verified80.84
τ²-Bench91.89
闭源
HLE52.30
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
免费商用
HLE52.20
ARC-AGI-285.00
FrontierMath - Tier 435.40
SWE-bench Verified
τ²-Bench
闭源
HLE52.10
ARC-AGI-277.10
FrontierMath - Tier 427.10
SWE-bench Verified
τ²-Bench
闭源
HLE51.40
ARC-AGI-277.10
FrontierMath - Tier 416.70
SWE-bench Verified80.60
τ²-Bench90.80
闭源
HLE51.00
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified71.30
τ²-Bench
免费商用
HLE50.60
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified78.80
τ²-Bench
闭源
HLE50.40
ARC-AGI-24.90
FrontierMath - Tier 42.10
SWE-bench Verified77.80
τ²-Bench89.70
免费商用
HLE50.20
ARC-AGI-211.80
FrontierMath - Tier 44.20
SWE-bench Verified76.80
τ²-Bench
免费商用
HLE50.20
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified78.80
τ²-Bench
闭源
HLE50.00
ARC-AGI-254.20
FrontierMath - Tier 431.30
SWE-bench Verified
τ²-Bench
闭源
HLE49.80
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified75.30
τ²-Bench82.10
闭源
HLE49.00
ARC-AGI-258.30
FrontierMath - Tier 48.30
SWE-bench Verified79.60
τ²-Bench
闭源
HLE48.50
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified72.40
τ²-Bench79.00
免费商用
HLE48.40
ARC-AGI-284.60
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
闭源
HLE48.30
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified76.40
τ²-Bench86.70
免费商用
HLE48.20
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified80.60
τ²-Bench
免费商用
HLE45.80
ARC-AGI-245.10
FrontierMath - Tier 418.80
SWE-bench Verified76.20
τ²-Bench85.40
闭源
HLE45.50
ARC-AGI-254.20
FrontierMath - Tier 418.80
SWE-bench Verified80.00
τ²-Bench82.00
闭源
HLE45.10
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified79.00
τ²-Bench
免费商用
HLE44.40
ARC-AGI-2
FrontierMath - Tier 42.10
SWE-bench Verified73.50
τ²-Bench
闭源
HLE43.50
ARC-AGI-233.60
FrontierMath - Tier 44.20
SWE-bench Verified68.70
τ²-Bench90.20
闭源
HLE43.20
ARC-AGI-237.60
FrontierMath - Tier 44.20
SWE-bench Verified80.90
τ²-Bench81.99
闭源
HLE42.80
ARC-AGI-2
FrontierMath - Tier 42.10
SWE-bench Verified73.80
τ²-Bench87.40
免费商用
HLE42.70
ARC-AGI-217.60
FrontierMath - Tier 412.50
SWE-bench Verified76.30
τ²-Bench
闭源
HLE42.00
ARC-AGI-218.00
FrontierMath - Tier 414.60
SWE-bench Verified
τ²-Bench
闭源
HLE41.50
ARC-AGI-2
FrontierMath - Tier 42.10
SWE-bench Verified
τ²-Bench
闭源
HLE40.20
ARC-AGI-272.10
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
闭源
HLE38.60
ARC-AGI-215.90
FrontierMath - Tier 42.10
SWE-bench Verified58.60
τ²-Bench
闭源
HLE37.70
ARC-AGI-2
FrontierMath - Tier 46.30
SWE-bench Verified
τ²-Bench
闭源
HLE35.20
ARC-AGI-29.90
FrontierMath - Tier 412.50
SWE-bench Verified72.80
τ²-Bench80.00
闭源
HLE34.80
ARC-AGI-2
FrontierMath - Tier 410.40
SWE-bench Verified
τ²-Bench
闭源
HLE33.60
ARC-AGI-213.60
FrontierMath - Tier 44.20
SWE-bench Verified82.00
τ²-Bench84.70
闭源
HLE30.60
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
免费商用
HLE30.40
ARC-AGI-2
FrontierMath - Tier 42.10
SWE-bench Verified68.00
τ²-Bench75.90
免费商用
HLE28.00
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench
不可商用
HLE26.50
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified
τ²-Bench76.90
免费商用
HLE25.10
ARC-AGI-24.00
FrontierMath - Tier 42.10
SWE-bench Verified73.10
τ²-Bench80.30
免费商用
HLE24.00
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified77.20
τ²-Bench
免费商用
HLE22.00
ARC-AGI-2
FrontierMath - Tier 4
SWE-bench Verified74.80
τ²-Bench
免费商用
排序:
已显示 50 / 211 个模型查看 HLE 基准测试完整页面

排行榜常见问题

01

排行榜的数据来源是什么?

所有得分来自一手出处:模型官方 model card、技术报告、论文、厂商博客与可复现的第三方评测。每一行均链回对应的模型详情页,可查看原始引用。

02

为什么同一模型在不同基准上分数差异很大?

每个基准测的能力不一样:推理类(HLE、ARC-AGI-2)、数学类(AIME、FrontierMath)、编程类(SWE-bench Verified)、Agent 工具使用类(τ²-Bench)等。模型在某一能力上专门优化后,往往会牺牲另一些能力,因此排行榜按基准分别展示,而不是合并成一个分数。

03

排行榜多久更新一次?

数据每 5 分钟自动重新校验一次;新模型或新评测结果一旦公开就会同步收录。页面顶部的"数据更新于"指示器反映最近一次数据刷新时间。

04

综合排名应该怎么解读?

综合榜聚合了模型在多个核心基准上的位次,可作为初筛工具。但落地选型时建议进入与你业务最相关的单项基准查看,例如 Coding Agent 看 SWE-bench Verified、工具调用场景看 τ²-Bench。

05

开源大模型和闭源 API 模型怎么对比?

使用顶部的"许可"筛选切换为"全部",开源与闭源模型可在同一基准列直接对比。除分数外,还需考虑总持有成本:闭源模型按 API 用量计费,开源模型则需衡量自部署的硬件与运维成本。

探索更多

排行榜只覆盖参与评测的模型。你还可以按模型、机构或评测基准浏览完整内容。