AI大模型评测排行榜

聚合 ARC-AGI-2、AIME 2025、SWE-bench Verified 等主流评测的实时排名，按综合、数学、编程、Agent 等维度快速筛选。

查看评测基准详情数据更新于 2026-06-23 16:05:27

近期排名变化

代码、数学、Agent 榜单近 30 天的排名上升、下降与新上榜模型。

代码能力

13
Claude Fable 5Anthropic
新上榜
16
Mistral-Small-3.1-24B-Instruct-2503MistralAI
1
17
Grok 2xAI
1
18
Claude 3.5 HaikuAnthropic
1
19
Gemini 2.5 Deep ThinkGoogle Deep Mind
1
20
GPT-4o miniOpenAI
1
15
Gemini 1.5 ProGoogle Deep Mind
2

Agent 能力

1
Claude Fable 5Anthropic
新上榜
2
OpenAI o3-proOpenAI
新上榜
4
Claude Opus 4.8Anthropic
新上榜
11
Grok 4xAI
新上榜
13
OpenAI o3OpenAI
新上榜
18
Gemini-2.5-Pro-Preview-05-06Google Deep Mind
新上榜
3
GPT-5OpenAI
3
10
Gemini 3.1 Pro PreviewGoogle Deep Mind
3

查看完整大模型动态

截至 2026年6月，AA 智能指数前列模型包括 Claude Fable 5、Claude Opus 4.8 (max)、GPT-5.5 (xhigh)，该指数汇总编程、推理、科学等 10 项标准化评测。

LMArena 文本生成榜当前靠前的模型包括 Claude Fable 5、Claude Opus 4.6 (thinking)、Opus 4.7 (thinking)，排名基于真人匿名 A/B 投票。

下方可按数学、编程、Agent 等分类查看单项排名。数据口径说明见数据方法论，延伸阅读见大模型分析博客。

综合排名

目前没有一个被普遍认可的"AI 模型综合排名"，因此我们选取了两个具有代表性、且切入角度不同的综合榜单并列展示。Artificial Analysis 智能指数（AA Intelligence Index）汇总编程、数学、推理等 10 项标准化评测的跑分，衡量模型的客观能力；LMArena（原 Chatbot Arena）基于全球用户匿名盲测 A/B 投票得出的 Elo 分数，反映真实使用体感。两者分别提供客观基准与主观偏好的视角。

AA Intelligence Index

完整排名

汇总编程、数学、科学、推理、智能体等 10 项标准化评测的综合分数。

数据更新于 2026年06月19日

#模型分数

Claude Fable 5Anthropic

Claude Opus 4.8 (max)Anthropic

GPT-5.5 (xhigh)OpenAI

Opus 4.7 (max)Anthropic

GPT-5.5 (high)OpenAI

智

GLM-5.2 (max)智谱AI

Gemini 3.5 FlashGoogle Deep Mind

Claude Sonnet 4.6 (max)Anthropic

GPT-5.5 (medium)OpenAI

Gemini 3.1 Pro PreviewGoogle Deep Mind

来源：Artificial Analysis

LMArena Text Generation

完整排名

基于匿名众包 A/B 对战的 Elo 评分，反映真实用户对回答质量的偏好。

数据更新于 2026年06月16日

#模型Elo

Claude Fable 5Anthropic

1508

Claude Opus 4.6 (thinking)Anthropic

1504

Opus 4.7 (thinking)Anthropic

1502

Claude Opus 4.6Anthropic

1499

Opus 4.7Anthropic

1493

Muse SparkFacebook AI研究实验室

1487

Gemini 3.1 Pro PreviewGoogle Deep Mind

1486

Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind

1486

Claude Opus 4.8 (thinking)Anthropic

1483

GPT-5.5 (high)OpenAI

1481

来源：LMArena

知名模型开发商

查看全部 99 家机构

点击进入开发商主页，查看其全部模型、系列与产品线。

xAI

百度

今日推荐每日轮换 · 发现更多机构

Google Brain Team1 个模型 · 海外

单项评测排名

按数学、编程、Agent 等维度筛选排名。下方可切换评测基准，也可直接进入分类排行榜查看完整排名。查看全部评测基准。

评测方向

综合排名

ARC-AGI-2 HLE MMLU Pro 进入全部基准列表

数学

AIME 2025 FrontierMath MATH-500 进入数学能力排行榜

编程

SWE-bench Verified LiveCodeBench SWE-Bench Pro 进入编程能力排行榜

Agent

τ²-Bench Terminal Bench 2.0 Aider-Polyglot 进入 Agent 能力排行榜

参数规模:全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

开源：全部开源闭源

来源：全部国产模型

AI 模型推荐

按 HLE 排序

当前 SOTA

Claude Mythos Preview

Anthropic

64.70HLE

查看详情

最佳开源

GLM-5.2

智谱AI

54.70HLE−10.00

查看详情

最佳国产

GLM-5.2

智谱AI

54.70HLE−10.00

查看详情

大模型性能评测结果

数据来源：DataLearnerAI

点击任意行查看模型详情；勾选左侧可对比最多 4 个模型。表中分数为各评测模式中的最高得分。

排名	模型						开源情况
	Claude Mythos Preview Anthropic	64.70	—	—	93.90	—	闭源	详情
	Claude Fable 5 Anthropic	59.00	—	—	95.00	—	闭源	详情
	GPT-5.4 Pro OpenAI	58.70	83.30	38.00	—	—	闭源	详情
4	Muse Spark Facebook AI研究实验室	58.00	42.50	14.60	77.40	—	闭源	详情
5	Claude Opus 4.8 Anthropic	57.90	—	—	88.60	—	闭源	详情
6	GPT-5.5 Pro OpenAI	57.20	84.60	39.60	—	—	闭源	详情
7	GLM-5.2 智谱AI	54.70	—	—	—	—	免费商用	详情
8	Opus 4.7 Anthropic	54.70	75.80	22.90	87.60	—	闭源	详情
9	Kimi K2.6 Moonshot AI	54.00	—	—	80.20	—	免费商用	详情
10	Qwen3.7-Max-Preview 阿里巴巴	53.50	—	—	80.40	—	闭源	详情
11	Claude Opus 4.6 Anthropic	53.00	66.30	22.90	80.84	91.89	闭源	详情
12	GLM 5.1 智谱AI	52.30	—	—	—	—	免费商用	详情
13	GPT-5.5 OpenAI	52.20	85.00	35.40	—	—	闭源	详情
14	GPT-5.4 OpenAI	52.10	77.10	27.10	—	—	闭源	详情
15	Gemini 3.1 Pro Preview Google Deep Mind	51.40	77.10	16.70	80.60	90.80	闭源	详情
16	Kimi K2 Thinking Moonshot AI	51.00	—	—	71.30	—	免费商用	详情
17	Qwen 3.6 Plus Preview 阿里巴巴	50.60	—	—	78.80	—	闭源	详情
18	GLM-5 智谱AI	50.40	4.90	2.10	77.80	89.70	免费商用	详情
19	Qwen3.6-Max-Preview 阿里巴巴	50.20	—	—	78.80	—	闭源	详情
20	Kimi K2.5 Moonshot AI	50.20	11.80	4.20	76.80	—	免费商用	详情
21	GPT-5.2 Pro OpenAI	50.00	54.20	31.30	—	—	闭源	详情
22	Qwen3-Max-Thinking 阿里巴巴	49.80	—	—	75.30	82.10	闭源	详情
23	Claude Sonnet 4.6 Anthropic	49.00	58.30	8.30	79.60	—	闭源	详情
24	Qwen3.5-27B 阿里巴巴	48.50	—	—	72.40	79.00	免费商用	详情
25	Gemini 3 Deep Think - 2620 Google Deep Mind	48.40	84.60	—	—	—	闭源	详情
26	Qwen3.5-397B-A17B 阿里巴巴	48.30	—	—	76.40	86.70	免费商用	详情
27	DeepSeek-V4-Pro DeepSeek-AI	48.20	—	—	80.60	—	免费商用	详情
28	Gemini 3.0 Pro (Preview 11-2025) Google Deep Mind	45.80	45.10	18.80	76.20	85.40	闭源	详情
29	GPT-5.2 OpenAI	45.50	54.20	18.80	80.00	82.00	闭源	详情
30	DeepSeek-V4-Flash DeepSeek-AI	45.10	—	—	79.00	—	免费商用	详情
31	Grok 4 Heavy xAI	44.40	—	2.10	73.50	—	闭源	详情
32	Gemini 3.0 Flash Google Deep Mind	43.50	33.60	4.20	68.70	90.20	闭源	详情
33	Opus 4.5 Anthropic	43.20	37.60	4.20	80.90	81.99	闭源	详情
34	GLM-4.7 智谱AI	42.80	—	2.10	73.80	87.40	免费商用	详情
35	GPT-5.1 OpenAI	42.70	17.60	12.50	76.30	—	闭源	详情
36	GPT-5-Pro OpenAI	42.00	18.00	14.60	—	—	闭源	详情
37	GPT-5.4 mini OpenAI	41.50	—	2.10	—	—	闭源	详情
38	Gemini 3.5 Flash Google Deep Mind	40.20	72.10	—	—	—	闭源	详情
39	Grok 4 xAI	38.60	15.90	2.10	58.60	—	闭源	详情
40	GPT-5.4 nano OpenAI	37.70	—	6.30	—	—	闭源	详情
41	GPT-5 OpenAI	35.20	9.90	12.50	72.80	80.00	闭源	详情
42	Gemini 2.5 Deep Think Google Deep Mind	34.80	—	10.40	—	—	闭源	详情
43	Claude Sonnet 4.5 Anthropic	33.60	13.60	4.20	82.00	84.70	闭源	详情
44	DeepSeek V3.2 Speciale DeepSeek-AI	30.60	—	—	—	—	免费商用	详情
45	GLM-4.6 智谱AI	30.40	—	2.10	68.00	75.90	免费商用	详情
46	MiniMax-M2.7 MiniMaxAI	28.00	—	—	—	—	不可商用	详情
47	Gemma 4 31B DeepMind	26.50	—	—	—	76.90	免费商用	详情
48	DeepSeek V3.2 DeepSeek-AI	25.10	4.00	2.10	73.10	80.30	免费商用	详情
49	Qwen3.6-27B 阿里巴巴	24.00	—	—	77.20	—	免费商用	详情
50	M2.1 MiniMaxAI	22.00	—	—	74.80	—	免费商用	详情

Claude Mythos Preview Anthropic

HLE64.70

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified93.90

τ²-Bench—

闭源

Claude Fable 5 Anthropic

HLE59.00

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified95.00

τ²-Bench—

闭源

GPT-5.4 Pro OpenAI

HLE58.70

ARC-AGI-283.30

FrontierMath - Tier 438.00

SWE-bench Verified—

τ²-Bench—

闭源

Muse Spark Facebook AI研究实验室

HLE58.00

ARC-AGI-242.50

FrontierMath - Tier 414.60

SWE-bench Verified77.40

τ²-Bench—

闭源

Claude Opus 4.8 Anthropic

HLE57.90

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified88.60

τ²-Bench—

闭源

GPT-5.5 Pro OpenAI

HLE57.20

ARC-AGI-284.60

FrontierMath - Tier 439.60

SWE-bench Verified—

τ²-Bench—

闭源

GLM-5.2 智谱AI

HLE54.70

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Opus 4.7 Anthropic

HLE54.70

ARC-AGI-275.80

FrontierMath - Tier 422.90

SWE-bench Verified87.60

τ²-Bench—

闭源

Kimi K2.6 Moonshot AI

HLE54.00

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified80.20

τ²-Bench—

免费商用

Qwen3.7-Max-Preview 阿里巴巴

HLE53.50

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified80.40

τ²-Bench—

闭源

Claude Opus 4.6 Anthropic

HLE53.00

ARC-AGI-266.30

FrontierMath - Tier 422.90

SWE-bench Verified80.84

τ²-Bench91.89

闭源

GLM 5.1 智谱AI

HLE52.30

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

GPT-5.5 OpenAI

HLE52.20

ARC-AGI-285.00

FrontierMath - Tier 435.40

SWE-bench Verified—

τ²-Bench—

闭源

GPT-5.4 OpenAI

HLE52.10

ARC-AGI-277.10

FrontierMath - Tier 427.10

SWE-bench Verified—

τ²-Bench—

闭源

Gemini 3.1 Pro Preview Google Deep Mind

HLE51.40

ARC-AGI-277.10

FrontierMath - Tier 416.70

SWE-bench Verified80.60

τ²-Bench90.80

闭源

Kimi K2 Thinking Moonshot AI

HLE51.00

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified71.30

τ²-Bench—

免费商用

Qwen 3.6 Plus Preview 阿里巴巴

HLE50.60

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified78.80

τ²-Bench—

闭源

GLM-5 智谱AI

HLE50.40

ARC-AGI-24.90

FrontierMath - Tier 42.10

SWE-bench Verified77.80

τ²-Bench89.70

免费商用

Qwen3.6-Max-Preview 阿里巴巴

HLE50.20

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified78.80

τ²-Bench—

闭源

Kimi K2.5 Moonshot AI

HLE50.20

ARC-AGI-211.80

FrontierMath - Tier 44.20

SWE-bench Verified76.80

τ²-Bench—

免费商用

GPT-5.2 Pro OpenAI

HLE50.00

ARC-AGI-254.20

FrontierMath - Tier 431.30

SWE-bench Verified—

τ²-Bench—

闭源

Qwen3-Max-Thinking 阿里巴巴

HLE49.80

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified75.30

τ²-Bench82.10

闭源

Claude Sonnet 4.6 Anthropic

HLE49.00

ARC-AGI-258.30

FrontierMath - Tier 48.30

SWE-bench Verified79.60

τ²-Bench—

闭源

Qwen3.5-27B 阿里巴巴

HLE48.50

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified72.40

τ²-Bench79.00

免费商用

Gemini 3 Deep Think - 2620 Google Deep Mind

HLE48.40

ARC-AGI-284.60

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Qwen3.5-397B-A17B 阿里巴巴

HLE48.30

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified76.40

τ²-Bench86.70

免费商用

DeepSeek-V4-Pro DeepSeek-AI

HLE48.20

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified80.60

τ²-Bench—

免费商用

Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind

HLE45.80

ARC-AGI-245.10

FrontierMath - Tier 418.80

SWE-bench Verified76.20

τ²-Bench85.40

闭源

GPT-5.2 OpenAI

HLE45.50

ARC-AGI-254.20

FrontierMath - Tier 418.80

SWE-bench Verified80.00

τ²-Bench82.00

闭源

DeepSeek-V4-Flash DeepSeek-AI

HLE45.10

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified79.00

τ²-Bench—

免费商用

Grok 4 Heavy xAI

HLE44.40

ARC-AGI-2—

FrontierMath - Tier 42.10

SWE-bench Verified73.50

τ²-Bench—

闭源

Gemini 3.0 Flash Google Deep Mind

HLE43.50

ARC-AGI-233.60

FrontierMath - Tier 44.20

SWE-bench Verified68.70

τ²-Bench90.20

闭源

Opus 4.5 Anthropic

HLE43.20

ARC-AGI-237.60

FrontierMath - Tier 44.20

SWE-bench Verified80.90

τ²-Bench81.99

闭源

GLM-4.7 智谱AI

HLE42.80

ARC-AGI-2—

FrontierMath - Tier 42.10

SWE-bench Verified73.80

τ²-Bench87.40

免费商用

GPT-5.1 OpenAI

HLE42.70

ARC-AGI-217.60

FrontierMath - Tier 412.50

SWE-bench Verified76.30

τ²-Bench—

闭源

GPT-5-Pro OpenAI

HLE42.00

ARC-AGI-218.00

FrontierMath - Tier 414.60

SWE-bench Verified—

τ²-Bench—

闭源

GPT-5.4 mini OpenAI

HLE41.50

ARC-AGI-2—

FrontierMath - Tier 42.10

SWE-bench Verified—

τ²-Bench—

闭源

Gemini 3.5 Flash Google Deep Mind

HLE40.20

ARC-AGI-272.10

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Grok 4 xAI

HLE38.60

ARC-AGI-215.90

FrontierMath - Tier 42.10

SWE-bench Verified58.60

τ²-Bench—

闭源

GPT-5.4 nano OpenAI

HLE37.70

ARC-AGI-2—

FrontierMath - Tier 46.30

SWE-bench Verified—

τ²-Bench—

闭源

GPT-5 OpenAI

HLE35.20

ARC-AGI-29.90

FrontierMath - Tier 412.50

SWE-bench Verified72.80

τ²-Bench80.00

闭源

Gemini 2.5 Deep Think Google Deep Mind

HLE34.80

ARC-AGI-2—

FrontierMath - Tier 410.40

SWE-bench Verified—

τ²-Bench—

闭源

Claude Sonnet 4.5 Anthropic

HLE33.60

ARC-AGI-213.60

FrontierMath - Tier 44.20

SWE-bench Verified82.00

τ²-Bench84.70

闭源

DeepSeek V3.2 Speciale DeepSeek-AI

HLE30.60

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

GLM-4.6 智谱AI

HLE30.40

ARC-AGI-2—

FrontierMath - Tier 42.10

SWE-bench Verified68.00

τ²-Bench75.90

免费商用

MiniMax-M2.7 MiniMaxAI

HLE28.00

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

不可商用

Gemma 4 31B DeepMind

HLE26.50

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench76.90

免费商用

DeepSeek V3.2 DeepSeek-AI

HLE25.10

ARC-AGI-24.00

FrontierMath - Tier 42.10

SWE-bench Verified73.10

τ²-Bench80.30

免费商用

Qwen3.6-27B 阿里巴巴

HLE24.00

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified77.20

τ²-Bench—

免费商用

M2.1 MiniMaxAI

HLE22.00

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified74.80

τ²-Bench—

免费商用

排序：

已显示 50 / 215 个模型查看 HLE 基准测试完整页面

排行榜常见问题

排行榜的数据来源是什么？

所有得分来自一手出处：模型官方 model card、技术报告、论文、厂商博客与可复现的第三方评测。每一行均链回对应的模型详情页，可查看原始引用。

为什么同一模型在不同基准上分数差异很大？

每个基准测的能力不一样：推理类（HLE、ARC-AGI-2）、数学类（AIME、FrontierMath）、编程类（SWE-bench Verified）、Agent 工具使用类（τ²-Bench）等。模型在某一能力上专门优化后，往往会牺牲另一些能力，因此排行榜按基准分别展示，而不是合并成一个分数。

排行榜多久更新一次？

数据每 5 分钟自动重新校验一次；新模型或新评测结果一旦公开就会同步收录。页面顶部的"数据更新于"指示器反映最近一次数据刷新时间。

综合排名应该怎么解读？

综合榜聚合了模型在多个核心基准上的位次，可作为初筛工具。但落地选型时建议进入与你业务最相关的单项基准查看，例如 Coding Agent 看 SWE-bench Verified、工具调用场景看 τ²-Bench。

开源大模型和闭源 API 模型怎么对比？

使用顶部的"许可"筛选切换为"全部"，开源与闭源模型可在同一基准列直接对比。除分数外，还需考虑总持有成本：闭源模型按 API 用量计费，开源模型则需衡量自部署的硬件与运维成本。