AI大模型评测排行榜

聚合 ARC-AGI-2、AIME 2025、SWE-bench Verified 等主流评测的实时排名，按综合、数学、编程、Agent 等维度快速筛选。

查看评测基准详情数据更新于 2026-07-25 08:51:59

综合排名

目前没有一个被普遍认可的"AI 模型综合排名"，因此我们选取了两个具有代表性、且切入角度不同的综合榜单并列展示。Artificial Analysis 智能指数（AA Intelligence Index）汇总编程、数学、推理等 10 项标准化评测的跑分，衡量模型的客观能力；LMArena（原 Chatbot Arena）基于全球用户匿名盲测 A/B 投票得出的 Elo 分数，反映真实使用体感。两者分别提供客观基准与主观偏好的视角。

AA Intelligence Index

完整排名

汇总编程、数学、科学、推理、智能体等 10 项标准化评测的综合分数。

数据更新于 2026年07月19日

#模型分数

Claude Fable 5Anthropic

GPT-5.6 Sol (max)OpenAI

GPT-5.6 Sol (xhigh)OpenAI

Kimi K3Moonshot AI

GPT-5.6 Sol (high)OpenAI

Claude Opus 4.8 (max)Anthropic

GPT-5.6 Terra (max)OpenAI

GPT-5.5 (xhigh)OpenAI

Grok 4.5 (high)xAI

GPT-5.6 Sol (medium)OpenAI

来源：Artificial Analysis

LMArena Text Generation

完整排名

基于匿名众包 A/B 对战的 Elo 评分，反映真实用户对回答质量的偏好。

数据更新于 2026年07月16日

#模型Elo

Claude Fable 5Anthropic

1507

Claude Opus 4.6 (thinking)Anthropic

1504

Opus 4.7 (thinking)Anthropic

1503

Claude Opus 4.6Anthropic

1498

Opus 4.7Anthropic

1494

Muse Spark 1.1Facebook AI研究实验室

1493

Muse SparkFacebook AI研究实验室

1487

Gemini 3 ProGoogle Deep Mind

1486

Kimi K3Moonshot AI

1486

gpt-5.6-sol-xhighOpenAI

1486

来源：LMArena

近期排名变化

代码、数学、Agent 榜单近 30 天的排名上升、下降与新上榜模型。

代码能力

完整榜单

Agent 能力

完整榜单

查看完整大模型动态

单项评测排名

按数学、编程、Agent 等维度筛选排名。下方可切换评测基准，也可直接进入分类排行榜查看完整排名。查看全部评测基准。

评测方向

综合排名

ARC-AGI-2 HLE MMLU Pro 进入全部基准列表

数学

AIME 2025 FrontierMath MATH-500 进入数学能力排行榜

编程

SWE-bench Verified LiveCodeBench SWE-Bench Pro 进入编程能力排行榜

Agent

τ²-Bench Terminal Bench 2.0 Aider-Polyglot 进入 Agent 能力排行榜

参数规模:全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

许可：全部开源闭源

地区：全部国产模型

AI 模型推荐

按 MMLU Pro 排序

当前 SOTA

OpenAI o1

OpenAI

91.04MMLU Pro

查看详情

最佳开源

此基准下暂无符合条件的模型。

最佳国产

Qwen3.7-Max-Preview

阿里巴巴

89.60MMLU Pro−1.44

查看详情

大模型性能评测结果

数据来源：DataLearnerAI

点击任意行查看模型详情；勾选左侧可对比最多 4 个模型。表中分数为各评测模式中的最高得分。

排名	模型							开源情况
	OpenAI o1 OpenAI	91.04	9.10	—	—	48.90	—	闭源	详情
	Opus 4.5 Anthropic	90.00	43.20	37.60	4.20	80.90	81.99	闭源	详情
	Qwen3.7-Max-Preview 阿里巴巴	89.60	53.50	—	—	80.40	—	闭源	详情
4	Opus 4.1 Anthropic	88.00	—	—	4.20	74.50	—	闭源	详情
5	Hunyuan-T1 腾讯AI实验室	87.20	—	—	—	—	—	闭源	详情
6	Grok 4 xAI	87.00	38.60	15.90	2.10	58.60	—	闭源	详情
7	Doubao Seed 2.0 Pro 字节跳动Seed团队	87.00	—	—	—	76.50	—	闭源	详情
8	Gemini 2.5-Pro Google Deep Mind	86.00	21.60	4.90	2.10	67.20	—	闭源	详情
9	Qwen3-Max-Thinking 阿里巴巴	85.70	49.80	—	—	75.30	82.10	闭源	详情
10	OpenAI o3 OpenAI	85.60	20.32	6.50	2.10	69.10	—	闭源	详情
11	Grok 4.1 Fast xAI	85.00	17.60	—	—	—	82.71	闭源	详情
12	Claude Opus 4 Anthropic	85.00	10.70	8.60	4.20	72.50	72.50	闭源	详情
13	Claude Sonnet 4 Anthropic	84.00	9.60	5.90	—	80.20	52.00	闭源	详情
14	OpenAI o4 - mini OpenAI	80.60	17.70	—	6.30	68.10	56.90	闭源	详情
15	OpenAI o1-mini OpenAI	80.30	—	—	—	—	—	闭源	详情
16	Hunyuan-TurboS 腾讯AI实验室	79.00	—	—	—	—	—	闭源	详情
17	Claude Opus 5 Anthropic	—	64.70	90.40	—	96.00	—	闭源	详情
18	Muse Spark 1.1 Facebook AI研究实验室	—	62.10	—	—	—	—	闭源	详情
19	Gemini 2.5 Flash-Lite Google Deep Mind	—	6.90	—	—	27.60	—	闭源	详情
20	Claude Fable 5 Anthropic	—	59.00	—	—	95.00	—	闭源	详情
21	Muse Spark Facebook AI研究实验室	—	58.00	42.50	14.60	77.40	—	闭源	详情
22	Claude Opus 4.8 Anthropic	—	57.90	—	—	88.60	—	闭源	详情
23	GPT-5.5 Pro OpenAI	—	57.20	84.60	39.60	—	—	闭源	详情
24	Opus 4.7 Anthropic	—	54.70	75.80	22.90	87.60	—	闭源	详情
25	Claude Opus 4.6 Anthropic	—	53.00	66.30	22.90	80.84	91.89	闭源	详情
26	GPT-5.5 OpenAI	—	52.20	85.00	35.40	—	—	闭源	详情
27	GPT-5.2 Pro OpenAI	—	50.00	54.20	31.30	—	—	闭源	详情
28	Gemini 3 Deep Think - 2620 Google Deep Mind	—	48.40	84.60	—	—	—	闭源	详情
29	GPT-5.1 OpenAI	—	42.70	17.60	12.50	76.30	—	闭源	详情
30	GPT-5-Pro OpenAI	—	42.00	18.00	14.60	—	—	闭源	详情
31	GPT-5.4 mini OpenAI	—	41.50	—	2.10	—	—	闭源	详情
32	Gemini-2.5-Pro-Preview-05-06 Google Deep Mind	—	21.60	—	2.10	63.20	—	闭源	详情
33	o3-pro OpenAI	—	21.00	—	—	75.00	—	闭源	详情
34	Gemini 2.5 Pro Experimental 03-25 Google Deep Mind	—	18.80	—	4.20	63.80	—	闭源	详情
35	OpenAI o3-mini OpenAI	—	13.40	—	4.20	40.80	—	闭源	详情
36	Gemini 2.5 Flash Google Deep Mind	—	11.00	—	4.20	50.00	—	闭源	详情
37	Composer 1.5 Cursor	—	—	—	—	—	—	闭源	详情
38	Phi-4-instruct (reasoning-trained) Microsoft Azure	—	—	—	—	—	—	闭源	详情
39	Gemini 2.5 Pro Deep Think Google Deep Mind	—	—	—	10.40	—	—	闭源	详情
40	Grok-3 - Reasoning Beta xAI	—	—	—	—	—	—	闭源	详情
41	Kimi-k1.6-IOI-high Moonshot AI	—	—	—	—	—	—	闭源	详情
42	OpenAI o3-mini (medium) OpenAI	—	—	—	—	—	—	闭源	详情
43	Kimi-k1.6-IOI Moonshot AI	—	—	—	—	—	—	闭源	详情
44	Magistral-Medium-2506 MistralAI	—	—	—	—	—	—	闭源	详情
45	Grok 3.5 xAI	—	—	—	—	—	—	闭源	详情
46	GPT-5.6 Terra OpenAI	—	—	83.90	—	—	—	闭源	详情
47	GPT-5.6 Luna OpenAI	—	—	59.50	—	—	—	闭源	详情
48	GPT-5.1 Instant OpenAI	—	—	0.00	—	—	—	闭源	详情
49	GPT-5-Nano OpenAI	—	—	—	2.10	—	—	闭源	详情
50	GPT-5.6 Sol OpenAI	—	—	—	—	—	—	闭源	详情

OpenAI o1 OpenAI

MMLU Pro91.04

HLE9.10

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified48.90

τ²-Bench—

闭源

Opus 4.5 Anthropic

MMLU Pro90.00

HLE43.20

ARC-AGI-237.60

FrontierMath - Tier 44.20

SWE-bench Verified80.90

τ²-Bench81.99

闭源

Qwen3.7-Max-Preview 阿里巴巴

MMLU Pro89.60

HLE53.50

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified80.40

τ²-Bench—

闭源

Opus 4.1 Anthropic

MMLU Pro88.00

HLE—

ARC-AGI-2—

FrontierMath - Tier 44.20

SWE-bench Verified74.50

τ²-Bench—

闭源

Hunyuan-T1 腾讯AI实验室

MMLU Pro87.20

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Grok 4 xAI

MMLU Pro87.00

HLE38.60

ARC-AGI-215.90

FrontierMath - Tier 42.10

SWE-bench Verified58.60

τ²-Bench—

闭源

Doubao Seed 2.0 Pro 字节跳动Seed团队

MMLU Pro87.00

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified76.50

τ²-Bench—

闭源

Gemini 2.5-Pro Google Deep Mind

MMLU Pro86.00

HLE21.60

ARC-AGI-24.90

FrontierMath - Tier 42.10

SWE-bench Verified67.20

τ²-Bench—

闭源

Qwen3-Max-Thinking 阿里巴巴

MMLU Pro85.70

HLE49.80

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified75.30

τ²-Bench82.10

闭源

OpenAI o3 OpenAI

MMLU Pro85.60

HLE20.32

ARC-AGI-26.50

FrontierMath - Tier 42.10

SWE-bench Verified69.10

τ²-Bench—

闭源

Grok 4.1 Fast xAI

MMLU Pro85.00

HLE17.60

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench82.71

闭源

Claude Opus 4 Anthropic

MMLU Pro85.00

HLE10.70

ARC-AGI-28.60

FrontierMath - Tier 44.20

SWE-bench Verified72.50

τ²-Bench72.50

闭源

Claude Sonnet 4 Anthropic

MMLU Pro84.00

HLE9.60

ARC-AGI-25.90

FrontierMath - Tier 4—

SWE-bench Verified80.20

τ²-Bench52.00

闭源

OpenAI o4 - mini OpenAI

MMLU Pro80.60

HLE17.70

ARC-AGI-2—

FrontierMath - Tier 46.30

SWE-bench Verified68.10

τ²-Bench56.90

闭源

OpenAI o1-mini OpenAI

MMLU Pro80.30

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Hunyuan-TurboS 腾讯AI实验室

MMLU Pro79.00

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Claude Opus 5 Anthropic

MMLU Pro—

HLE64.70

ARC-AGI-290.40

FrontierMath - Tier 4—

SWE-bench Verified96.00

τ²-Bench—

闭源

Muse Spark 1.1 Facebook AI研究实验室

MMLU Pro—

HLE62.10

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Gemini 2.5 Flash-Lite Google Deep Mind

MMLU Pro—

HLE6.90

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified27.60

τ²-Bench—

闭源

Claude Fable 5 Anthropic

MMLU Pro—

HLE59.00

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified95.00

τ²-Bench—

闭源

Muse Spark Facebook AI研究实验室

MMLU Pro—

HLE58.00

ARC-AGI-242.50

FrontierMath - Tier 414.60

SWE-bench Verified77.40

τ²-Bench—

闭源

Claude Opus 4.8 Anthropic

MMLU Pro—

HLE57.90

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified88.60

τ²-Bench—

闭源

GPT-5.5 Pro OpenAI

MMLU Pro—

HLE57.20

ARC-AGI-284.60

FrontierMath - Tier 439.60

SWE-bench Verified—

τ²-Bench—

闭源

Opus 4.7 Anthropic

MMLU Pro—

HLE54.70

ARC-AGI-275.80

FrontierMath - Tier 422.90

SWE-bench Verified87.60

τ²-Bench—

闭源

Claude Opus 4.6 Anthropic

MMLU Pro—

HLE53.00

ARC-AGI-266.30

FrontierMath - Tier 422.90

SWE-bench Verified80.84

τ²-Bench91.89

闭源

GPT-5.5 OpenAI

MMLU Pro—

HLE52.20

ARC-AGI-285.00

FrontierMath - Tier 435.40

SWE-bench Verified—

τ²-Bench—

闭源

GPT-5.2 Pro OpenAI

MMLU Pro—

HLE50.00

ARC-AGI-254.20

FrontierMath - Tier 431.30

SWE-bench Verified—

τ²-Bench—

闭源

Gemini 3 Deep Think - 2620 Google Deep Mind

MMLU Pro—

HLE48.40

ARC-AGI-284.60

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

GPT-5.1 OpenAI

MMLU Pro—

HLE42.70

ARC-AGI-217.60

FrontierMath - Tier 412.50

SWE-bench Verified76.30

τ²-Bench—

闭源

GPT-5-Pro OpenAI

MMLU Pro—

HLE42.00

ARC-AGI-218.00

FrontierMath - Tier 414.60

SWE-bench Verified—

τ²-Bench—

闭源

GPT-5.4 mini OpenAI

MMLU Pro—

HLE41.50

ARC-AGI-2—

FrontierMath - Tier 42.10

SWE-bench Verified—

τ²-Bench—

闭源

Gemini-2.5-Pro-Preview-05-06 Google Deep Mind

MMLU Pro—

HLE21.60

ARC-AGI-2—

FrontierMath - Tier 42.10

SWE-bench Verified63.20

τ²-Bench—

闭源

o3-pro OpenAI

MMLU Pro—

HLE21.00

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified75.00

τ²-Bench—

闭源

Gemini 2.5 Pro Experimental 03-25 Google Deep Mind

MMLU Pro—

HLE18.80

ARC-AGI-2—

FrontierMath - Tier 44.20

SWE-bench Verified63.80

τ²-Bench—

闭源

OpenAI o3-mini OpenAI

MMLU Pro—

HLE13.40

ARC-AGI-2—

FrontierMath - Tier 44.20

SWE-bench Verified40.80

τ²-Bench—

闭源

Gemini 2.5 Flash Google Deep Mind

MMLU Pro—

HLE11.00

ARC-AGI-2—

FrontierMath - Tier 44.20

SWE-bench Verified50.00

τ²-Bench—

闭源

Composer 1.5 Cursor

MMLU Pro—

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Phi-4-instruct (reasoning-trained)Microsoft Azure

MMLU Pro—

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Gemini 2.5 Pro Deep Think Google Deep Mind

MMLU Pro—

HLE—

ARC-AGI-2—

FrontierMath - Tier 410.40

SWE-bench Verified—

τ²-Bench—

闭源

Grok-3 - Reasoning Beta xAI

MMLU Pro—

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Kimi-k1.6-IOI-high Moonshot AI

MMLU Pro—

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

OpenAI o3-mini (medium)OpenAI

MMLU Pro—

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Kimi-k1.6-IOI Moonshot AI

MMLU Pro—

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Magistral-Medium-2506 MistralAI

MMLU Pro—

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Grok 3.5 xAI

MMLU Pro—

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

GPT-5.6 Terra OpenAI

MMLU Pro—

HLE—

ARC-AGI-283.90

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

GPT-5.6 Luna OpenAI

MMLU Pro—

HLE—

ARC-AGI-259.50

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

GPT-5.1 Instant OpenAI

MMLU Pro—

HLE—

ARC-AGI-20.00

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

GPT-5-Nano OpenAI

MMLU Pro—

HLE—

ARC-AGI-2—

FrontierMath - Tier 42.10

SWE-bench Verified—

τ²-Bench—

闭源

GPT-5.6 Sol OpenAI

MMLU Pro—

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

排序：

已显示 50 / 55 个模型查看 MMLU Pro 基准测试完整页面

排行榜常见问题

排行榜的数据来源是什么？

所有得分来自一手出处：模型官方 model card、技术报告、论文、厂商博客与可复现的第三方评测。每一行均链回对应的模型详情页，可查看原始引用。

为什么同一模型在不同基准上分数差异很大？

每个基准测的能力不一样：推理类（HLE、ARC-AGI-2）、数学类（AIME、FrontierMath）、编程类（SWE-bench Verified）、Agent 工具使用类（τ²-Bench）等。模型在某一能力上专门优化后，往往会牺牲另一些能力，因此排行榜按基准分别展示，而不是合并成一个分数。

排行榜多久更新一次？

数据每 5 分钟自动重新校验一次；新模型或新评测结果一旦公开就会同步收录。页面顶部的"数据更新于"指示器反映最近一次数据刷新时间。

综合排名应该怎么解读？

综合榜聚合了模型在多个核心基准上的位次，可作为初筛工具。但落地选型时建议进入与你业务最相关的单项基准查看，例如 Coding Agent 看 SWE-bench Verified、工具调用场景看 τ²-Bench。

开源大模型和闭源 API 模型怎么对比？

使用顶部的"许可"筛选切换为"全部"，开源与闭源模型可在同一基准列直接对比。除分数外，还需考虑总持有成本：闭源模型按 API 用量计费，开源模型则需衡量自部署的硬件与运维成本。