AI大模型评测排行榜

聚合 ARC-AGI-2、AIME 2025、SWE-bench Verified 等主流评测的实时排名，按综合、数学、编程、Agent 等维度快速筛选。

查看评测基准详情数据更新于 2026-05-02 07:14:49

截至 2026年5月，AA 智能指数前列模型包括 GPT-5.5 (xhigh)、GPT-5.5 (high)、Opus 4.7 (max)，该指数汇总编程、推理、科学等 10 项标准化评测。

LMArena 文本生成榜当前靠前的模型包括 Opus 4.7 (thinking)、Claude Opus 4.6 (thinking)、Claude Opus 4.6，排名基于真人匿名 A/B 投票。

下方可按数学、编程、Agent 等分类查看单项排名。数据口径说明见数据方法论，延伸阅读见大模型分析博客。

综合排名

目前没有一个被普遍认可的"AI 模型综合排名"，因此我们选取了两个具有代表性、且切入角度不同的综合榜单并列展示。Artificial Analysis 智能指数（AA Intelligence Index）汇总编程、数学、推理等 10 项标准化评测的跑分，衡量模型的客观能力；LMArena（原 Chatbot Arena）基于全球用户匿名盲测 A/B 投票得出的 Elo 分数，反映真实使用体感。两者分别提供客观基准与主观偏好的视角。

AA Intelligence Index

完整排名

汇总编程、数学、科学、推理、智能体等 10 项标准化评测的综合分数。

数据更新于 2026年05月10日

#模型分数

GPT-5.5 (xhigh)OpenAI

GPT-5.5 (high)OpenAI

Opus 4.7 (max)Anthropic

Gemini 3.1 Pro PreviewGoogle Deep Mind

GPT-5.5 (medium)OpenAI

Kimi K2.6Moonshot AI

MiMo-V2.5-ProXiaomi

GPT-5.3 Codex (xhigh)OpenAI

Grok 4.3xAI

Muse SparkFacebook AI研究实验室

来源：Artificial Analysis

LMArena Text Generation

完整排名

基于匿名众包 A/B 对战的 Elo 评分，反映真实用户对回答质量的偏好。

数据更新于 2026年05月07日

#模型Elo

Opus 4.7 (thinking)Anthropic

1503

Claude Opus 4.6 (thinking)Anthropic

1502

Claude Opus 4.6Anthropic

1498

Gemini 3.1 Pro PreviewGoogle Deep Mind

1492

Opus 4.7Anthropic

1491

Muse SparkFacebook AI研究实验室

1490

Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind

1486

gpt-5.5-highOpenAI

1484

grok-4.20-beta1xAI

1480

gpt-5.2-chat-latest-20260210OpenAI

1477

来源：LMArena

单项评测排名

按数学、编程、Agent 等维度筛选排名。下方可切换评测基准，也可直接进入分类排行榜查看完整排名。查看全部评测基准。

评测方向

综合排名

ARC-AGI-2 HLE MMLU Pro 进入全部基准列表

数学

AIME 2025 FrontierMath MATH-500 进入数学能力排行榜

编程

SWE-bench Verified LiveCodeBench SWE-Bench Pro 进入编程能力排行榜

Agent

τ²-Bench Terminal Bench 2.0 Aider-Polyglot 进入 Agent 能力排行榜

参数规模:全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

开源：全部开源闭源

来源：全部国产模型

大模型性能评测结果

数据来源：DataLearnerAI

各评测基准展示所有评测模式中的最高得分。点击模型名称可查看不同评测模式的详细结果。

排名	模型						开源情况
	Gemini-2.5-Pro-Preview-05-06 Google Deep Mind	21.60	—	2.10	63.20	—	闭源
	Gemini 2.5-Pro Google Deep Mind	21.60	4.90	2.10	67.20	—	闭源
	GLM-4.5 智谱AI	14.40	—	—	64.20	—	免费商用
4	Claude Opus 4 Anthropic	10.70	8.60	4.20	72.50	72.50	闭源
5	OpenAI o3 OpenAI	20.32	6.50	2.10	69.10	—	闭源
6	GLM-4.5-Air 智谱AI	10.60	—	—	57.60	—	免费商用
7	Qwen3-235B-A22B 阿里巴巴	7.60	—	—	34.40	34.40	免费商用
8	DeepSeek-R1-0528 DeepSeek-AI	17.70	1.30	—	57.60	—	免费商用
9	OpenAI o3-mini (high) OpenAI	—	—	4.20	49.30	—	闭源
10	Claude Opus 4.6 Anthropic	53.00	66.30	22.90	80.84	91.89	闭源
11	Kimi K2 Moonshot AI	4.70	—	0.01	51.80	64.30	免费商用
12	Qwen3-8B 阿里巴巴	—	—	—	—	—	免费商用
13	DeepSeek-R1 DeepSeek-AI	—	—	—	49.20	—	免费商用
14	Qwen3-32B 阿里巴巴	—	—	—	—	—	免费商用
15	MiniMax-M1-80k MiniMaxAI	8.40	—	—	56.00	—	免费商用
16	Pangu Pro MoE 华为	—	—	—	—	—	免费商用
17	OpenAI o1 OpenAI	9.10	—	—	48.90	—	闭源
18	ERNIE-4.5-300B-A47B 百度	—	—	—	—	—	免费商用
19	Hunyuan-T1 腾讯AI实验室	—	—	—	—	—	闭源
20	Claude Sonnet 3.7-64K Extended Thinking Anthropic	—	—	—	—	—	闭源
21	Kimi k1.5 (Long-CoT) 普林斯顿大学	—	—	—	—	—	闭源
22	MiniMax-M1-40k MiniMaxAI	7.20	—	—	55.60	—	免费商用
23	OpenAI o3-mini OpenAI	13.40	—	4.20	40.80	—	闭源
24	Llama 4 Behemoth Instruct Facebook AI研究实验室	—	—	—	—	—	免费商用
25	Kimi k1.5 (Short-CoT) Moonshot AI	—	—	—	—	—	闭源
26	DeepSeek-R1-Distill-Llama-70B DeepSeek-AI	—	—	—	—	—	免费商用
27	DeepSeek-V3-0324 DeepSeek-AI	5.20	—	—	38.80	38.80	免费商用
28	Hunyuan-7B Tencent ARC	—	—	—	—	—	免费商用
29	GPT-4.1 OpenAI	3.70	—	—	54.60	54.70	闭源
30	Pangu Embedded 华为	—	—	—	—	—	免费商用
31	DeepSeek-R1-Distill-Qwen-7B DeepSeek-AI	—	—	—	—	—	免费商用
32	QwQ-32B 阿里巴巴	—	—	—	—	—	免费商用
33	GPT-4.5 OpenAI	—	—	—	38.00	—	闭源
34	QwQ-32B-Preview 阿里巴巴	—	—	—	—	—	免费商用
35	Phi-4-instruct (reasoning-trained) Microsoft Azure	—	—	—	—	—	闭源
36	OpenAI o1-mini OpenAI	—	—	—	—	—	闭源
37	DeepSeek-V3 DeepSeek-AI	—	—	—	—	—	免费商用
38	Claude Sonnet 3.7 Anthropic	10.30	—	—	70.30	61.80	闭源
39	Claude 3.5 Sonnet New Anthropic	—	—	—	49.00	—	闭源
40	GPT-4o OpenAI	5.30	—	—	31.00	—	闭源
41	Phi-4-mini-instruct (3.8B) Microsoft Azure	—	—	—	—	—	免费商用
42	Qwen3-30B-A3B-2507 阿里巴巴	9.80	—	—	22.00	49.00	免费商用
43	Haiku 4.5 Anthropic	9.70	4.50	2.10	73.30	33.00	闭源
44	Claude Sonnet 4 Anthropic	9.60	5.90	—	80.20	52.00	闭源
45	Gemma 4 26B A4B DeepMind	17.20	—	—	—	68.20	免费商用
46	DeepSeek V3.2-Exp DeepSeek-AI	20.30	—	—	67.80	66.70	免费商用
47	Gemini 2.5 Flash Google Deep Mind	11.00	—	4.20	50.00	—	闭源
48	DeepSeek-V4-Flash DeepSeek-AI	45.10	—	—	79.00	—	免费商用
49	DeepSeek-V4-Pro DeepSeek-AI	48.20	—	—	80.60	—	免费商用
50	Claude Sonnet 4.5 Anthropic	33.60	13.60	4.20	82.00	84.70	闭源

Gemini-2.5-Pro-Preview-05-06

Google Deep Mind

HLE21.60

ARC-AGI-2—

FrontierMath - Tier 42.10

SWE-bench Verified63.20

τ²-Bench—

闭源

Gemini 2.5-Pro

Google Deep Mind

HLE21.60

ARC-AGI-24.90

FrontierMath - Tier 42.10

SWE-bench Verified67.20

τ²-Bench—

闭源

GLM-4.5

智谱AI

HLE14.40

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified64.20

τ²-Bench—

免费商用

Claude Opus 4

Anthropic

HLE10.70

ARC-AGI-28.60

FrontierMath - Tier 44.20

SWE-bench Verified72.50

τ²-Bench72.50

闭源

OpenAI o3

OpenAI

HLE20.32

ARC-AGI-26.50

FrontierMath - Tier 42.10

SWE-bench Verified69.10

τ²-Bench—

闭源

GLM-4.5-Air

智谱AI

HLE10.60

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified57.60

τ²-Bench—

免费商用

Qwen3-235B-A22B

阿里巴巴

HLE7.60

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified34.40

τ²-Bench34.40

免费商用

DeepSeek-R1-0528

DeepSeek-AI

HLE17.70

ARC-AGI-21.30

FrontierMath - Tier 4—

SWE-bench Verified57.60

τ²-Bench—

免费商用

OpenAI o3-mini (high)

OpenAI

HLE—

ARC-AGI-2—

FrontierMath - Tier 44.20

SWE-bench Verified49.30

τ²-Bench—

闭源

Claude Opus 4.6

Anthropic

HLE53.00

ARC-AGI-266.30

FrontierMath - Tier 422.90

SWE-bench Verified80.84

τ²-Bench91.89

闭源

Kimi K2

Moonshot AI

HLE4.70

ARC-AGI-2—

FrontierMath - Tier 40.01

SWE-bench Verified51.80

τ²-Bench64.30

免费商用

Qwen3-8B

阿里巴巴

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

DeepSeek-R1

DeepSeek-AI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified49.20

τ²-Bench—

免费商用

Qwen3-32B

阿里巴巴

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

MiniMax-M1-80k

MiniMaxAI

HLE8.40

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified56.00

τ²-Bench—

免费商用

Pangu Pro MoE

华为

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

OpenAI o1

OpenAI

HLE9.10

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified48.90

τ²-Bench—

闭源

ERNIE-4.5-300B-A47B

百度

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Hunyuan-T1

腾讯AI实验室

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Claude Sonnet 3.7-64K Extended Thinking

Anthropic

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Kimi k1.5 (Long-CoT)

普林斯顿大学

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

MiniMax-M1-40k

MiniMaxAI

HLE7.20

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified55.60

τ²-Bench—

免费商用

OpenAI o3-mini

OpenAI

HLE13.40

ARC-AGI-2—

FrontierMath - Tier 44.20

SWE-bench Verified40.80

τ²-Bench—

闭源

Llama 4 Behemoth Instruct

Facebook AI研究实验室

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Kimi k1.5 (Short-CoT)

Moonshot AI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

DeepSeek-R1-Distill-Llama-70B

DeepSeek-AI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

DeepSeek-V3-0324

DeepSeek-AI

HLE5.20

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified38.80

τ²-Bench38.80

免费商用

Hunyuan-7B

Tencent ARC

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

GPT-4.1

OpenAI

HLE3.70

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified54.60

τ²-Bench54.70

闭源

Pangu Embedded

华为

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

DeepSeek-R1-Distill-Qwen-7B

DeepSeek-AI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

QwQ-32B

阿里巴巴

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

GPT-4.5

OpenAI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified38.00

τ²-Bench—

闭源

QwQ-32B-Preview

阿里巴巴

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Phi-4-instruct (reasoning-trained)

Microsoft Azure

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

OpenAI o1-mini

OpenAI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

DeepSeek-V3

DeepSeek-AI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Claude Sonnet 3.7

Anthropic

HLE10.30

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified70.30

τ²-Bench61.80

闭源

Claude 3.5 Sonnet New

Anthropic

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified49.00

τ²-Bench—

闭源

GPT-4o

OpenAI

HLE5.30

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified31.00

τ²-Bench—

闭源

Phi-4-mini-instruct (3.8B)

Microsoft Azure

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Qwen3-30B-A3B-2507

阿里巴巴

HLE9.80

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified22.00

τ²-Bench49.00

免费商用

Haiku 4.5

Anthropic

HLE9.70

ARC-AGI-24.50

FrontierMath - Tier 42.10

SWE-bench Verified73.30

τ²-Bench33.00

闭源

Claude Sonnet 4

Anthropic

HLE9.60

ARC-AGI-25.90

FrontierMath - Tier 4—

SWE-bench Verified80.20

τ²-Bench52.00

闭源

Gemma 4 26B A4B

DeepMind

HLE17.20

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench68.20

免费商用

DeepSeek V3.2-Exp

DeepSeek-AI

HLE20.30

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified67.80

τ²-Bench66.70

免费商用

Gemini 2.5 Flash

Google Deep Mind

HLE11.00

ARC-AGI-2—

FrontierMath - Tier 44.20

SWE-bench Verified50.00

τ²-Bench—

闭源

DeepSeek-V4-Flash

DeepSeek-AI

HLE45.10

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified79.00

τ²-Bench—

免费商用

DeepSeek-V4-Pro

DeepSeek-AI

HLE48.20

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified80.60

τ²-Bench—

免费商用

Claude Sonnet 4.5

Anthropic

HLE33.60

ARC-AGI-213.60

FrontierMath - Tier 44.20

SWE-bench Verified82.00

τ²-Bench84.70

闭源

排序：

已显示 50 / 204 个模型查看 MATH-500 基准测试完整页面

排行榜常见问题

排行榜的数据来源是什么？

所有得分来自一手出处：模型官方 model card、技术报告、论文、厂商博客与可复现的第三方评测。每一行均链回对应的模型详情页，可查看原始引用。

为什么同一模型在不同基准上分数差异很大？

每个基准测的能力不一样：推理类（HLE、ARC-AGI-2）、数学类（AIME、FrontierMath）、编程类（SWE-bench Verified）、Agent 工具使用类（τ²-Bench）等。模型在某一能力上专门优化后，往往会牺牲另一些能力，因此排行榜按基准分别展示，而不是合并成一个分数。

排行榜多久更新一次？

数据每 5 分钟自动重新校验一次；新模型或新评测结果一旦公开就会同步收录。页面顶部的"数据更新于"指示器反映最近一次数据刷新时间。

综合排名应该怎么解读？

综合榜聚合了模型在多个核心基准上的位次，可作为初筛工具。但落地选型时建议进入与你业务最相关的单项基准查看，例如 Coding Agent 看 SWE-bench Verified、工具调用场景看 τ²-Bench。

开源大模型和闭源 API 模型怎么对比？

使用顶部的"许可"筛选切换为"全部"，开源与闭源模型可在同一基准列直接对比。除分数外，还需考虑总持有成本：闭源模型按 API 用量计费，开源模型则需衡量自部署的硬件与运维成本。

综合排名

单项评测排名

按数学、编程、Agent 等维度筛选排名。下方可切换评测基准，也可直接进入分类排行榜查看完整排名。查看全部评测基准。

大模型性能评测结果

数据来源：DataLearnerAI

各评测基准展示所有评测模式中的最高得分。点击模型名称可查看不同评测模式的详细结果。

排名	模型						开源情况
	Gemini-2.5-Pro-Preview-05-06 Google Deep Mind	21.60	—	2.10	63.20	—	闭源
	Gemini 2.5-Pro Google Deep Mind	21.60	4.90	2.10	67.20	—	闭源
	GLM-4.5 智谱AI	14.40	—	—	64.20	—	免费商用
4	Claude Opus 4 Anthropic	10.70	8.60	4.20	72.50	72.50	闭源
5	OpenAI o3 OpenAI	20.32	6.50	2.10	69.10	—	闭源
6	GLM-4.5-Air 智谱AI	10.60	—	—	57.60	—	免费商用
7	Qwen3-235B-A22B 阿里巴巴	7.60	—	—	34.40	34.40	免费商用
8	DeepSeek-R1-0528 DeepSeek-AI	17.70	1.30	—	57.60	—	免费商用
9	OpenAI o3-mini (high) OpenAI	—	—	4.20	49.30	—	闭源
10	Claude Opus 4.6 Anthropic	53.00	66.30	22.90	80.84	91.89	闭源
11	Kimi K2 Moonshot AI	4.70	—	0.01	51.80	64.30	免费商用
12	Qwen3-8B 阿里巴巴	—	—	—	—	—	免费商用
13	DeepSeek-R1 DeepSeek-AI	—	—	—	49.20	—	免费商用
14	Qwen3-32B 阿里巴巴	—	—	—	—	—	免费商用
15	MiniMax-M1-80k MiniMaxAI	8.40	—	—	56.00	—	免费商用
16	Pangu Pro MoE 华为	—	—	—	—	—	免费商用
17	OpenAI o1 OpenAI	9.10	—	—	48.90	—	闭源
18	ERNIE-4.5-300B-A47B 百度	—	—	—	—	—	免费商用
19	Hunyuan-T1 腾讯AI实验室	—	—	—	—	—	闭源
20	Claude Sonnet 3.7-64K Extended Thinking Anthropic	—	—	—	—	—	闭源
21	Kimi k1.5 (Long-CoT) 普林斯顿大学	—	—	—	—	—	闭源
22	MiniMax-M1-40k MiniMaxAI	7.20	—	—	55.60	—	免费商用
23	OpenAI o3-mini OpenAI	13.40	—	4.20	40.80	—	闭源
24	Llama 4 Behemoth Instruct Facebook AI研究实验室	—	—	—	—	—	免费商用
25	Kimi k1.5 (Short-CoT) Moonshot AI	—	—	—	—	—	闭源
26	DeepSeek-R1-Distill-Llama-70B DeepSeek-AI	—	—	—	—	—	免费商用
27	DeepSeek-V3-0324 DeepSeek-AI	5.20	—	—	38.80	38.80	免费商用
28	Hunyuan-7B Tencent ARC	—	—	—	—	—	免费商用
29	GPT-4.1 OpenAI	3.70	—	—	54.60	54.70	闭源
30	Pangu Embedded 华为	—	—	—	—	—	免费商用
31	DeepSeek-R1-Distill-Qwen-7B DeepSeek-AI	—	—	—	—	—	免费商用
32	QwQ-32B 阿里巴巴	—	—	—	—	—	免费商用
33	GPT-4.5 OpenAI	—	—	—	38.00	—	闭源
34	QwQ-32B-Preview 阿里巴巴	—	—	—	—	—	免费商用
35	Phi-4-instruct (reasoning-trained) Microsoft Azure	—	—	—	—	—	闭源
36	OpenAI o1-mini OpenAI	—	—	—	—	—	闭源
37	DeepSeek-V3 DeepSeek-AI	—	—	—	—	—	免费商用
38	Claude Sonnet 3.7 Anthropic	10.30	—	—	70.30	61.80	闭源
39	Claude 3.5 Sonnet New Anthropic	—	—	—	49.00	—	闭源
40	GPT-4o OpenAI	5.30	—	—	31.00	—	闭源
41	Phi-4-mini-instruct (3.8B) Microsoft Azure	—	—	—	—	—	免费商用
42	Qwen3-30B-A3B-2507 阿里巴巴	9.80	—	—	22.00	49.00	免费商用
43	Haiku 4.5 Anthropic	9.70	4.50	2.10	73.30	33.00	闭源
44	Claude Sonnet 4 Anthropic	9.60	5.90	—	80.20	52.00	闭源
45	Gemma 4 26B A4B DeepMind	17.20	—	—	—	68.20	免费商用
46	DeepSeek V3.2-Exp DeepSeek-AI	20.30	—	—	67.80	66.70	免费商用
47	Gemini 2.5 Flash Google Deep Mind	11.00	—	4.20	50.00	—	闭源
48	DeepSeek-V4-Flash DeepSeek-AI	45.10	—	—	79.00	—	免费商用
49	DeepSeek-V4-Pro DeepSeek-AI	48.20	—	—	80.60	—	免费商用
50	Claude Sonnet 4.5 Anthropic	33.60	13.60	4.20	82.00	84.70	闭源

Gemini-2.5-Pro-Preview-05-06

Google Deep Mind

HLE21.60

ARC-AGI-2—

FrontierMath - Tier 42.10

SWE-bench Verified63.20

τ²-Bench—

闭源

Gemini 2.5-Pro

Google Deep Mind

HLE21.60

ARC-AGI-24.90

FrontierMath - Tier 42.10

SWE-bench Verified67.20

τ²-Bench—

闭源

GLM-4.5

智谱AI

HLE14.40

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified64.20

τ²-Bench—

免费商用

Claude Opus 4

Anthropic

HLE10.70

ARC-AGI-28.60

FrontierMath - Tier 44.20

SWE-bench Verified72.50

τ²-Bench72.50

闭源

OpenAI o3

OpenAI

HLE20.32

ARC-AGI-26.50

FrontierMath - Tier 42.10

SWE-bench Verified69.10

τ²-Bench—

闭源

GLM-4.5-Air

智谱AI

HLE10.60

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified57.60

τ²-Bench—

免费商用

Qwen3-235B-A22B

阿里巴巴

HLE7.60

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified34.40

τ²-Bench34.40

免费商用

DeepSeek-R1-0528

DeepSeek-AI

HLE17.70

ARC-AGI-21.30

FrontierMath - Tier 4—

SWE-bench Verified57.60

τ²-Bench—

免费商用

OpenAI o3-mini (high)

OpenAI

HLE—

ARC-AGI-2—

FrontierMath - Tier 44.20

SWE-bench Verified49.30

τ²-Bench—

闭源

Claude Opus 4.6

Anthropic

HLE53.00

ARC-AGI-266.30

FrontierMath - Tier 422.90

SWE-bench Verified80.84

τ²-Bench91.89

闭源

Kimi K2

Moonshot AI

HLE4.70

ARC-AGI-2—

FrontierMath - Tier 40.01

SWE-bench Verified51.80

τ²-Bench64.30

免费商用

Qwen3-8B

阿里巴巴

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

DeepSeek-R1

DeepSeek-AI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified49.20

τ²-Bench—

免费商用

Qwen3-32B

阿里巴巴

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

MiniMax-M1-80k

MiniMaxAI

HLE8.40

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified56.00

τ²-Bench—

免费商用

Pangu Pro MoE

华为

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

OpenAI o1

OpenAI

HLE9.10

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified48.90

τ²-Bench—

闭源

ERNIE-4.5-300B-A47B

百度

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Hunyuan-T1

腾讯AI实验室

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Claude Sonnet 3.7-64K Extended Thinking

Anthropic

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

Kimi k1.5 (Long-CoT)

普林斯顿大学

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

MiniMax-M1-40k

MiniMaxAI

HLE7.20

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified55.60

τ²-Bench—

免费商用

OpenAI o3-mini

OpenAI

HLE13.40

ARC-AGI-2—

FrontierMath - Tier 44.20

SWE-bench Verified40.80

τ²-Bench—

闭源

Llama 4 Behemoth Instruct

Facebook AI研究实验室

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Kimi k1.5 (Short-CoT)

Moonshot AI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

DeepSeek-R1-Distill-Llama-70B

DeepSeek-AI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

DeepSeek-V3-0324

DeepSeek-AI

HLE5.20

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified38.80

τ²-Bench38.80

免费商用

Hunyuan-7B

Tencent ARC

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

GPT-4.1

OpenAI

HLE3.70

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified54.60

τ²-Bench54.70

闭源

Pangu Embedded

华为

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

DeepSeek-R1-Distill-Qwen-7B

DeepSeek-AI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

QwQ-32B

阿里巴巴

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

GPT-4.5

OpenAI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified38.00

τ²-Bench—

闭源

QwQ-32B-Preview

阿里巴巴

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Phi-4-instruct (reasoning-trained)

Microsoft Azure

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

OpenAI o1-mini

OpenAI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

DeepSeek-V3

DeepSeek-AI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Claude Sonnet 3.7

Anthropic

HLE10.30

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified70.30

τ²-Bench61.80

闭源

Claude 3.5 Sonnet New

Anthropic

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified49.00

τ²-Bench—

闭源

GPT-4o

OpenAI

HLE5.30

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified31.00

τ²-Bench—

闭源

Phi-4-mini-instruct (3.8B)

Microsoft Azure

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Qwen3-30B-A3B-2507

阿里巴巴

HLE9.80

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified22.00

τ²-Bench49.00

免费商用

Haiku 4.5

Anthropic

HLE9.70

ARC-AGI-24.50

FrontierMath - Tier 42.10

SWE-bench Verified73.30

τ²-Bench33.00

闭源

Claude Sonnet 4

Anthropic

HLE9.60

ARC-AGI-25.90

FrontierMath - Tier 4—

SWE-bench Verified80.20

τ²-Bench52.00

闭源

Gemma 4 26B A4B

DeepMind

HLE17.20

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench68.20

免费商用

DeepSeek V3.2-Exp

DeepSeek-AI

HLE20.30

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified67.80

τ²-Bench66.70

免费商用

Gemini 2.5 Flash

Google Deep Mind

HLE11.00

ARC-AGI-2—

FrontierMath - Tier 44.20

SWE-bench Verified50.00

τ²-Bench—

闭源

DeepSeek-V4-Flash

DeepSeek-AI

HLE45.10

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified79.00

τ²-Bench—

免费商用

DeepSeek-V4-Pro

DeepSeek-AI

HLE48.20

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified80.60

τ²-Bench—

免费商用

Claude Sonnet 4.5

Anthropic

HLE33.60

ARC-AGI-213.60

FrontierMath - Tier 44.20

SWE-bench Verified82.00

τ²-Bench84.70

闭源

排序：

已显示 50 / 204 个模型查看 MATH-500 基准测试完整页面

排行榜常见问题

排行榜的数据来源是什么？

所有得分来自一手出处：模型官方 model card、技术报告、论文、厂商博客与可复现的第三方评测。每一行均链回对应的模型详情页，可查看原始引用。

为什么同一模型在不同基准上分数差异很大？

排行榜多久更新一次？

数据每 5 分钟自动重新校验一次；新模型或新评测结果一旦公开就会同步收录。页面顶部的"数据更新于"指示器反映最近一次数据刷新时间。

综合排名应该怎么解读？

开源大模型和闭源 API 模型怎么对比？