AI大模型评测排行榜

聚合 ARC-AGI-2、AIME 2025、SWE-bench Verified 等主流评测的实时排名，按综合、数学、编程、Agent 等维度快速筛选。

查看评测基准详情数据更新于 2026-04-28 13:44:17

截至 2026年4月，AA 智能指数前列模型包括 GPT-5.5 (xhigh)、GPT-5.5 (high)、Opus 4.7 (max)，该指数汇总编程、推理、科学等 10 项标准化评测。

LMArena 文本生成榜当前靠前的模型包括 Opus 4.7 (thinking)、Claude Opus 4.6 (thinking)、Claude Opus 4.6，排名基于真人匿名 A/B 投票。

下方可按数学、编程、Agent 等分类查看单项排名。数据口径说明见数据方法论，延伸阅读见大模型分析博客。

综合排名

目前没有一个被普遍认可的"AI 模型综合排名"，因此我们选取了两个具有代表性、且切入角度不同的综合榜单并列展示。Artificial Analysis 智能指数（AA Intelligence Index）汇总编程、数学、推理等 10 项标准化评测的跑分，衡量模型的客观能力；LMArena（原 Chatbot Arena）基于全球用户匿名盲测 A/B 投票得出的 Elo 分数，反映真实使用体感。两者分别提供客观基准与主观偏好的视角。

AA Intelligence Index

完整排名

汇总编程、数学、科学、推理、智能体等 10 项标准化评测的综合分数。

数据更新于 2026年04月25日

#模型分数

GPT-5.5 (xhigh)OpenAI

GPT-5.5 (high)OpenAI

Opus 4.7 (max)Anthropic

Gemini 3.1 Pro PreviewGoogle Deep Mind

GPT-5.4 (xhigh)OpenAI

GPT-5.5 (medium)OpenAI

Kimi K2.6Moonshot AI

MiMo-V2.5-ProXiaomi

GPT-5.3 Codex (xhigh)OpenAI

Muse SparkFacebook AI研究实验室

来源：Artificial Analysis

单项评测排名

按数学、编程、Agent 等维度筛选排名。下方可切换评测基准，也可直接进入分类排行榜查看完整排名。查看全部评测基准。

评测方向

综合排名

ARC-AGI-2 HLE MMLU Pro 进入全部基准列表

数学

AIME 2025 FrontierMath MATH-500 进入数学能力排行榜

各评测基准展示所有评测模式中的最高得分。点击模型名称可查看不同评测模式的详细结果。

排名	模型						开源情况
	GPT-5	35.20	9.90	12.50	72.80	80.00	闭源
	GPT-5-mini	5.00	—	6.30	—	—	闭源
	Gemma 3 - 12B (IT)	—	—	—	—	—	免费商用
4	Composer 1	—	—	—	—	—	闭源
5	Mistral Large	—	—	—	—	—	闭源
6	Grok 3 mini	—	—	—	—	—	闭源
7	Llama-3.2-3B	—	—	—	—	—	免费商用
8	Qwen2.5-3B	—	—	—	—	—	免费商用
9	Llama3.1-8B	—	—	—	—	—	免费商用
10	Gemma 2 - 9B	—	—	—	—	—	免费商用
11	Qwen2.5-7B	—	—	—	—	—	免费商用
12	Llama3.1-70B	—	—	—	—	—	免费商用
13	Gemma2-27B	—	—	—	—	—	免费商用
14	Qwen2.5-72B	—	—	—	—	—	免费商用
15	Llama3.1-405B	—	—	—	—	—	免费商用
16	GPT-4o mini	—	—	—	—	—	闭源
17	Qwen2.5-14B	—	—	—	—	—	免费商用
18	Claude 3.5 Haiku	—	—	—	—	—	闭源
19	Llama3.1-70B-Instruct	—	—	—	—	—	免费商用
20	Mistral-Small-3.1-24B-Instruct-2503	—	—	—	—	—	免费商用
21	Hunyuan-A13B-Instruct	—	—	—	—	—	免费商用
22	Qwen2.5-32B	—	—	—	—	—	免费商用
23	Phi 4 - 14B	—	—	—	—	—	不可商用
24	Llama3.1-405B Instruct	—	—	—	—	—	免费商用
25	Gemini 1.5 Pro	—	—	—	—	—	闭源