AI大模型评测排行榜

聚合 ARC-AGI-2、AIME 2025、SWE-bench Verified 等主流评测的实时排名，按综合、数学、编程、Agent 等维度快速筛选。

查看评测基准详情数据更新于 2026-07-17 21:55:28

综合排名

目前没有一个被普遍认可的"AI 模型综合排名"，因此我们选取了两个具有代表性、且切入角度不同的综合榜单并列展示。Artificial Analysis 智能指数（AA Intelligence Index）汇总编程、数学、推理等 10 项标准化评测的跑分，衡量模型的客观能力；LMArena（原 Chatbot Arena）基于全球用户匿名盲测 A/B 投票得出的 Elo 分数，反映真实使用体感。两者分别提供客观基准与主观偏好的视角。

AA Intelligence Index

完整排名

汇总编程、数学、科学、推理、智能体等 10 项标准化评测的综合分数。

数据更新于 2026年07月12日

#模型分数

Claude Fable 5Anthropic

GPT-5.6 Sol (max)OpenAI

GPT-5.6 Sol (xhigh)OpenAI

GPT-5.6 Sol (high)OpenAI

Claude Opus 4.8 (max)Anthropic

GPT-5.6 Terra (max)OpenAI

GPT-5.5 (xhigh)OpenAI

Grok 4.5 (high)SpaceXAI

GPT-5.6 Sol (medium)OpenAI

Opus 4.7 (max)Anthropic

来源：Artificial Analysis

LMArena Text Generation

完整排名

基于匿名众包 A/B 对战的 Elo 评分，反映真实用户对回答质量的偏好。

数据更新于 2026年07月10日

#模型Elo

Claude Fable 5Anthropic

1509

Claude Opus 4.6 (thinking)Anthropic

1504

Opus 4.7 (thinking)Anthropic

1503

Claude Opus 4.6Anthropic

1498

Opus 4.7Anthropic

1494

muse-spark-1.1Meta

1490

Muse SparkFacebook AI研究实验室

1488

gpt-5.6-sol-xhighOpenAI

1486

Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind

1486

Gemini 3.1 Pro PreviewGoogle Deep Mind

1485

来源：LMArena

近期排名变化

代码、数学、Agent 榜单近 30 天的排名上升、下降与新上榜模型。

Agent 能力

完整榜单

查看完整大模型动态

单项评测排名

按数学、编程、Agent 等维度筛选排名。下方可切换评测基准，也可直接进入分类排行榜查看完整排名。查看全部评测基准。

评测方向

综合排名

ARC-AGI-2 HLE MMLU Pro 进入全部基准列表

数学

AIME 2025 FrontierMath MATH-500 进入数学能力排行榜

编程

SWE-bench Verified LiveCodeBench SWE-Bench Pro 进入编程能力排行榜

Agent

τ²-Bench Terminal Bench 2.0 Aider-Polyglot 进入 Agent 能力排行榜

参数规模:全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

许可：全部开源闭源

地区：全部国产模型

大模型性能评测结果

数据来源：DataLearnerAI

暂无图表数据

点击任意行查看模型详情；勾选左侧可对比最多 4 个模型。表中分数为各评测模式中的最高得分。

排名	模型						开源情况
	Phi-4-mini-instruct (3.8B) Microsoft Azure	—	—	—	—	—	免费商用	详情
	Qwen2.5-3B 阿里巴巴	—	—	—	—	—	免费商用	详情
	Llama-3.2-3B Facebook AI研究实验室	—	—	—	—	—	免费商用	详情
4	Phi-4-instruct (reasoning-trained) Microsoft Azure	—	—	—	—	—	闭源	详情

Phi-4-mini-instruct (3.8B)Microsoft Azure

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Qwen2.5-3B 阿里巴巴

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Llama-3.2-3B Facebook AI研究实验室

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Phi-4-instruct (reasoning-trained)Microsoft Azure

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

闭源

排序：

排行榜常见问题

排行榜的数据来源是什么？

所有得分来自一手出处：模型官方 model card、技术报告、论文、厂商博客与可复现的第三方评测。每一行均链回对应的模型详情页，可查看原始引用。

为什么同一模型在不同基准上分数差异很大？

每个基准测的能力不一样：推理类（HLE、ARC-AGI-2）、数学类（AIME、FrontierMath）、编程类（SWE-bench Verified）、Agent 工具使用类（τ²-Bench）等。模型在某一能力上专门优化后，往往会牺牲另一些能力，因此排行榜按基准分别展示，而不是合并成一个分数。

排行榜多久更新一次？

数据每 5 分钟自动重新校验一次；新模型或新评测结果一旦公开就会同步收录。页面顶部的"数据更新于"指示器反映最近一次数据刷新时间。

综合排名应该怎么解读？

综合榜聚合了模型在多个核心基准上的位次，可作为初筛工具。但落地选型时建议进入与你业务最相关的单项基准查看，例如 Coding Agent 看 SWE-bench Verified、工具调用场景看 τ²-Bench。

开源大模型和闭源 API 模型怎么对比？

使用顶部的"许可"筛选切换为"全部"，开源与闭源模型可在同一基准列直接对比。除分数外，还需考虑总持有成本：闭源模型按 API 用量计费，开源模型则需衡量自部署的硬件与运维成本。