开源大模型排行榜

聚合开源与开放权重大模型在主流评测基准上的排名，并集中对比得分、参数规模与许可证信息。

查看评测基准详情数据更新于 2026-06-15 07:27:26

综合排名

目前没有一个被普遍认可的"AI 模型综合排名"，因此我们选取了两个具有代表性、且切入角度不同的综合榜单并列展示。Artificial Analysis 智能指数（AA Intelligence Index）汇总编程、数学、推理等 10 项标准化评测的跑分，衡量模型的客观能力；LMArena（原 Chatbot Arena）基于全球用户匿名盲测 A/B 投票得出的 Elo 分数，反映真实使用体感。两者分别提供客观基准与主观偏好的视角。

AA Intelligence Index

完整排名

汇总编程、数学、科学、推理、智能体等 10 项标准化评测的综合分数。

数据更新于 2026年06月13日

#模型分数

Claude Fable 5 (with fallback)Anthropic

Claude Opus 4.8 (max)Anthropic

GPT-5.5 (xhigh)OpenAI

GPT-5.5 (high)OpenAI

Opus 4.7 (max)Anthropic

Gemini 3.1 Pro PreviewGoogle Deep Mind

GPT-5.5 (medium)OpenAI

阿

Qwen3.7 Max阿里巴巴

Gemini 3.5 FlashGoogle Deep Mind

Gemini 3.5 Flash (medium)Google

来源：Artificial Analysis

LMArena Text Generation

完整排名

基于匿名众包 A/B 对战的 Elo 评分，反映真实用户对回答质量的偏好。

数据更新于 2026年06月10日

#模型Elo

claude-fable-5Anthropic

1510

Claude Opus 4.6 (thinking)Anthropic

1504

Opus 4.7 (thinking)Anthropic

1502

Claude Opus 4.6Anthropic

1498

Opus 4.7Anthropic

1492

Muse SparkFacebook AI研究实验室

1487

Gemini 3.1 Pro PreviewGoogle Deep Mind

1487

Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind

1486

claude-opus-4-8-thinkingAnthropic

1486

GPT-5.5 (high)OpenAI

1481

来源：LMArena

知名模型开发商

查看全部 99 家机构

点击进入开发商主页，查看其全部模型、系列与产品线。

xAI

百度

今日推荐每日轮换 · 发现更多机构

Moonshot AI14 个模型 · 海外

北京智源人工智能研究院16 个模型 · 海外

面壁智能5 个模型 · 海外

IDEA研究院4 个模型 · 海外

单项评测排名

按数学、编程、Agent 等维度筛选排名。下方可切换评测基准，也可直接进入分类排行榜查看完整排名。查看全部评测基准。

评测方向

综合排名

ARC-AGI-2 HLE MMLU Pro 进入全部基准列表

数学

AIME 2025 FrontierMath MATH-500 进入数学能力排行榜

编程

SWE-bench Verified LiveCodeBench SWE-Bench Pro 进入编程能力排行榜

Agent

τ²-Bench Terminal Bench 2.0 Aider-Polyglot 进入 Agent 能力排行榜

参数规模:全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

开源：全部开源闭源

来源：全部国产模型

AI 模型推荐

按 AIME2025 排序

当前 SOTA

Step 3.5 Flash

StepFunAI

99.80AIME2025

查看详情

最佳开源

Step 3.5 Flash

StepFunAI

99.80AIME2025

查看详情

最佳国产

Step 3.5 Flash

StepFunAI

99.80AIME2025

查看详情

大模型性能评测结果

数据来源：DataLearnerAI

点击任意行查看模型详情；勾选左侧可对比最多 4 个模型。表中分数为各评测模式中的最高得分。

排名	模型						开源情况
	Step 3.5 Flash StepFunAI	—	—	—	74.40	88.20	免费商用	详情
	GLM-4.6 智谱AI	30.40	—	2.10	68.00	75.90	免费商用	详情
	GLM-4.7 智谱AI	42.80	—	2.10	73.80	87.40	免费商用	详情
4	DeepSeek-V3.1 Terminus DeepSeek-AI	21.70	—	—	68.40	37.00	免费商用	详情
5	DeepSeek-V3.1 DeepSeek-AI	15.90	—	—	66.00	—	免费商用	详情
6	Qwen3-4B-Thinking-2507 阿里巴巴	—	—	—	—	—	免费商用	详情
7	M2.1 MiniMaxAI	22.00	—	—	74.80	—	免费商用	详情
8	MiniMax M2 MiniMaxAI	12.50	—	—	69.40	77.20	免费商用	详情
9	Hunyuan-7B Tencent ARC	—	—	—	—	—	免费商用	详情
10	Kimi K2 0905 Moonshot AI	21.70	—	—	69.20	—	免费商用	详情
11	Qwen3-235B-A22B-2507 阿里巴巴	—	1.30	—	—	—	免费商用	详情
12	Qwen3-Next 阿里巴巴	—	—	—	—	—	免费商用	详情
13	Pangu Pro MoE 华为	—	—	—	—	—	免费商用	详情
14	Qwen3-30B-A3B-2507 阿里巴巴	9.80	—	—	22.00	49.00	免费商用	详情
15	Kimi K2 Moonshot AI	4.70	—	0.01	51.80	64.30	免费商用	详情
16	DeepSeek-V3-0324 DeepSeek-AI	5.20	—	—	38.80	38.80	免费商用	详情
17	Qwen3-4B-2507 阿里巴巴	—	—	—	—	—	免费商用	详情
18	ERNIE-4.5-300B-A47B 百度	—	—	—	—	—	免费商用	详情
19	GLM-5 智谱AI	50.40	4.90	2.10	77.80	89.70	免费商用	详情
20	Gemma 4 31B DeepMind	26.50	—	—	—	76.90	免费商用	详情
21	Gemma 4 26B A4B DeepMind	17.20	—	—	—	68.20	免费商用	详情
22	Mistral-7B-Instruct-v0.3 MistralAI	—	—	—	—	—	免费商用	详情
23	Moonlight-16B-A3B-Instruct Moonshot AI	—	—	—	—	—	免费商用	详情
24	Llama3.1-8B-Instruct Facebook AI研究实验室	—	—	—	—	—	免费商用	详情
25	DeepSeek-V3 DeepSeek-AI	—	—	—	—	—	免费商用	详情
26	Pangu Embedded 华为	—	—	—	—	—	免费商用	详情
27	Llama3-70B Facebook AI研究实验室	—	—	—	—	—	免费商用	详情
28	Grok 2 xAI	—	—	—	—	—	免费商用	详情
29	GLM-4-9B-Chat 智谱AI	—	—	—	—	—	免费商用	详情
30	Mistral-Small-3.2 MistralAI	—	—	—	—	—	免费商用	详情
31	Llama3.3-70B-Instruct Facebook AI研究实验室	—	—	—	—	—	免费商用	详情
32	Gemma 3 - 27B (IT) Google Deep Mind	—	—	—	—	—	免费商用	详情
33	Mixtral-8x22B-Instruct-v0.1 MistralAI	—	—	—	—	—	免费商用	详情
34	Llama3-70B-Instruct Facebook AI研究实验室	—	—	—	—	—	免费商用	详情
35	Phi-4-mini-instruct (3.8B) Microsoft Azure	—	—	—	—	—	免费商用	详情

Step 3.5 Flash StepFunAI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified74.40

τ²-Bench88.20

免费商用

GLM-4.6 智谱AI

HLE30.40

ARC-AGI-2—

FrontierMath - Tier 42.10

SWE-bench Verified68.00

τ²-Bench75.90

免费商用

GLM-4.7 智谱AI

HLE42.80

ARC-AGI-2—

FrontierMath - Tier 42.10

SWE-bench Verified73.80

τ²-Bench87.40

免费商用

DeepSeek-V3.1 Terminus DeepSeek-AI

HLE21.70

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified68.40

τ²-Bench37.00

免费商用

DeepSeek-V3.1 DeepSeek-AI

HLE15.90

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified66.00

τ²-Bench—

免费商用

Qwen3-4B-Thinking-2507 阿里巴巴

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

M2.1 MiniMaxAI

HLE22.00

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified74.80

τ²-Bench—

免费商用

MiniMax M2 MiniMaxAI

HLE12.50

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified69.40

τ²-Bench77.20

免费商用

Hunyuan-7B Tencent ARC

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Kimi K2 0905 Moonshot AI

HLE21.70

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified69.20

τ²-Bench—

免费商用

Qwen3-235B-A22B-2507 阿里巴巴

HLE—

ARC-AGI-21.30

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Qwen3-Next 阿里巴巴

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Pangu Pro MoE 华为

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Qwen3-30B-A3B-2507 阿里巴巴

HLE9.80

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified22.00

τ²-Bench49.00

免费商用

Kimi K2 Moonshot AI

HLE4.70

ARC-AGI-2—

FrontierMath - Tier 40.01

SWE-bench Verified51.80

τ²-Bench64.30

免费商用

DeepSeek-V3-0324 DeepSeek-AI

HLE5.20

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified38.80

τ²-Bench38.80

免费商用

Qwen3-4B-2507 阿里巴巴

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

ERNIE-4.5-300B-A47B 百度

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

GLM-5 智谱AI

HLE50.40

ARC-AGI-24.90

FrontierMath - Tier 42.10

SWE-bench Verified77.80

τ²-Bench89.70

免费商用

Gemma 4 31B DeepMind

HLE26.50

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench76.90

免费商用

Gemma 4 26B A4B DeepMind

HLE17.20

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench68.20

免费商用

Mistral-7B-Instruct-v0.3 MistralAI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Moonlight-16B-A3B-Instruct Moonshot AI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Llama3.1-8B-Instruct Facebook AI研究实验室

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

DeepSeek-V3 DeepSeek-AI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Pangu Embedded 华为

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Llama3-70B Facebook AI研究实验室

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Grok 2 xAI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

GLM-4-9B-Chat 智谱AI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Mistral-Small-3.2 MistralAI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Llama3.3-70B-Instruct Facebook AI研究实验室

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Gemma 3 - 27B (IT)Google Deep Mind

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Mixtral-8x22B-Instruct-v0.1 MistralAI

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Llama3-70B-Instruct Facebook AI研究实验室

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Phi-4-mini-instruct (3.8B)Microsoft Azure

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

排序：

排行榜常见问题

排行榜上收录了哪些开源大模型？

榜单聚合开放权重或代码公开的大模型，包括 Llama、Qwen、DeepSeek、Mistral、GLM 等模型。这里可能包含宽松协议、非商用协议或其他受限商用协议；GPT、Claude 等仅 API 可用的闭源模型不在此列表中，可在主排行榜查看。

为什么同一模型在不同基准上分数差异很大？

每个基准测的能力不一样：推理类（HLE、ARC-AGI-2）、数学类（AIME、FrontierMath）、编程类（SWE-bench Verified）、Agent 工具使用类（τ²-Bench）等。模型在某一能力上专门优化后，往往会牺牲另一些能力，因此排行榜按基准分别展示，而不是合并成一个分数。

排行榜多久更新一次？

数据每 5 分钟自动重新校验一次；新模型或新评测结果一旦公开就会同步收录。页面顶部的"数据更新于"指示器反映最近一次数据刷新时间。

综合排名应该怎么解读？

综合榜聚合了模型在多个核心基准上的位次，可作为初筛工具。但落地选型时建议进入与你业务最相关的单项基准查看，例如 Coding Agent 看 SWE-bench Verified、工具调用场景看 τ²-Bench。

这些开源大模型可以本地运行吗？

大多数榜单上的开源模型在 Hugging Face 或 GitHub 公开权重，可通过 vLLM、Ollama、llama.cpp 等推理框架部署。硬件需求随参数规模上升：7B 模型可在单张消费级 GPU 运行，65B 以上通常需要多卡或量化部署。