开源大模型排行榜

排名	模型							开源情况
	DeepSeek-V4-Pro DeepSeek-AI	67.90	48.20	—	—	80.60	—	免费商用	详情
	Kimi K2.6 Moonshot AI	66.70	54.00	—	—	80.20	—	免费商用	详情
	GLM 5.1 智谱AI	63.50	52.30	—	—	—	—	免费商用	详情
4	GLM-5 智谱AI	61.10	50.40	4.90	2.10	77.80	89.70	免费商用	详情
5	Qwen3.6-27B 阿里巴巴	59.30	24.00	—	—	77.20	—	免费商用	详情
6	DeepSeek-V4-Flash DeepSeek-AI	56.90	45.10	—	—	79.00	—	免费商用	详情
7	Qwen3.5-397B-A17B 阿里巴巴	52.50	48.30	—	—	76.40	86.70	免费商用	详情
8	MiniMax M2.5 MiniMaxAI	51.70	19.40	4.90	—	80.20	—	免费商用	详情
9	Qwen3.6-35B-A3B 阿里巴巴	51.50	21.40	—	—	73.40	—	免费商用	详情
10	Step 3.5 Flash StepFunAI	51.00	—	—	—	74.40	88.20	免费商用	详情
11	Kimi K2.5 Moonshot AI	50.80	50.20	11.80	4.20	76.80	—	免费商用	详情
12	M2.1 MiniMaxAI	47.90	22.00	—	—	74.80	—	免费商用	详情
13	DeepSeek V3.2 DeepSeek-AI	46.40	25.10	4.00	2.10	73.10	80.30	免费商用	详情
14	Qwen3.5-27B 阿里巴巴	41.60	48.50	—	—	72.40	79.00	免费商用	详情
15	GLM-4.7 智谱AI	41.00	42.80	—	2.10	73.80	87.40	免费商用	详情
16	Qwen3-Coder-Next 阿里巴巴	36.20	—	—	—	70.60	—	免费商用	详情
17	Qwen3-30B-A3B-2507 阿里巴巴	—	9.80	—	—	22.00	49.00	免费商用	详情
18	DeepSeek V3.2-Exp DeepSeek-AI	—	20.30	—	—	67.80	66.70	免费商用	详情
19	MiniMax-M1-80k MiniMaxAI	—	8.40	—	—	56.00	—	免费商用	详情
20	Qwen3-235B-A22B 阿里巴巴	—	7.60	—	—	34.40	34.40	免费商用	详情
21	MiniMax-M1-40k MiniMaxAI	—	7.20	—	—	55.60	—	免费商用	详情
22	GLM-4.7-Flash 智谱AI	—	14.40	—	—	59.20	79.50	免费商用	详情
23	Kimi K3 Moonshot AI	—	56.00	—	—	—	—	免费商用	详情
24	GLM-5.2 智谱AI	—	54.70	—	—	—	—	免费商用	详情
25	Hy3 腾讯AI实验室	—	53.20	—	—	78.00	—	免费商用	详情
26	Kimi K2 Thinking Moonshot AI	—	51.00	—	—	71.30	—	免费商用	详情
27	GLM-4.6 智谱AI	—	30.40	—	2.10	68.00	75.90	免费商用	详情
28	DeepSeek-V3-0324 DeepSeek-AI	—	5.20	—	—	38.80	38.80	免费商用	详情
29	Step 3.7 Flash StepFunAI	—	47.20	—	—	—	—	免费商用	详情
30	Kimi K2 Moonshot AI	—	4.70	—	0.01	51.80	64.30	免费商用	详情
31	DeepSeek V3.2 Speciale DeepSeek-AI	—	30.60	—	—	—	—	免费商用	详情
32	MiniMax-M2.7 MiniMaxAI	—	28.00	—	—	—	—	不可商用	详情
33	DeepSeek-V3.1 Terminus DeepSeek-AI	—	21.70	—	—	68.40	37.00	免费商用	详情
34	Kimi K2 0905 Moonshot AI	—	21.70	—	—	69.20	—	免费商用	详情
35	Qwen3-235B-A22B-Thinking 阿里巴巴	—	18.20	—	—	—	—	免费商用	详情
36	Qwen3-235B-A22B-Thinking-2507 阿里巴巴	—	18.20	—	—	—	—	免费商用	详情
37	DeepSeek-R1-0528 DeepSeek-AI	—	17.70	1.30	—	57.60	—	免费商用	详情
38	DeepSeek-V3.1 DeepSeek-AI	—	15.90	—	—	66.00	—	免费商用	详情
39	GLM-4.5 智谱AI	—	14.40	—	—	64.20	—	免费商用	详情
40	MiniMax M2 MiniMaxAI	—	12.50	—	—	69.40	77.20	免费商用	详情
41	GLM-4.5-Air 智谱AI	—	10.60	—	—	57.60	—	免费商用	详情
42	DeepSeek-R1 DeepSeek-AI	—	—	—	—	49.20	—	免费商用	详情
43	DeepSeek-V3 DeepSeek-AI	—	—	—	—	—	—	免费商用	详情
44	Qwen2.5-Coder-32B-Instruct 阿里巴巴	—	—	—	—	—	—	免费商用	详情
45	DeepSeek-V2-236B-Chat DeepSeek-AI	—	—	—	—	—	—	免费商用	详情
46	Qwen3-32B 阿里巴巴	—	—	—	—	—	—	免费商用	详情
47	QwQ-32B 阿里巴巴	—	—	—	—	—	—	免费商用	详情
48	MiniMax M3 MiniMaxAI	—	—	—	—	—	—	不可商用	详情
49	Qwen2.5-72B 阿里巴巴	—	—	—	—	—	—	免费商用	详情
50	Qwen2.5-7B 阿里巴巴	—	—	—	—	—	—	免费商用	详情

DeepSeek-V4-Pro DeepSeek-AI

Terminal Bench 2.067.90

HLE48.20

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified80.60

τ²-Bench—

免费商用

Kimi K2.6 Moonshot AI

Terminal Bench 2.066.70

HLE54.00

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified80.20

τ²-Bench—

免费商用

GLM 5.1 智谱AI

Terminal Bench 2.063.50

HLE52.30

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

GLM-5 智谱AI

Terminal Bench 2.061.10

HLE50.40

ARC-AGI-24.90

FrontierMath - Tier 42.10

SWE-bench Verified77.80

τ²-Bench89.70

免费商用

Qwen3.6-27B 阿里巴巴

Terminal Bench 2.059.30

HLE24.00

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified77.20

τ²-Bench—

免费商用

DeepSeek-V4-Flash DeepSeek-AI

Terminal Bench 2.056.90

HLE45.10

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified79.00

τ²-Bench—

免费商用

Qwen3.5-397B-A17B 阿里巴巴

Terminal Bench 2.052.50

HLE48.30

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified76.40

τ²-Bench86.70

免费商用

MiniMax M2.5 MiniMaxAI

Terminal Bench 2.051.70

HLE19.40

ARC-AGI-24.90

FrontierMath - Tier 4—

SWE-bench Verified80.20

τ²-Bench—

免费商用

Qwen3.6-35B-A3B 阿里巴巴

Terminal Bench 2.051.50

HLE21.40

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified73.40

τ²-Bench—

免费商用

Step 3.5 Flash StepFunAI

Terminal Bench 2.051.00

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified74.40

τ²-Bench88.20

免费商用

Kimi K2.5 Moonshot AI

Terminal Bench 2.050.80

HLE50.20

ARC-AGI-211.80

FrontierMath - Tier 44.20

SWE-bench Verified76.80

τ²-Bench—

免费商用

M2.1 MiniMaxAI

Terminal Bench 2.047.90

HLE22.00

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified74.80

τ²-Bench—

免费商用

DeepSeek V3.2 DeepSeek-AI

Terminal Bench 2.046.40

HLE25.10

ARC-AGI-24.00

FrontierMath - Tier 42.10

SWE-bench Verified73.10

τ²-Bench80.30

免费商用

Qwen3.5-27B 阿里巴巴

Terminal Bench 2.041.60

HLE48.50

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified72.40

τ²-Bench79.00

免费商用

GLM-4.7 智谱AI

Terminal Bench 2.041.00

HLE42.80

ARC-AGI-2—

FrontierMath - Tier 42.10

SWE-bench Verified73.80

τ²-Bench87.40

免费商用

Qwen3-Coder-Next 阿里巴巴

Terminal Bench 2.036.20

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified70.60

τ²-Bench—

免费商用

Qwen3-30B-A3B-2507 阿里巴巴

Terminal Bench 2.0—

HLE9.80

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified22.00

τ²-Bench49.00

免费商用

DeepSeek V3.2-Exp DeepSeek-AI

Terminal Bench 2.0—

HLE20.30

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified67.80

τ²-Bench66.70

免费商用

MiniMax-M1-80k MiniMaxAI

Terminal Bench 2.0—

HLE8.40

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified56.00

τ²-Bench—

免费商用

Qwen3-235B-A22B 阿里巴巴

Terminal Bench 2.0—

HLE7.60

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified34.40

τ²-Bench34.40

免费商用

MiniMax-M1-40k MiniMaxAI

Terminal Bench 2.0—

HLE7.20

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified55.60

τ²-Bench—

免费商用

GLM-4.7-Flash 智谱AI

Terminal Bench 2.0—

HLE14.40

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified59.20

τ²-Bench79.50

免费商用

Kimi K3 Moonshot AI

Terminal Bench 2.0—

HLE56.00

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

GLM-5.2 智谱AI

Terminal Bench 2.0—

HLE54.70

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Hy3 腾讯AI实验室

Terminal Bench 2.0—

HLE53.20

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified78.00

τ²-Bench—

免费商用

Kimi K2 Thinking Moonshot AI

Terminal Bench 2.0—

HLE51.00

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified71.30

τ²-Bench—

免费商用

GLM-4.6 智谱AI

Terminal Bench 2.0—

HLE30.40

ARC-AGI-2—

FrontierMath - Tier 42.10

SWE-bench Verified68.00

τ²-Bench75.90

免费商用

DeepSeek-V3-0324 DeepSeek-AI

Terminal Bench 2.0—

HLE5.20

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified38.80

τ²-Bench38.80

免费商用

Step 3.7 Flash StepFunAI

Terminal Bench 2.0—

HLE47.20

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Kimi K2 Moonshot AI

Terminal Bench 2.0—

HLE4.70

ARC-AGI-2—

FrontierMath - Tier 40.01

SWE-bench Verified51.80

τ²-Bench64.30

免费商用

DeepSeek V3.2 Speciale DeepSeek-AI

Terminal Bench 2.0—

HLE30.60

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

MiniMax-M2.7 MiniMaxAI

Terminal Bench 2.0—

HLE28.00

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

不可商用

DeepSeek-V3.1 Terminus DeepSeek-AI

Terminal Bench 2.0—

HLE21.70

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified68.40

τ²-Bench37.00

免费商用

Kimi K2 0905 Moonshot AI

Terminal Bench 2.0—

HLE21.70

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified69.20

τ²-Bench—

免费商用

Qwen3-235B-A22B-Thinking 阿里巴巴

Terminal Bench 2.0—

HLE18.20

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Qwen3-235B-A22B-Thinking-2507 阿里巴巴

Terminal Bench 2.0—

HLE18.20

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

DeepSeek-R1-0528 DeepSeek-AI

Terminal Bench 2.0—

HLE17.70

ARC-AGI-21.30

FrontierMath - Tier 4—

SWE-bench Verified57.60

τ²-Bench—

免费商用

DeepSeek-V3.1 DeepSeek-AI

Terminal Bench 2.0—

HLE15.90

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified66.00

τ²-Bench—

免费商用

GLM-4.5 智谱AI

Terminal Bench 2.0—

HLE14.40

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified64.20

τ²-Bench—

免费商用

MiniMax M2 MiniMaxAI

Terminal Bench 2.0—

HLE12.50

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified69.40

τ²-Bench77.20

免费商用

GLM-4.5-Air 智谱AI

Terminal Bench 2.0—

HLE10.60

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified57.60

τ²-Bench—

免费商用

DeepSeek-R1 DeepSeek-AI

Terminal Bench 2.0—

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified49.20

τ²-Bench—

免费商用

DeepSeek-V3 DeepSeek-AI

Terminal Bench 2.0—

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Qwen2.5-Coder-32B-Instruct 阿里巴巴

Terminal Bench 2.0—

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

DeepSeek-V2-236B-Chat DeepSeek-AI

Terminal Bench 2.0—

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Qwen3-32B 阿里巴巴

Terminal Bench 2.0—

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

QwQ-32B 阿里巴巴

Terminal Bench 2.0—

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

MiniMax M3 MiniMaxAI

Terminal Bench 2.0—

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

不可商用

Qwen2.5-72B 阿里巴巴

Terminal Bench 2.0—

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

Qwen2.5-7B 阿里巴巴

Terminal Bench 2.0—

HLE—

ARC-AGI-2—

FrontierMath - Tier 4—

SWE-bench Verified—

τ²-Bench—

免费商用

排序：

已显示 50 / 76 个模型查看 Terminal Bench 2.0 基准测试完整页面

排行榜常见问题

排行榜上收录了哪些开源大模型？

榜单聚合开放权重或代码公开的大模型，包括 Llama、Qwen、DeepSeek、Mistral、GLM 等模型。这里可能包含宽松协议、非商用协议或其他受限商用协议；GPT、Claude 等仅 API 可用的闭源模型不在此列表中，可在主排行榜查看。

为什么同一模型在不同基准上分数差异很大？

每个基准测的能力不一样：推理类（HLE、ARC-AGI-2）、数学类（AIME、FrontierMath）、编程类（SWE-bench Verified）、Agent 工具使用类（τ²-Bench）等。模型在某一能力上专门优化后，往往会牺牲另一些能力，因此排行榜按基准分别展示，而不是合并成一个分数。

排行榜多久更新一次？

数据每 5 分钟自动重新校验一次；新模型或新评测结果一旦公开就会同步收录。页面顶部的"数据更新于"指示器反映最近一次数据刷新时间。

综合排名应该怎么解读？

综合榜聚合了模型在多个核心基准上的位次，可作为初筛工具。但落地选型时建议进入与你业务最相关的单项基准查看，例如 Coding Agent 看 SWE-bench Verified、工具调用场景看 τ²-Bench。

这些开源大模型可以本地运行吗？

大多数榜单上的开源模型在 Hugging Face 或 GitHub 公开权重，可通过 vLLM、Ollama、llama.cpp 等推理框架部署。硬件需求随参数规模上升：7B 模型可在单张消费级 GPU 运行，65B 以上通常需要多卡或量化部署。

综合排名

目前没有一个被普遍认可的"AI 模型综合排名"，因此我们选取了两个具有代表性、且切入角度不同的综合榜单并列展示。Artificial Analysis 智能指数（AA Intelligence Index）汇总编程、数学、推理等 10 项标准化评测的跑分，衡量模型的客观能力；LMArena（原 Chatbot Arena）基于全球用户匿名盲测 A/B 投票得出的 Elo 分数，反映真实使用体感。两者分别提供客观基准与主观偏好的视角。