加载中...

综合排名

目前没有一个被普遍认可的"AI 模型总排名"，所以我们选了两个切入角度不同的榜单放在一起：AA Intelligence Index 汇总标准化评测跑分，衡量客观能力；LMArena 通过真人盲测投票排序，反映实际使用体感。两者对照看，判断会更全面。

单项评测排名

我们在此精选了几项有代表性的评测基准，切换即可查看模型在该项上的得分。完整的 60+ 评测基准列表请前往评测基准目录。

大模型性能评测结果

数据来源：DataLearnerAI

排名	模型	MMLU Pro	GPQA Diamond	SWE-bench Verified	MATH-500	AIME 2024	LiveCodeBench	参数(亿)	开源情况
1	OpenAI o1	91.04	77.30	48.90	96.40	79.20	71.00	—	不开源
2	Gemini 3.0 Pro (Preview 11-2025)	90.00	91.90	76.20	0.00	0.00	92.00	—	不开源
3	Claude Opus 4.5	90.00	87.00	80.90	0.00	0.00	0.00	—	不开源
4	Claude Opus 4.1	88.00	81.00	74.50	0.00	0.00	0.00	—	不开源
5	M2.1	88.00	81.00	74.80	0.00	0.00	0.00	2300B	免费商用
6	Claude Sonnet 4.5	88.00	83.40	0.00	0.00	0.00	71.00	—	不开源
7	Qwen3.5-397B-A17B	87.80	88.40	76.40	0.00	0.00	0.00	397B	免费商用
8	Qwen3.5-397B-A17B	87.80	88.40	0.00	0.00	0.00	83.60	397B	免费商用
9	Hunyuan-T1	87.20	69.30	0.00	96.20	78.20	64.90	—	不开源
10	Grok 4	87.00	87.00	58.60	0.00	0.00	82.00	—	不开源
11	GPT-4.5	86.10	71.40	38.00	90.70	36.70	46.40	—	不开源
12	Qwen3.5-27B	86.10	85.50	72.40	0.00	0.00	0.00	270B	免费商用
13	Gemini 2.5-Pro	86.00	0.00	0.00	98.80	92.00	77.10	—	不开源
14	Qwen3-Max-Thinking	85.70	87.40	75.30	0.00	0.00	85.90	10000B	不开源
15	OpenAI o3	85.60	0.00	0.00	98.10	91.60	75.80	—	不开源
16	DeepSeek-R1-0528	85.00	81.00	57.60	98.00	91.40	73.30	6710B	免费商用
17	Grok 4.1 Fast	85.00	85.00	0.00	0.00	0.00	82.00	—	不开源
18	DeepSeek V3.2-Exp	85.00	79.90	0.00	0.00	0.00	74.10	6710B	免费商用
19	DeepSeek-V3.1 Terminus	85.00	80.70	68.40	0.00	0.00	74.90	6710B	免费商用
20	DeepSeek-V3.1 Terminus	85.00	79.00	0.00	0.00	0.00	80.00	6710B	免费商用
21	DeepSeek-V3.1	85.00	80.10	0.00	0.00	93.10	74.80	6710B	免费商用
22	Claude Opus 4	85.00	79.60	72.50	98.20	76.00	56.60	—	不开源
23	GLM-4.5	84.60	79.10	64.20	98.20	91.00	72.90	3550B	免费商用
24	Kimi K2 Thinking	84.60	84.50	0.00	0.00	0.00	83.10	10400B	免费商用
25	Qwen3-235B-A22B-Thinking	84.40	81.10	0.00	0.00	0.00	74.10	305B	免费商用
26	Qwen3-235B-A22B-Thinking-2507	84.40	81.10	0.00	0.00	0.00	74.10	2350B	免费商用
27	GLM-4.7	84.30	85.70	0.00	0.00	0.00	84.90	3580B	免费商用
28	DeepSeek-R1	84.00	71.50	49.20	97.30	79.80	65.90	6710B	免费商用
29	Claude Sonnet 4	84.00	75.40	0.00	0.00	0.00	66.00	—	不开源
30	Qwen3 Max (Preview)	84.00	76.00	69.60	0.00	0.00	57.50	—	不开源

OpenAI o1

MMLU Pro91.04

GPQA Diamond77.30

SWE-bench Verified48.90

MATH-50096.40

AIME 202479.20

LiveCodeBench71.00

不开源

Gemini 3.0 Pro (Preview 11-2025)

MMLU Pro90.00

GPQA Diamond91.90

SWE-bench Verified76.20

MATH-5000.00

AIME 20240.00

LiveCodeBench92.00

不开源

Claude Opus 4.5

MMLU Pro90.00

GPQA Diamond87.00

SWE-bench Verified80.90

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

Claude Opus 4.1

MMLU Pro88.00

GPQA Diamond81.00

SWE-bench Verified74.50

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

M2.1

2300B

MMLU Pro88.00

GPQA Diamond81.00

SWE-bench Verified74.80

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Claude Sonnet 4.5

MMLU Pro88.00

GPQA Diamond83.40

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench71.00

不开源

Qwen3.5-397B-A17B

397B

MMLU Pro87.80

GPQA Diamond88.40

SWE-bench Verified76.40

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Qwen3.5-397B-A17B

397B

MMLU Pro87.80

GPQA Diamond88.40

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench83.60

免费商用

Hunyuan-T1

MMLU Pro87.20

GPQA Diamond69.30

SWE-bench Verified0.00

MATH-50096.20

AIME 202478.20

LiveCodeBench64.90

不开源

Grok 4

MMLU Pro87.00

GPQA Diamond87.00

SWE-bench Verified58.60

MATH-5000.00

AIME 20240.00

LiveCodeBench82.00

不开源

GPT-4.5

MMLU Pro86.10

GPQA Diamond71.40

SWE-bench Verified38.00

MATH-50090.70

AIME 202436.70

LiveCodeBench46.40

不开源

Qwen3.5-27B

270B

MMLU Pro86.10

GPQA Diamond85.50

SWE-bench Verified72.40

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Gemini 2.5-Pro

MMLU Pro86.00

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-50098.80

AIME 202492.00

LiveCodeBench77.10

不开源

Qwen3-Max-Thinking

10000B

MMLU Pro85.70

GPQA Diamond87.40

SWE-bench Verified75.30

MATH-5000.00

AIME 20240.00

LiveCodeBench85.90

不开源

OpenAI o3

MMLU Pro85.60

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-50098.10

AIME 202491.60

LiveCodeBench75.80

不开源

DeepSeek-R1-0528

6710B

MMLU Pro85.00

GPQA Diamond81.00

SWE-bench Verified57.60

MATH-50098.00

AIME 202491.40

LiveCodeBench73.30

免费商用

Grok 4.1 Fast

MMLU Pro85.00

GPQA Diamond85.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench82.00

不开源

DeepSeek V3.2-Exp

6710B

MMLU Pro85.00

GPQA Diamond79.90

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench74.10

免费商用

DeepSeek-V3.1 Terminus

6710B

MMLU Pro85.00

GPQA Diamond80.70

SWE-bench Verified68.40

MATH-5000.00

AIME 20240.00

LiveCodeBench74.90

免费商用

DeepSeek-V3.1 Terminus

6710B

MMLU Pro85.00

GPQA Diamond79.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench80.00

免费商用

DeepSeek-V3.1

6710B

MMLU Pro85.00

GPQA Diamond80.10

SWE-bench Verified0.00

MATH-5000.00

AIME 202493.10

LiveCodeBench74.80

免费商用

Claude Opus 4

MMLU Pro85.00

GPQA Diamond79.60

SWE-bench Verified72.50

MATH-50098.20

AIME 202476.00

LiveCodeBench56.60

不开源

GLM-4.5

3550B

MMLU Pro84.60

GPQA Diamond79.10

SWE-bench Verified64.20

MATH-50098.20

AIME 202491.00

LiveCodeBench72.90

免费商用

Kimi K2 Thinking

10400B

MMLU Pro84.60

GPQA Diamond84.50

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench83.10

免费商用

Qwen3-235B-A22B-Thinking

305B

MMLU Pro84.40

GPQA Diamond81.10

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench74.10

免费商用

Qwen3-235B-A22B-Thinking-2507

2350B

MMLU Pro84.40

GPQA Diamond81.10

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench74.10

免费商用

GLM-4.7

3580B

MMLU Pro84.30

GPQA Diamond85.70

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench84.90

免费商用

DeepSeek-R1

6710B

MMLU Pro84.00

GPQA Diamond71.50

SWE-bench Verified49.20

MATH-50097.30

AIME 202479.80

LiveCodeBench65.90

免费商用

Claude Sonnet 4

MMLU Pro84.00

GPQA Diamond75.40

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench66.00

不开源

Qwen3 Max (Preview)

MMLU Pro84.00

GPQA Diamond76.00

SWE-bench Verified69.60

MATH-5000.00

AIME 20240.00

LiveCodeBench57.50

不开源

查看全部 241 个模型的 MMLU Pro 完整排名

综合排名

单项评测排名

我们在此精选了几项有代表性的评测基准，切换即可查看模型在该项上的得分。完整的 60+ 评测基准列表请前往评测基准目录。

大模型性能评测结果

数据来源：DataLearnerAI

排名	模型	MMLU Pro	GPQA Diamond	SWE-bench Verified	MATH-500	AIME 2024	LiveCodeBench	参数(亿)	开源情况
1	OpenAI o1	91.04	77.30	48.90	96.40	79.20	71.00	—	不开源
2	Gemini 3.0 Pro (Preview 11-2025)	90.00	91.90	76.20	0.00	0.00	92.00	—	不开源
3	Claude Opus 4.5	90.00	87.00	80.90	0.00	0.00	0.00	—	不开源
4	Claude Opus 4.1	88.00	81.00	74.50	0.00	0.00	0.00	—	不开源
5	M2.1	88.00	81.00	74.80	0.00	0.00	0.00	2300B	免费商用
6	Claude Sonnet 4.5	88.00	83.40	0.00	0.00	0.00	71.00	—	不开源
7	Qwen3.5-397B-A17B	87.80	88.40	76.40	0.00	0.00	0.00	397B	免费商用
8	Qwen3.5-397B-A17B	87.80	88.40	0.00	0.00	0.00	83.60	397B	免费商用
9	Hunyuan-T1	87.20	69.30	0.00	96.20	78.20	64.90	—	不开源
10	Grok 4	87.00	87.00	58.60	0.00	0.00	82.00	—	不开源
11	GPT-4.5	86.10	71.40	38.00	90.70	36.70	46.40	—	不开源
12	Qwen3.5-27B	86.10	85.50	72.40	0.00	0.00	0.00	270B	免费商用
13	Gemini 2.5-Pro	86.00	0.00	0.00	98.80	92.00	77.10	—	不开源
14	Qwen3-Max-Thinking	85.70	87.40	75.30	0.00	0.00	85.90	10000B	不开源
15	OpenAI o3	85.60	0.00	0.00	98.10	91.60	75.80	—	不开源
16	DeepSeek-R1-0528	85.00	81.00	57.60	98.00	91.40	73.30	6710B	免费商用
17	Grok 4.1 Fast	85.00	85.00	0.00	0.00	0.00	82.00	—	不开源
18	DeepSeek V3.2-Exp	85.00	79.90	0.00	0.00	0.00	74.10	6710B	免费商用
19	DeepSeek-V3.1 Terminus	85.00	80.70	68.40	0.00	0.00	74.90	6710B	免费商用
20	DeepSeek-V3.1 Terminus	85.00	79.00	0.00	0.00	0.00	80.00	6710B	免费商用
21	DeepSeek-V3.1	85.00	80.10	0.00	0.00	93.10	74.80	6710B	免费商用
22	Claude Opus 4	85.00	79.60	72.50	98.20	76.00	56.60	—	不开源
23	GLM-4.5	84.60	79.10	64.20	98.20	91.00	72.90	3550B	免费商用
24	Kimi K2 Thinking	84.60	84.50	0.00	0.00	0.00	83.10	10400B	免费商用
25	Qwen3-235B-A22B-Thinking	84.40	81.10	0.00	0.00	0.00	74.10	305B	免费商用
26	Qwen3-235B-A22B-Thinking-2507	84.40	81.10	0.00	0.00	0.00	74.10	2350B	免费商用
27	GLM-4.7	84.30	85.70	0.00	0.00	0.00	84.90	3580B	免费商用
28	DeepSeek-R1	84.00	71.50	49.20	97.30	79.80	65.90	6710B	免费商用
29	Claude Sonnet 4	84.00	75.40	0.00	0.00	0.00	66.00	—	不开源
30	Qwen3 Max (Preview)	84.00	76.00	69.60	0.00	0.00	57.50	—	不开源

OpenAI o1

MMLU Pro91.04

GPQA Diamond77.30

SWE-bench Verified48.90

MATH-50096.40

AIME 202479.20

LiveCodeBench71.00

不开源

Gemini 3.0 Pro (Preview 11-2025)

MMLU Pro90.00

GPQA Diamond91.90

SWE-bench Verified76.20

MATH-5000.00

AIME 20240.00

LiveCodeBench92.00

不开源

Claude Opus 4.5

MMLU Pro90.00

GPQA Diamond87.00

SWE-bench Verified80.90

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

Claude Opus 4.1

MMLU Pro88.00

GPQA Diamond81.00

SWE-bench Verified74.50

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不开源

M2.1

2300B

MMLU Pro88.00

GPQA Diamond81.00

SWE-bench Verified74.80

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Claude Sonnet 4.5

MMLU Pro88.00

GPQA Diamond83.40

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench71.00

不开源

Qwen3.5-397B-A17B

397B

MMLU Pro87.80

GPQA Diamond88.40

SWE-bench Verified76.40

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Qwen3.5-397B-A17B

397B

MMLU Pro87.80

GPQA Diamond88.40

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench83.60

免费商用

Hunyuan-T1

MMLU Pro87.20

GPQA Diamond69.30

SWE-bench Verified0.00

MATH-50096.20

AIME 202478.20

LiveCodeBench64.90

不开源

Grok 4

MMLU Pro87.00

GPQA Diamond87.00

SWE-bench Verified58.60

MATH-5000.00

AIME 20240.00

LiveCodeBench82.00

不开源

GPT-4.5

MMLU Pro86.10

GPQA Diamond71.40

SWE-bench Verified38.00

MATH-50090.70

AIME 202436.70

LiveCodeBench46.40

不开源

Qwen3.5-27B

270B

MMLU Pro86.10

GPQA Diamond85.50

SWE-bench Verified72.40

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

Gemini 2.5-Pro

MMLU Pro86.00

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-50098.80

AIME 202492.00

LiveCodeBench77.10

不开源

Qwen3-Max-Thinking

10000B

MMLU Pro85.70

GPQA Diamond87.40

SWE-bench Verified75.30

MATH-5000.00

AIME 20240.00

LiveCodeBench85.90

不开源

OpenAI o3

MMLU Pro85.60

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-50098.10

AIME 202491.60

LiveCodeBench75.80

不开源

DeepSeek-R1-0528

6710B

MMLU Pro85.00

GPQA Diamond81.00

SWE-bench Verified57.60

MATH-50098.00

AIME 202491.40

LiveCodeBench73.30

免费商用

Grok 4.1 Fast

MMLU Pro85.00

GPQA Diamond85.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench82.00

不开源

DeepSeek V3.2-Exp

6710B

MMLU Pro85.00

GPQA Diamond79.90

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench74.10

免费商用

DeepSeek-V3.1 Terminus

6710B

MMLU Pro85.00

GPQA Diamond80.70

SWE-bench Verified68.40

MATH-5000.00

AIME 20240.00

LiveCodeBench74.90

免费商用

DeepSeek-V3.1 Terminus

6710B

MMLU Pro85.00

GPQA Diamond79.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench80.00

免费商用

DeepSeek-V3.1

6710B

MMLU Pro85.00

GPQA Diamond80.10

SWE-bench Verified0.00

MATH-5000.00

AIME 202493.10

LiveCodeBench74.80

免费商用

Claude Opus 4

MMLU Pro85.00

GPQA Diamond79.60

SWE-bench Verified72.50

MATH-50098.20

AIME 202476.00

LiveCodeBench56.60

不开源

GLM-4.5

3550B

MMLU Pro84.60

GPQA Diamond79.10

SWE-bench Verified64.20

MATH-50098.20

AIME 202491.00

LiveCodeBench72.90

免费商用

Kimi K2 Thinking

10400B

MMLU Pro84.60

GPQA Diamond84.50

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench83.10

免费商用

Qwen3-235B-A22B-Thinking

305B

MMLU Pro84.40

GPQA Diamond81.10

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench74.10

免费商用

Qwen3-235B-A22B-Thinking-2507

2350B

MMLU Pro84.40

GPQA Diamond81.10

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench74.10

免费商用

GLM-4.7

3580B

MMLU Pro84.30

GPQA Diamond85.70

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench84.90

免费商用

DeepSeek-R1

6710B

MMLU Pro84.00

GPQA Diamond71.50

SWE-bench Verified49.20

MATH-50097.30

AIME 202479.80

LiveCodeBench65.90

免费商用

Claude Sonnet 4

MMLU Pro84.00

GPQA Diamond75.40

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench66.00

不开源

Qwen3 Max (Preview)

MMLU Pro84.00

GPQA Diamond76.00

SWE-bench Verified69.60

MATH-5000.00

AIME 20240.00

LiveCodeBench57.50

不开源

查看全部 241 个模型的 MMLU Pro 完整排名

AI 大模型评测排行榜

综合排名

AA Intelligence Index

LMArena Text Generation

单项评测排名

大模型性能评测结果

AI 大模型评测排行榜

综合排名

AA Intelligence Index

LMArena Text Generation

单项评测排名

大模型性能评测结果