大模型评测基准与性能对比

对比大模型在 MMLU Pro、HLE、SWE-Bench 等评测上的表现，选择评测查看排名。

各个评测基准的详细介绍可见：LLM 评测基准列表与介绍

数据更新于: 2025/11/08 22:10:24

评测切换

在这里切换评测，图表和表格会同步更新

MMLU Pro GPQA Diamond SWE-bench Verified MATH-500 AIME 2024 LiveCodeBench

还有更多评测基准

进入评测基准列表，按类别/语言快速筛选

筛选

已筛选

参数规模

全部 3B及以下

大模型性能评测结果

数据来源：DataLearnerAI

排名	模型	MMLU Pro	GPQA Diamond	SWE-bench Verified	MATH-500	AIME 2024	LiveCodeBench	参数(亿)	开源情况
1	Qwen3.5-397B-A17B	87.80	88.40	76.40	0.00	0.00	83.60	397B	免费商用
2	Qwen3.5-27B	86.10	85.50	72.40

1

Qwen3.5-397B-A17B

397B

MMLU Pro87.80

GPQA Diamond88.40

SWE-bench Verified76.40

MATH-5000.00

AIME 20240.00

LiveCodeBench83.60

免费商用

2

Qwen3.5-27B

270B

MMLU Pro86.10

GPQA Diamond85.50

SWE-bench Verified72.40

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

3

Qwen3-235B-A22B-Thinking

305B

MMLU Pro84.40

GPQA Diamond81.10

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench74.10

免费商用

4

Qwen3-30B-A3B-2507

305B

MMLU Pro78.40

GPQA Diamond70.40

SWE-bench Verified22.00

MATH-5000.00

AIME 20240.00

LiveCodeBench43.20

免费商用

5

QwQ-32B

325B

MMLU Pro76.00

GPQA Diamond58.00

SWE-bench Verified0.00

MATH-50091.00

AIME 202479.50

LiveCodeBench0.00

免费商用

6

GPT OSS 20B

210B

MMLU Pro74.00

GPQA Diamond71.50

SWE-bench Verified34.00

MATH-5000.00

AIME 202496.00

LiveCodeBench0.00

免费商用

7

QwQ-32B-Preview

320B

MMLU Pro70.97

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-50090.60

AIME 202450.00

LiveCodeBench0.00

免费商用

8

Qwen2.5-32B

320B

MMLU Pro69.23

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench51.20

免费商用

9

Qwen3-30B-A3B

305B

MMLU Pro69.10

GPQA Diamond54.80

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench29.00

免费商用

10

Mistral-Small-3.2

240B

MMLU Pro69.06

GPQA Diamond46.13

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

11

Gemma 3 - 27B (IT)

270B

MMLU Pro67.50

GPQA Diamond42.40

SWE-bench Verified0.00

MATH-5000.00

AIME 202425.30

LiveCodeBench29.70

免费商用

12

Mistral-Small-3.1-24B-Instruct-2503

240B

MMLU Pro66.76

GPQA Diamond45.96

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

13

Gemma2-27B

270B

MMLU Pro56.54

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

14

C4AI Aya Vision 32B

320B

MMLU Pro47.16

GPQA Diamond33.84

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

不可商用

15

GLM-4.7-Flash

310B

MMLU Pro0.00

GPQA Diamond75.20

SWE-bench Verified59.20

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

16

Qwen3-32B

320B

MMLU Pro0.00

GPQA Diamond68.40

SWE-bench Verified0.00

MATH-50097.20

AIME 202481.40

LiveCodeBench65.70

免费商用

17

Magistral-Small-2506

240B

MMLU Pro0.00

GPQA Diamond68.18

SWE-bench Verified0.00

MATH-5000.00

AIME 202470.68

LiveCodeBench55.84

免费商用

18

Devstral Small 1.1

240B

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified53.60

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

19

Qwen3-Coder-Flash

305B

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified51.60

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

20

Devstral Small 1.0

240B

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified46.80

MATH-5000.00

AIME 20240.00

LiveCodeBench0.00

免费商用

21

Codestral

220B

MMLU Pro0.00

GPQA Diamond0.00

SWE-bench Verified0.00

MATH-5000.00

AIME 20240.00

LiveCodeBench31.50

不可商用