主流大模型评测基准榜单

OpenAI o1

91.04

77.30

48.90

96.40

79.20

71.00

未知

不开源

OpenAI o1

MMLU Pro (知识问答) 91.04

GPQA Diamond (常识推理) 77.30

SWE-bench Verified (代码生成) 48.90

MATH-500 (数学推理) 96.40

AIME 2024 (数学推理) 79.20

LiveCodeBench (代码生成) 71.00

参数(亿) 未知

开源情况不开源

查看模型详情

Hunyuan-T1

87.20

69.30

未公布

96.20

78.20

64.90

未知

不开源

Hunyuan-T1

MMLU Pro (知识问答) 87.20

GPQA Diamond (常识推理) 69.30

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 96.20

AIME 2024 (数学推理) 78.20

LiveCodeBench (代码生成) 64.90

参数(亿) 未知

开源情况不开源

查看模型详情

Grok 4

87.00

未公布

82.00

未知

不开源

Grok 4

MMLU Pro (知识问答) 87.00

GPQA Diamond (常识推理) 87.00

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

LiveCodeBench (代码生成) 82.00

参数(亿) 未知

开源情况不开源

查看模型详情

Gemini-2.5-Pro-Preview-06-05

86.00

86.40

59.60

98.80

92.00

77.10

未知

不开源

Gemini-2.5-Pro-Preview-06-05

MMLU Pro (知识问答) 86.00

GPQA Diamond (常识推理) 86.40

SWE-bench Verified (代码生成) 59.60

MATH-500 (数学推理) 98.80

AIME 2024 (数学推理) 92.00

LiveCodeBench (代码生成) 77.10

参数(亿) 未知

开源情况不开源

查看模型详情

OpenAI o3

85.60

83.30

69.10

98.10

91.60

75.80

未知

不开源

OpenAI o3

MMLU Pro (知识问答) 85.60

GPQA Diamond (常识推理) 83.30

SWE-bench Verified (代码生成) 69.10

MATH-500 (数学推理) 98.10

AIME 2024 (数学推理) 91.60

LiveCodeBench (代码生成) 75.80

参数(亿) 未知

开源情况不开源

查看模型详情

DeepSeek-R1-0528

85.00

81.00

57.60

98.00

91.40

73.30

6,850

免费商用授权

DeepSeek-R1-0528

MMLU Pro (知识问答) 85.00

GPQA Diamond (常识推理) 81.00

SWE-bench Verified (代码生成) 57.60

MATH-500 (数学推理) 98.00

AIME 2024 (数学推理) 91.40

LiveCodeBench (代码生成) 73.30

参数(亿) 6,850

开源情况免费商用授权

查看模型详情

Claude Opus 4

85.00

79.60

72.50

98.20

76.00

56.60

未知

不开源

Claude Opus 4

MMLU Pro (知识问答) 85.00

GPQA Diamond (常识推理) 79.60

SWE-bench Verified (代码生成) 72.50

MATH-500 (数学推理) 98.20

AIME 2024 (数学推理) 76.00

LiveCodeBench (代码生成) 56.60

参数(亿) 未知

开源情况不开源

查看模型详情

GLM-4.5

84.60

79.10

64.20

98.20

91.00

72.90

3,550

免费商用授权

GLM-4.5

MMLU Pro (知识问答) 84.60

GPQA Diamond (常识推理) 79.10

SWE-bench Verified (代码生成) 64.20

MATH-500 (数学推理) 98.20

AIME 2024 (数学推理) 91.00

LiveCodeBench (代码生成) 72.90

参数(亿) 3,550

开源情况免费商用授权

查看模型详情

Qwen3-235B-A22B-Thinking-2507

84.40

81.10

未公布

74.10

2,350

免费商用授权

Qwen3-235B-A22B-Thinking-2507

MMLU Pro (知识问答) 84.40

GPQA Diamond (常识推理) 81.10

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

LiveCodeBench (代码生成) 74.10

参数(亿) 2,350

开源情况免费商用授权

查看模型详情

DeepSeek-R1

84.00

71.50

49.20

97.30

79.80

65.90

6,710

免费商用授权

#10

DeepSeek-R1

MMLU Pro (知识问答) 84.00

GPQA Diamond (常识推理) 71.50

SWE-bench Verified (代码生成) 49.20

MATH-500 (数学推理) 97.30

AIME 2024 (数学推理) 79.80

LiveCodeBench (代码生成) 65.90

参数(亿) 6,710

开源情况免费商用授权

查看模型详情

GLM-4.5-Air

81.40

75.00

57.60

98.10

89.40

70.70

1,060

免费商用授权

#11

GLM-4.5-Air

MMLU Pro (知识问答) 81.40

GPQA Diamond (常识推理) 75.00

SWE-bench Verified (代码生成) 57.60

MATH-500 (数学推理) 98.10

AIME 2024 (数学推理) 89.40

LiveCodeBench (代码生成) 70.70

参数(亿) 1,060

开源情况免费商用授权

查看模型详情

MiniMax-M1-80k

81.10

70.00

56.00

96.80

86.00

65.00

4,560

免费商用授权

#12

MiniMax-M1-80k

MMLU Pro (知识问答) 81.10

GPQA Diamond (常识推理) 70.00

SWE-bench Verified (代码生成) 56.00

MATH-500 (数学推理) 96.80

AIME 2024 (数学推理) 86.00

LiveCodeBench (代码生成) 65.00

参数(亿) 4,560

开源情况免费商用授权

查看模型详情

MiniMax-M1-40k

80.60

69.20

55.60

96.00

83.30

62.30

4,560

免费商用授权

#13

MiniMax-M1-40k

MMLU Pro (知识问答) 80.60

GPQA Diamond (常识推理) 69.20

SWE-bench Verified (代码生成) 55.60

MATH-500 (数学推理) 96.00

AIME 2024 (数学推理) 83.30

LiveCodeBench (代码生成) 62.30

参数(亿) 4,560

开源情况免费商用授权

查看模型详情

OpenAI o4 - mini

80.60

81.40

68.10

未公布

93.40

未公布

未知

不开源

#14

OpenAI o4 - mini

MMLU Pro (知识问答) 80.60

GPQA Diamond (常识推理) 81.40

SWE-bench Verified (代码生成) 68.10

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 93.40

LiveCodeBench (代码生成) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

OpenAI o1-mini

80.30

60.00

未公布

90.00

63.60

52.00

未知

不开源

#15

OpenAI o1-mini

MMLU Pro (知识问答) 80.30

GPQA Diamond (常识推理) 60.00

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 90.00

AIME 2024 (数学推理) 63.60

LiveCodeBench (代码生成) 52.00

参数(亿) 未知

开源情况不开源

查看模型详情

Hunyuan-TurboS

79.00

57.50

未公布

32.00

未知

不开源

#16

Hunyuan-TurboS

MMLU Pro (知识问答) 79.00

GPQA Diamond (常识推理) 57.50

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

LiveCodeBench (代码生成) 32.00

参数(亿) 未知

开源情况不开源

查看模型详情

QwQ-32B

76.00

58.00

未公布

91.00

79.50

未公布

325

免费商用授权

#17

QwQ-32B

MMLU Pro (知识问答) 76.00

GPQA Diamond (常识推理) 58.00

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 91.00

AIME 2024 (数学推理) 79.50

LiveCodeBench (代码生成) 未公布

参数(亿) 325

开源情况免费商用授权

查看模型详情

Qwen3-235B-A22B

72.90

71.10

34.40

98.00

85.70

70.70

2,350

免费商用授权

#18

Qwen3-235B-A22B

MMLU Pro (知识问答) 72.90

GPQA Diamond (常识推理) 71.10

SWE-bench Verified (代码生成) 34.40

MATH-500 (数学推理) 98.00

AIME 2024 (数学推理) 85.70

LiveCodeBench (代码生成) 70.70

参数(亿) 2,350

开源情况免费商用授权

查看模型详情

Qwen3-8B

72.50

未公布

79.40

61.80

免费商用授权

#19

Qwen3-8B

MMLU Pro (知识问答) 72.50

GPQA Diamond (常识推理) 未公布

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 79.40

LiveCodeBench (代码生成) 61.80

参数(亿) 80

开源情况免费商用授权

查看模型详情

QwQ-32B-Preview

70.97

未公布

90.60

50.00

未公布

320

免费商用授权

#20

QwQ-32B-Preview

MMLU Pro (知识问答) 70.97

GPQA Diamond (常识推理) 未公布

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 90.60

AIME 2024 (数学推理) 50.00

LiveCodeBench (代码生成) 未公布

参数(亿) 320

开源情况免费商用授权

查看模型详情

Qwen3-30B-A3B

69.10

54.80

未公布

29.00

305

免费商用授权

#21

Qwen3-30B-A3B

MMLU Pro (知识问答) 69.10

GPQA Diamond (常识推理) 54.80

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

LiveCodeBench (代码生成) 29.00

参数(亿) 305

开源情况免费商用授权

查看模型详情

DeepSeek-R1-Distill-Llama-70B

未公布

65.20

未公布

94.50

未公布

700

免费商用授权

#22

DeepSeek-R1-Distill-Llama-70B

MMLU Pro (知识问答) 未公布

GPQA Diamond (常识推理) 65.20

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 94.50

AIME 2024 (数学推理) 未公布

LiveCodeBench (代码生成) 未公布

参数(亿) 700

开源情况免费商用授权

查看模型详情

Kimi k1.5 (Long-CoT)

未公布

96.20

未公布

未知

不开源

#23

Kimi k1.5 (Long-CoT)

MMLU Pro (知识问答) 未公布

GPQA Diamond (常识推理) 未公布

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 96.20

AIME 2024 (数学推理) 未公布

LiveCodeBench (代码生成) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

Grok-3 mini - Reasoning

未公布

84.00

未公布

96.00

未公布

未知

不开源

#24

Grok-3 mini - Reasoning

MMLU Pro (知识问答) 未公布

GPQA Diamond (常识推理) 84.00

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 96.00

LiveCodeBench (代码生成) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

Grok-3 - Reasoning Beta

未公布

84.60

未公布

93.30

79.40

未知

不开源

#25

Grok-3 - Reasoning Beta

MMLU Pro (知识问答) 未公布

GPQA Diamond (常识推理) 84.60

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 93.30

LiveCodeBench (代码生成) 79.40

参数(亿) 未知

开源情况不开源

查看模型详情

Grok 4 (TTC)

未公布

88.00

未公布

未知

不开源

#26

Grok 4 (TTC)

MMLU Pro (知识问答) 未公布

GPQA Diamond (常识推理) 88.00

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

LiveCodeBench (代码生成) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

Claude Sonnet 3.7-64K Extended Thinking

未公布

84.80

未公布

96.20

80.00

未公布

未知

不开源

#27

Claude Sonnet 3.7-64K Extended Thinking

MMLU Pro (知识问答) 未公布

GPQA Diamond (常识推理) 84.80

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 96.20

AIME 2024 (数学推理) 80.00

LiveCodeBench (代码生成) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

Gemini 2.5 Flash-Lite

未公布

66.70

27.60

未公布

34.30

未知

不开源

#28

Gemini 2.5 Flash-Lite

MMLU Pro (知识问答) 未公布

GPQA Diamond (常识推理) 66.70

SWE-bench Verified (代码生成) 27.60

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

LiveCodeBench (代码生成) 34.30

参数(亿) 未知

开源情况不开源

查看模型详情

Gemini 2.5 Pro Deep Think

未公布

80.40

未知

不开源

#29

Gemini 2.5 Pro Deep Think

MMLU Pro (知识问答) 未公布

GPQA Diamond (常识推理) 未公布

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

LiveCodeBench (代码生成) 80.40

参数(亿) 未知

开源情况不开源

查看模型详情

Phi-4-instruct (reasoning-trained)

未公布

49.00

未公布

90.40

50.00

未公布

不开源

#30

Phi-4-instruct (reasoning-trained)

MMLU Pro (知识问答) 未公布

GPQA Diamond (常识推理) 49.00

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 90.40

AIME 2024 (数学推理) 50.00

LiveCodeBench (代码生成) 未公布

参数(亿) 38

开源情况不开源

查看模型详情

DeepSeek-R1-Distill-Qwen-7B

未公布

49.50

未公布

91.40

53.30

未公布

免费商用授权

#31

DeepSeek-R1-Distill-Qwen-7B

MMLU Pro (知识问答) 未公布

GPQA Diamond (常识推理) 49.50

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 91.40

AIME 2024 (数学推理) 53.30

LiveCodeBench (代码生成) 未公布

参数(亿) 70

开源情况免费商用授权

查看模型详情

o3-pro

未公布

84.00

75.00

未公布

93.00

未公布

未知

不开源

#32

o3-pro

MMLU Pro (知识问答) 未公布

GPQA Diamond (常识推理) 84.00

SWE-bench Verified (代码生成) 75.00

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 93.00

LiveCodeBench (代码生成) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

Magistral-Medium-2506

未公布

70.83

未公布

73.59

59.36

未知

不开源

#33

Magistral-Medium-2506

MMLU Pro (知识问答) 未公布

GPQA Diamond (常识推理) 70.83

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 73.59

LiveCodeBench (代码生成) 59.36

参数(亿) 未知

开源情况不开源

查看模型详情

Magistral-Small-2506

未公布

68.18

未公布

70.68

55.84

240

免费商用授权

#34

Magistral-Small-2506

MMLU Pro (知识问答) 未公布

GPQA Diamond (常识推理) 68.18

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 70.68

LiveCodeBench (代码生成) 55.84

参数(亿) 240

开源情况免费商用授权

查看模型详情

Gemini 2.5 Pro Experimental 03-25

未公布

84.00

63.80

未公布

92.00

70.40

未知

不开源

#35

Gemini 2.5 Pro Experimental 03-25

MMLU Pro (知识问答) 未公布

GPQA Diamond (常识推理) 84.00

SWE-bench Verified (代码生成) 63.80

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 92.00

LiveCodeBench (代码生成) 70.40

参数(亿) 未知

开源情况不开源

查看模型详情

OpenAI o3-mini (medium)

未公布

67.40

未知

不开源

#36

OpenAI o3-mini (medium)

MMLU Pro (知识问答) 未公布

GPQA Diamond (常识推理) 未公布

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

LiveCodeBench (代码生成) 67.40

参数(亿) 未知

开源情况不开源

查看模型详情

OpenAI o3-mini (high)

未公布

79.70

49.30

97.90

87.00

69.50

未知

不开源

#37

OpenAI o3-mini (high)

MMLU Pro (知识问答) 未公布

GPQA Diamond (常识推理) 79.70

SWE-bench Verified (代码生成) 49.30

MATH-500 (数学推理) 97.90

AIME 2024 (数学推理) 87.00

LiveCodeBench (代码生成) 69.50

参数(亿) 未知

开源情况不开源

查看模型详情

Claude Sonnet 4

未公布

75.40

72.70

未公布

43.40

48.50

未知

不开源

#38

Claude Sonnet 4

MMLU Pro (知识问答) 未公布

GPQA Diamond (常识推理) 75.40

SWE-bench Verified (代码生成) 72.70

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 43.40

LiveCodeBench (代码生成) 48.50

参数(亿) 未知

开源情况不开源

查看模型详情

Gemini-2.5-Pro-Preview-05-06

未公布

83.00

63.20

98.80

92.00

77.10

未知

不开源

#39

Gemini-2.5-Pro-Preview-05-06

MMLU Pro (知识问答) 未公布

GPQA Diamond (常识推理) 83.00

SWE-bench Verified (代码生成) 63.20

MATH-500 (数学推理) 98.80

AIME 2024 (数学推理) 92.00

LiveCodeBench (代码生成) 77.10

参数(亿) 未知

开源情况不开源

查看模型详情

Grok 3.5

未公布

未知

不开源

#40

Grok 3.5

MMLU Pro (知识问答) 未公布

GPQA Diamond (常识推理) 未公布

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

LiveCodeBench (代码生成) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

Kimi-k1.6-IOI-high

未公布

73.80

未知

不开源

#41

Kimi-k1.6-IOI-high

MMLU Pro (知识问答) 未公布

GPQA Diamond (常识推理) 未公布

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

LiveCodeBench (代码生成) 73.80

参数(亿) 未知

开源情况不开源

查看模型详情

Qwen3-32B

未公布

53.30

未公布

81.40

65.70

320

免费商用授权

#42

Qwen3-32B

MMLU Pro (知识问答) 未公布

GPQA Diamond (常识推理) 53.30

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 81.40

LiveCodeBench (代码生成) 65.70

参数(亿) 320

开源情况免费商用授权

查看模型详情

Kimi-k1.6-IOI

未公布

65.90

未知

不开源

#43

Kimi-k1.6-IOI

MMLU Pro (知识问答) 未公布

GPQA Diamond (常识推理) 未公布

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

LiveCodeBench (代码生成) 65.90

参数(亿) 未知

开源情况不开源

查看模型详情

QwQ-Max-Preview

未公布

65.60

未知

免费商用授权

#44

QwQ-Max-Preview

MMLU Pro (知识问答) 未公布

GPQA Diamond (常识推理) 未公布

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

LiveCodeBench (代码生成) 65.60

参数(亿) 未知

开源情况免费商用授权

查看模型详情

Kimi k1.5 (Short-CoT)

未公布

94.60

未公布

未知

不开源

#45

Kimi k1.5 (Short-CoT)

MMLU Pro (知识问答) 未公布

GPQA Diamond (常识推理) 未公布

SWE-bench Verified (代码生成) 未公布

MATH-500 (数学推理) 94.60

AIME 2024 (数学推理) 未公布

LiveCodeBench (代码生成) 未公布

参数(亿) 未知

开源情况不开源

查看模型详情

Gemini 2.5 Flash

未公布

78.30

63.80

未公布

88.00

63.40

未知

不开源

#46

Gemini 2.5 Flash

MMLU Pro (知识问答) 未公布

GPQA Diamond (常识推理) 78.30

SWE-bench Verified (代码生成) 63.80

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 88.00

LiveCodeBench (代码生成) 63.40

参数(亿) 未知

开源情况不开源

查看模型详情

大模型评测基准与性能对比

大模型性能评测结果

自定义评测选择

大模型评测基准与性能对比

大模型性能评测结果

自定义评测选择

评测基准选择

模型选择