AI 大模型评测排行榜

综合排名与各项 Benchmark 分数持续更新，覆盖 MMLU Pro、HLE、SWE-Bench 等主流评测，帮你快速定位最优模型。

查看评测基准详情数据更新于 2025/11/08 22:10:24

综合排名

目前没有一个被普遍认可的"AI 模型总排名"，所以我们选了两个切入角度不同的榜单放在一起：AA Intelligence Index 汇总标准化评测跑分，衡量客观能力；LMArena 通过真人盲测投票排序，反映实际使用体感。两者对照看，判断会更全面。

AA Intelligence Index

完整排名

汇总编程、数学、科学、推理、智能体等 10 项标准化评测的综合分数。

数据更新于 2026年03月26日

#模型分数

Gemini 3.1 Pro Preview

Google

GPT-5.4 (xhigh)

OpenAI

GPT-5.3 Codex (xhigh)

OpenAI

Claude Opus 4.6 (max)

Anthropic

Claude Sonnet 4.6 (max)

来源：Artificial Analysis

LMArena Text Generation

完整排名

基于匿名众包 A/B 对战的 Elo 评分，反映真实用户对回答质量的偏好。

数据更新于 2026年03月20日

#模型Elo

claude-opus-4-6-thinking

Anthropic

1502

claude-opus-4-6

Anthropic

1501

gemini-3.1-pro-preview

Google

1493

单项评测排名

我们在此精选了几项有代表性的评测基准，切换即可查看模型在该项上的得分。完整的 60+ 评测基准列表请前往评测基准目录。

综合评估MMLU Pro GPQA Diamond

编程与软件工程SWE-bench Verified LiveCodeBench

数学推理MATH-500 AIME 2024

更多评测

参数规模:全部 3B及以下 7B

排名

模型

MMLU Pro

GPQA Diamond

SWE-bench Verified

MATH-500

AIME 2024

LiveCodeBench

M2.1

88.00

81.00

74.80

0.00

Claude Sonnet 4.5

88.00

83.40

82.00

0.00

71.00

GPT-4.5

86.10

71.40

38.00

90.70

36.70

46.40

DeepSeek-V3.1

85.00

80.10

66.00

0.00

93.10

74.80

DeepSeek-V3.1 Terminus

85.00

80.70

68.40

0.00

80.00

GLM-4.7

84.30

85.70

73.80

0.00

84.90

Qwen3 Max (Preview)

84.00

76.00

69.60

0.00

57.50

Qwen3-235B-A22B-2507

83.00

77.50

0.00

51.80

GLM-4.6

83.00

82.90

68.00

0.00

84.50

Pangu Pro MoE

82.60

73.70

0.00

96.80

79.20

59.60

MiniMax M2

82.00

78.00

69.40

0.00

83.00

DeepSeek-V3-0324

81.20

68.40

38.80

94.00

59.40

49.20

Kimi K2

81.10

75.10

51.80

97.40

69.60

53.70

GPT-4.1

80.50

66.30

54.60

92.80

48.10

40.50

GPT-4o(2025-03-27)

79.80

66.90

0.00

35.80

Gemini 2.0 Pro Experimental

79.10

64.70

0.00

36.00

0.00

Pangu Embedded

79.00

0.00

92.40

81.90

67.10

ERNIE-4.5-300B-A47B

78.40

0.00

96.40

54.80

38.80

Qwen3-30B-A3B-2507

78.40

70.40

22.00

0.00

43.20

Claude 3.5 Sonnet New

78.00

65.00

49.00

78.00

16.00

38.70

GPT-4o(2024-11-20)

77.90

0.00

31.00

0.00

Qwen2.5-Max

76.10

0.00

DeepSeek-V3

75.90

59.10

0.00

87.80

39.00

34.60

Grok 2

75.50

56.00

0.00

GLM-4-9B-Chat

72.40

0.00

76.40

51.80

Gemini 2.0 Flash-Lite

71.60

51.50

0.00

28.90

Mistral-Small-3.2

69.06

46.13

0.00

Llama3.3-70B-Instruct

68.90

50.50

0.00

33.30

Gemma 3 - 27B (IT)

67.50

42.40

0.00

25.30

29.70

Qwen3-Next

66.05

0.00

56.60

综合排名

AA Intelligence Index

LMArena Text Generation

单项评测排名

大模型性能评测结果