DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
工具
语言中文

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

AI 大模型评测排行榜

综合排名与各项 Benchmark 分数持续更新,覆盖 MMLU Pro、HLE、SWE-Bench 等主流评测,帮你快速定位最优模型。

查看评测基准详情数据更新于 2025/11/08 22:10:24

综合排名

目前没有一个被普遍认可的"AI 模型总排名",所以我们选了两个切入角度不同的榜单放在一起:AA Intelligence Index 汇总标准化评测跑分,衡量客观能力;LMArena 通过真人盲测投票排序,反映实际使用体感。两者对照看,判断会更全面。

AA Intelligence Index

完整排名

汇总编程、数学、科学、推理、智能体等 10 项标准化评测的综合分数。

数据更新于 2026年03月26日

#模型分数
1
Gemini 3.1 Pro Preview
Google
57
2
GPT-5.4 (xhigh)
OpenAI
57
3
GPT-5.3 Codex (xhigh)
OpenAI
54
4
Claude Opus 4.6 (max)
Anthropic
53
5
Claude Sonnet 4.6 (max)
来源:Artificial Analysis

LMArena Text Generation

完整排名

基于匿名众包 A/B 对战的 Elo 评分,反映真实用户对回答质量的偏好。

数据更新于 2026年03月20日

#模型Elo
1
claude-opus-4-6-thinking
Anthropic
1502
2
claude-opus-4-6
Anthropic
1501
3
gemini-3.1-pro-preview
Google
1493
4

单项评测排名

我们在此精选了几项有代表性的评测基准,切换即可查看模型在该项上的得分。完整的 60+ 评测基准列表请前往评测基准目录。

综合评估MMLU ProGPQA Diamond
编程与软件工程SWE-bench VerifiedLiveCodeBench
数学推理MATH-500AIME 2024
更多评测
参数规模:全部3B及以下7B
Anthropic
52
6
GLM-5
Z AI
50
7
MiniMax-M2.7
MiniMax
50
8
MiMo-V2-Pro
Xiaomi
49
9
Grok 4.20 Beta 0309
xAI
48
10
GPT-5.4 mini (xhigh)
OpenAI
48
grok-4.20-beta1
xAI
1492
5
gemini-3-pro
Google
1486
6
gpt-5.4-high
OpenAI
1485
7
gpt-5.2-chat-latest-20260210
OpenAI
1482
8
grok-4.20-beta-0309-reasoning
xAI
1481
9
gemini-3-flash
Google
1475
10
claude-opus-4-5-20251101-thinking-32k
Anthropic
1474
来源:LMArena
13B
34B
65B
100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

大模型性能评测结果

数据来源:DataLearnerAI
排名模型MMLU ProGPQA DiamondSWE-bench VerifiedMATH-500AIME 2024LiveCodeBench参数(亿)开源情况
1M2.188.0081.0074.800.000.000.002300B免费商用
2Claude Sonnet 4.588.0083.4082.000.000.0071.00—不开源
3GPT-4.586.1071.4038.0090.7036.7046.40—不开源
4DeepSeek-V3.185.0080.1066.000.0093.1074.806710B免费商用
5DeepSeek-V3.1 Terminus85.0080.7068.400.000.0080.006710B免费商用
6GLM-4.784.3085.7073.800.000.0084.903580B免费商用
7Qwen3 Max (Preview)84.0076.0069.600.000.0057.50—不开源
8Qwen3-235B-A22B-250783.0077.500.000.000.0051.802350B免费商用
9GLM-4.683.0082.9068.000.000.0084.503550B免费商用
10Pangu Pro MoE82.6073.700.0096.8079.2059.60719B免费商用
11MiniMax M282.0078.0069.400.000.0083.002300B免费商用
12DeepSeek-V3-032481.2068.4038.8094.0059.4049.206710B免费商用
13Kimi K281.1075.1051.8097.4069.6053.7010000B免费商用
14GPT-4.180.5066.3054.6092.8048.1040.50—不开源
15GPT-4o(2025-03-27)79.8066.900.000.000.0035.80—不开源
16Gemini 2.0 Pro Experimental79.1064.700.000.0036.000.00—不开源
17Pangu Embedded79.000.000.0092.4081.9067.1070B免费商用
18ERNIE-4.5-300B-A47B78.400.000.0096.4054.8038.803000B免费商用
19Qwen3-30B-A3B-250778.4070.4022.000.000.0043.20305B免费商用
20Claude 3.5 Sonnet New78.0065.0049.0078.0016.0038.70—不开源
21GPT-4o(2024-11-20)77.900.0031.000.000.000.00—不开源
22Qwen2.5-Max76.100.000.000.000.000.00—不开源
23DeepSeek-V375.9059.100.0087.8039.0034.606810B免费商用
24Grok 275.5056.000.000.000.000.002690B免费商用
25GLM-4-9B-Chat72.400.000.000.0076.4051.8090B免费商用
26Gemini 2.0 Flash-Lite71.6051.500.000.000.0028.90—不开源
27Mistral-Small-3.269.0646.130.000.000.000.00240B免费商用
28Llama3.3-70B-Instruct68.9050.500.000.000.0033.30700B免费商用
29Gemma 3 - 27B (IT)67.5042.400.000.0025.3029.70270B免费商用
30Qwen3-Next66.050.000.000.000.0056.60800B免费商用
1
M2.1
2300B
MMLU Pro88.00
GPQA Diamond81.00
SWE-bench Verified74.80
MATH-5000.00
AIME 20240.00
LiveCodeBench0.00
免费商用
2
Claude Sonnet 4.5
查看全部 55 个模型的 MMLU Pro 完整排名
MMLU Pro88.00
GPQA Diamond83.40
SWE-bench Verified82.00
MATH-5000.00
AIME 20240.00
LiveCodeBench71.00
不开源
3
GPT-4.5
MMLU Pro86.10
GPQA Diamond71.40
SWE-bench Verified38.00
MATH-50090.70
AIME 202436.70
LiveCodeBench46.40
不开源
4
DeepSeek-V3.1
6710B
MMLU Pro85.00
GPQA Diamond80.10
SWE-bench Verified66.00
MATH-5000.00
AIME 202493.10
LiveCodeBench74.80
免费商用
5
DeepSeek-V3.1 Terminus
6710B
MMLU Pro85.00
GPQA Diamond80.70
SWE-bench Verified68.40
MATH-5000.00
AIME 20240.00
LiveCodeBench80.00
免费商用
6
GLM-4.7
3580B
MMLU Pro84.30
GPQA Diamond85.70
SWE-bench Verified73.80
MATH-5000.00
AIME 20240.00
LiveCodeBench84.90
免费商用
7
Qwen3 Max (Preview)
MMLU Pro84.00
GPQA Diamond76.00
SWE-bench Verified69.60
MATH-5000.00
AIME 20240.00
LiveCodeBench57.50
不开源
8
Qwen3-235B-A22B-2507
2350B
MMLU Pro83.00
GPQA Diamond77.50
SWE-bench Verified0.00
MATH-5000.00
AIME 20240.00
LiveCodeBench51.80
免费商用
9
GLM-4.6
3550B
MMLU Pro83.00
GPQA Diamond82.90
SWE-bench Verified68.00
MATH-5000.00
AIME 20240.00
LiveCodeBench84.50
免费商用
10
Pangu Pro MoE
719B
MMLU Pro82.60
GPQA Diamond73.70
SWE-bench Verified0.00
MATH-50096.80
AIME 202479.20
LiveCodeBench59.60
免费商用
11
MiniMax M2
2300B
MMLU Pro82.00
GPQA Diamond78.00
SWE-bench Verified69.40
MATH-5000.00
AIME 20240.00
LiveCodeBench83.00
免费商用
12
DeepSeek-V3-0324
6710B
MMLU Pro81.20
GPQA Diamond68.40
SWE-bench Verified38.80
MATH-50094.00
AIME 202459.40
LiveCodeBench49.20
免费商用
13
Kimi K2
10000B
MMLU Pro81.10
GPQA Diamond75.10
SWE-bench Verified51.80
MATH-50097.40
AIME 202469.60
LiveCodeBench53.70
免费商用
14
GPT-4.1
MMLU Pro80.50
GPQA Diamond66.30
SWE-bench Verified54.60
MATH-50092.80
AIME 202448.10
LiveCodeBench40.50
不开源
15
GPT-4o(2025-03-27)
MMLU Pro79.80
GPQA Diamond66.90
SWE-bench Verified0.00
MATH-5000.00
AIME 20240.00
LiveCodeBench35.80
不开源
16
Gemini 2.0 Pro Experimental
MMLU Pro79.10
GPQA Diamond64.70
SWE-bench Verified0.00
MATH-5000.00
AIME 202436.00
LiveCodeBench0.00
不开源
17
Pangu Embedded
70B
MMLU Pro79.00
GPQA Diamond0.00
SWE-bench Verified0.00
MATH-50092.40
AIME 202481.90
LiveCodeBench67.10
免费商用
18
ERNIE-4.5-300B-A47B
3000B
MMLU Pro78.40
GPQA Diamond0.00
SWE-bench Verified0.00
MATH-50096.40
AIME 202454.80
LiveCodeBench38.80
免费商用
19
Qwen3-30B-A3B-2507
305B
MMLU Pro78.40
GPQA Diamond70.40
SWE-bench Verified22.00
MATH-5000.00
AIME 20240.00
LiveCodeBench43.20
免费商用
20
Claude 3.5 Sonnet New
MMLU Pro78.00
GPQA Diamond65.00
SWE-bench Verified49.00
MATH-50078.00
AIME 202416.00
LiveCodeBench38.70
不开源
21
GPT-4o(2024-11-20)
MMLU Pro77.90
GPQA Diamond0.00
SWE-bench Verified31.00
MATH-5000.00
AIME 20240.00
LiveCodeBench0.00
不开源
22
Qwen2.5-Max
MMLU Pro76.10
GPQA Diamond0.00
SWE-bench Verified0.00
MATH-5000.00
AIME 20240.00
LiveCodeBench0.00
不开源
23
DeepSeek-V3
6810B
MMLU Pro75.90
GPQA Diamond59.10
SWE-bench Verified0.00
MATH-50087.80
AIME 202439.00
LiveCodeBench34.60
免费商用
24
Grok 2
2690B
MMLU Pro75.50
GPQA Diamond56.00
SWE-bench Verified0.00
MATH-5000.00
AIME 20240.00
LiveCodeBench0.00
免费商用
25
GLM-4-9B-Chat
90B
MMLU Pro72.40
GPQA Diamond0.00
SWE-bench Verified0.00
MATH-5000.00
AIME 202476.40
LiveCodeBench51.80
免费商用
26
Gemini 2.0 Flash-Lite
MMLU Pro71.60
GPQA Diamond51.50
SWE-bench Verified0.00
MATH-5000.00
AIME 20240.00
LiveCodeBench28.90
不开源
27
Mistral-Small-3.2
240B
MMLU Pro69.06
GPQA Diamond46.13
SWE-bench Verified0.00
MATH-5000.00
AIME 20240.00
LiveCodeBench0.00
免费商用
28
Llama3.3-70B-Instruct
700B
MMLU Pro68.90
GPQA Diamond50.50
SWE-bench Verified0.00
MATH-5000.00
AIME 20240.00
LiveCodeBench33.30
免费商用
29
Gemma 3 - 27B (IT)
270B
MMLU Pro67.50
GPQA Diamond42.40
SWE-bench Verified0.00
MATH-5000.00
AIME 202425.30
LiveCodeBench29.70
免费商用
30
Qwen3-Next
800B
MMLU Pro66.05
GPQA Diamond0.00
SWE-bench Verified0.00
MATH-5000.00
AIME 20240.00
LiveCodeBench56.60
免费商用