DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
工具
语言中文

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

AI 大模型评测排行榜

综合排名与各项 Benchmark 分数持续更新,覆盖 MMLU Pro、HLE、SWE-Bench 等主流评测,帮你快速定位最优模型。

查看评测基准详情数据更新于 2025/11/08 22:10:24

综合排名

目前没有一个被普遍认可的"AI 模型总排名",所以我们选了两个切入角度不同的榜单放在一起:AA Intelligence Index 汇总标准化评测跑分,衡量客观能力;LMArena 通过真人盲测投票排序,反映实际使用体感。两者对照看,判断会更全面。

AA Intelligence Index

完整排名

汇总编程、数学、科学、推理、智能体等 10 项标准化评测的综合分数。

数据更新于 2026年03月26日

#模型分数
1
Gemini 3.1 Pro Preview
Google
57
2
GPT-5.4 (xhigh)
OpenAI
57
3
GPT-5.3 Codex (xhigh)
OpenAI
54
4
Claude Opus 4.6 (max)
Anthropic
53
5
Claude Sonnet 4.6 (max)
来源:Artificial Analysis

LMArena Text Generation

完整排名

基于匿名众包 A/B 对战的 Elo 评分,反映真实用户对回答质量的偏好。

数据更新于 2026年03月20日

#模型Elo
1
claude-opus-4-6-thinking
Anthropic
1502
2
claude-opus-4-6
Anthropic
1501
3
gemini-3.1-pro-preview
Google
1493
4

单项评测排名

我们在此精选了几项有代表性的评测基准,切换即可查看模型在该项上的得分。完整的 60+ 评测基准列表请前往评测基准目录。

综合评估MMLU ProGPQA Diamond
编程与软件工程SWE-bench VerifiedLiveCodeBench
数学推理MATH-500AIME 2024
更多评测
参数规模:全部3B及以下7B
Anthropic
52
6
GLM-5
Z AI
50
7
MiniMax-M2.7
MiniMax
50
8
MiMo-V2-Pro
Xiaomi
49
9
Grok 4.20 Beta 0309
xAI
48
10
GPT-5.4 mini (xhigh)
OpenAI
48
grok-4.20-beta1
xAI
1492
5
gemini-3-pro
Google
1486
6
gpt-5.4-high
OpenAI
1485
7
gpt-5.2-chat-latest-20260210
OpenAI
1482
8
grok-4.20-beta-0309-reasoning
xAI
1481
9
gemini-3-flash
Google
1475
10
claude-opus-4-5-20251101-thinking-32k
Anthropic
1474
来源:LMArena
13B
34B
65B
100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

大模型性能评测结果

数据来源:DataLearnerAI
排名模型MMLU ProGPQA DiamondSWE-bench VerifiedMATH-500AIME 2024LiveCodeBench参数(亿)开源情况
1Pangu Embedded79.000.000.0092.4081.9067.1070B免费商用
2Qwen3-8B72.5062.000.0097.4079.4061.8080B免费商用
3GLM-4-9B-Chat72.400.000.000.0076.4051.8090B免费商用
4Qwen2.5-7B45.0036.400.000.000.000.0070B免费商用
5Gemma 2 - 9B44.7032.800.000.000.000.0090B免费商用
6Llama3.1-8B-Instruct44.0026.300.000.000.000.0080B免费商用
7Llama3.1-8B35.4025.800.000.000.000.0080B免费商用
8Mistral-7B-Instruct-v0.330.9024.700.000.000.000.0070B免费商用
9Qwen3-4B-Thinking-25070.0065.800.000.000.0055.2040B免费商用
10Qwen3-4B-25070.0062.000.000.000.0035.1040B免费商用
11Hunyuan-7B0.0060.100.0093.7081.1057.0070B免费商用
12DeepSeek-R1-Distill-Qwen-7B0.0049.500.0091.4053.300.0070B免费商用
13Qwen3-Coder-Next0.000.0070.600.000.000.0080B免费商用
1
Pangu Embedded
70B
MMLU Pro79.00
GPQA Diamond0.00
SWE-bench Verified0.00
MATH-50092.40
AIME 202481.90
LiveCodeBench67.10
免费商用
2
Qwen3-8B
80B
MMLU Pro72.50
GPQA Diamond62.00
SWE-bench Verified0.00
MATH-50097.40
AIME 202479.40
LiveCodeBench61.80
免费商用
3
GLM-4-9B-Chat
90B
MMLU Pro72.40
GPQA Diamond0.00
SWE-bench Verified0.00
MATH-5000.00
AIME 202476.40
LiveCodeBench51.80
免费商用
4
Qwen2.5-7B
70B
MMLU Pro45.00
GPQA Diamond36.40
SWE-bench Verified0.00
MATH-5000.00
AIME 20240.00
LiveCodeBench0.00
免费商用
5
Gemma 2 - 9B
90B
MMLU Pro44.70
GPQA Diamond32.80
SWE-bench Verified0.00
MATH-5000.00
AIME 20240.00
LiveCodeBench0.00
免费商用
6
Llama3.1-8B-Instruct
80B
MMLU Pro44.00
GPQA Diamond26.30
SWE-bench Verified0.00
MATH-5000.00
AIME 20240.00
LiveCodeBench0.00
免费商用
7
Llama3.1-8B
80B
MMLU Pro35.40
GPQA Diamond25.80
SWE-bench Verified0.00
MATH-5000.00
AIME 20240.00
LiveCodeBench0.00
免费商用
8
Mistral-7B-Instruct-v0.3
70B
MMLU Pro30.90
GPQA Diamond24.70
SWE-bench Verified0.00
MATH-5000.00
AIME 20240.00
LiveCodeBench0.00
免费商用
9
Qwen3-4B-Thinking-2507
40B
MMLU Pro0.00
GPQA Diamond65.80
SWE-bench Verified0.00
MATH-5000.00
AIME 20240.00
LiveCodeBench55.20
免费商用
10
Qwen3-4B-2507
40B
MMLU Pro0.00
GPQA Diamond62.00
SWE-bench Verified0.00
MATH-5000.00
AIME 20240.00
LiveCodeBench35.10
免费商用
11
Hunyuan-7B
70B
MMLU Pro0.00
GPQA Diamond60.10
SWE-bench Verified0.00
MATH-50093.70
AIME 202481.10
LiveCodeBench57.00
免费商用
12
DeepSeek-R1-Distill-Qwen-7B
70B
MMLU Pro0.00
GPQA Diamond49.50
SWE-bench Verified0.00
MATH-50091.40
AIME 202453.30
LiveCodeBench0.00
免费商用
13
Qwen3-Coder-Next
80B
MMLU Pro0.00
GPQA Diamond0.00
SWE-bench Verified70.60
MATH-5000.00
AIME 20240.00
LiveCodeBench0.00
免费商用