大模型评测基准与性能对比

快速查看大模型在各项评测基准上的表现,包括MMLU Pro、HLE、SWE-Bench等多个标准数据集,帮助开发者和用户了解不同大模型在通用知识、编程能力、推理能力等方面的表现。

用户可以选择自定义模型与评测基准进行对比,快速获取不同模型在实际应用中的优劣势。

各个评测基准的详细介绍可见: LLM 评测基准列表与介绍

大模型性能评测结果

数据来源:DataLearnerAI

筛选条件

大模型排名数据表格

排名
模型
MMLU Pro
GPQA Diamond
SWE-bench Verified
MATH-500
AIME 2024
LiveCodeBench
参数(亿)
开源情况
1 OpenAI Logo 78.00 69.00 未公布 未公布 未公布 55.00 未知 不开源
2 Google Deep Mind Logo 76.10 53.50 未公布 未公布 未公布 未公布 未知 不开源
3 Facebook AI研究实验室 Logo 73.40 49.00 未公布 未公布 未公布 30.20 4,050 免费商用授权
4 Microsoft Logo 70.40 未公布 未公布 未公布 未公布 未公布 140 不可以商用
5 阿里巴巴 Logo 69.23 未公布 未公布 未公布 未公布 51.20 320 免费商用授权
6 腾讯AI实验室 Logo 67.23 71.20 未公布 未公布 87.30 63.90 800 免费商用授权
7 MistralAI Logo 66.76 45.96 未公布 未公布 未公布 未公布 240 免费商用授权
8 Facebook AI研究实验室 Logo 66.40 48.00 未公布 未公布 未公布 33.30 700 免费商用授权
9 Anthropic Logo 65.00 41.60 未公布 未公布 未公布 未公布 未知 不开源
10 阿里巴巴 Logo 63.69 未公布 未公布 未公布 未公布 未公布 140 免费商用授权
11 OpenAI Logo 61.70 41.10 未公布 未公布 未公布 未公布 未知 不开源
12 Facebook AI研究实验室 Logo 61.60 未公布 未公布 未公布 未公布 未公布 4,050 免费商用授权
13 Google Deep Mind Logo 60.60 40.90 未公布 未公布 未公布 24.60 120 免费商用授权
14 阿里巴巴 Logo 58.10 45.90 未公布 未公布 未公布 未公布 727 免费商用授权
15 Google Deep Mind Logo 56.54 未公布 未公布 未公布 未公布 未公布 270 免费商用授权
16 Facebook AI研究实验室 Logo 52.47 未公布 未公布 未公布 未公布 未公布 700 免费商用授权
17 阿里巴巴 Logo 45.00 36.40 未公布 未公布 未公布 未公布 70 免费商用授权
18 Google Research Logo 44.70 32.80 未公布 未公布 未公布 未公布 90 免费商用授权
19 Facebook AI研究实验室 Logo 35.40 25.80 未公布 未公布 未公布 未公布 80 免费商用授权
20 阿里巴巴 Logo 34.60 24.30 未公布 未公布 未公布 未公布 30 免费商用授权
21 Facebook AI研究实验室 Logo 25.00 26.60 未公布 未公布 未公布 未公布 32 免费商用授权
22 xAI Logo 未公布 65.00 未公布 未公布 40.00 未公布 未知 不开源
23 OpenAI Logo 未公布 87.30 72.80 未公布 未公布 未公布 未知 不开源
MMLU Pro (综合评估) 78.00
GPQA Diamond (综合评估) 69.00
SWE-bench Verified (编程与软件工程) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (编程与软件工程) 55.00
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (综合评估) 76.10
GPQA Diamond (综合评估) 53.50
SWE-bench Verified (编程与软件工程) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (编程与软件工程) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (综合评估) 73.40
GPQA Diamond (综合评估) 49.00
SWE-bench Verified (编程与软件工程) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (编程与软件工程) 30.20
参数(亿) 4,050
开源情况 免费商用授权
查看模型详情
MMLU Pro (综合评估) 70.40
GPQA Diamond (综合评估) 未公布
SWE-bench Verified (编程与软件工程) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (编程与软件工程) 未公布
参数(亿) 140
开源情况 不可以商用
查看模型详情
MMLU Pro (综合评估) 69.23
GPQA Diamond (综合评估) 未公布
SWE-bench Verified (编程与软件工程) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (编程与软件工程) 51.20
参数(亿) 320
开源情况 免费商用授权
查看模型详情
MMLU Pro (综合评估) 67.23
GPQA Diamond (综合评估) 71.20
SWE-bench Verified (编程与软件工程) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 87.30
LiveCodeBench (编程与软件工程) 63.90
参数(亿) 800
开源情况 免费商用授权
查看模型详情
MMLU Pro (综合评估) 66.76
GPQA Diamond (综合评估) 45.96
SWE-bench Verified (编程与软件工程) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (编程与软件工程) 未公布
参数(亿) 240
开源情况 免费商用授权
查看模型详情
MMLU Pro (综合评估) 66.40
GPQA Diamond (综合评估) 48.00
SWE-bench Verified (编程与软件工程) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (编程与软件工程) 33.30
参数(亿) 700
开源情况 免费商用授权
查看模型详情
MMLU Pro (综合评估) 65.00
GPQA Diamond (综合评估) 41.60
SWE-bench Verified (编程与软件工程) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (编程与软件工程) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (综合评估) 63.69
GPQA Diamond (综合评估) 未公布
SWE-bench Verified (编程与软件工程) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (编程与软件工程) 未公布
参数(亿) 140
开源情况 免费商用授权
查看模型详情
MMLU Pro (综合评估) 61.70
GPQA Diamond (综合评估) 41.10
SWE-bench Verified (编程与软件工程) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (编程与软件工程) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (综合评估) 61.60
GPQA Diamond (综合评估) 未公布
SWE-bench Verified (编程与软件工程) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (编程与软件工程) 未公布
参数(亿) 4,050
开源情况 免费商用授权
查看模型详情
MMLU Pro (综合评估) 60.60
GPQA Diamond (综合评估) 40.90
SWE-bench Verified (编程与软件工程) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (编程与软件工程) 24.60
参数(亿) 120
开源情况 免费商用授权
查看模型详情
MMLU Pro (综合评估) 58.10
GPQA Diamond (综合评估) 45.90
SWE-bench Verified (编程与软件工程) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (编程与软件工程) 未公布
参数(亿) 727
开源情况 免费商用授权
查看模型详情
MMLU Pro (综合评估) 56.54
GPQA Diamond (综合评估) 未公布
SWE-bench Verified (编程与软件工程) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (编程与软件工程) 未公布
参数(亿) 270
开源情况 免费商用授权
查看模型详情
MMLU Pro (综合评估) 52.47
GPQA Diamond (综合评估) 未公布
SWE-bench Verified (编程与软件工程) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (编程与软件工程) 未公布
参数(亿) 700
开源情况 免费商用授权
查看模型详情
MMLU Pro (综合评估) 45.00
GPQA Diamond (综合评估) 36.40
SWE-bench Verified (编程与软件工程) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (编程与软件工程) 未公布
参数(亿) 70
开源情况 免费商用授权
查看模型详情
MMLU Pro (综合评估) 44.70
GPQA Diamond (综合评估) 32.80
SWE-bench Verified (编程与软件工程) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (编程与软件工程) 未公布
参数(亿) 90
开源情况 免费商用授权
查看模型详情
MMLU Pro (综合评估) 35.40
GPQA Diamond (综合评估) 25.80
SWE-bench Verified (编程与软件工程) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (编程与软件工程) 未公布
参数(亿) 80
开源情况 免费商用授权
查看模型详情
MMLU Pro (综合评估) 34.60
GPQA Diamond (综合评估) 24.30
SWE-bench Verified (编程与软件工程) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (编程与软件工程) 未公布
参数(亿) 30
开源情况 免费商用授权
查看模型详情
MMLU Pro (综合评估) 25.00
GPQA Diamond (综合评估) 26.60
SWE-bench Verified (编程与软件工程) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (编程与软件工程) 未公布
参数(亿) 32
开源情况 免费商用授权
查看模型详情
MMLU Pro (综合评估) 未公布
GPQA Diamond (综合评估) 65.00
SWE-bench Verified (编程与软件工程) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 40.00
LiveCodeBench (编程与软件工程) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
MMLU Pro (综合评估) 未公布
GPQA Diamond (综合评估) 87.30
SWE-bench Verified (编程与软件工程) 72.80
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (编程与软件工程) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情