大模型评测基准与性能对比

快速查看大模型在各项评测基准上的表现,包括MMLU Pro、HLE、SWE-Bench等多个标准数据集,帮助开发者和用户了解不同大模型在通用知识、编程能力、推理能力等方面的表现。

用户可以选择自定义模型与评测基准进行对比,快速获取不同模型在实际应用中的优劣势。

各个评测基准的详细介绍可见: LLM 评测基准列表与介绍

大模型性能评测结果

数据来源:DataLearnerAI

筛选条件

大模型排名数据表格

排名
模型
MMLU Pro
GPQA Diamond
SWE-bench Verified
MATH-500
AIME 2024
LiveCodeBench
参数(亿)
开源情况
1 华为 Logo 82.60 73.70 未公布 96.80 79.20 59.60 719 免费商用授权
2 Facebook AI研究实验室 Logo 68.90 50.50 未公布 未公布 未公布 33.30 700 免费商用授权
3 腾讯AI实验室 Logo 67.23 71.20 未公布 未公布 87.30 63.90 800 免费商用授权
4 Facebook AI研究实验室 Logo 66.40 48.00 未公布 未公布 未公布 33.30 700 免费商用授权
5 阿里巴巴 Logo 58.10 45.90 未公布 未公布 未公布 未公布 727 免费商用授权
6 Facebook AI研究实验室 Logo 56.20 未公布 未公布 未公布 未公布 未公布 700 免费商用授权
7 Facebook AI研究实验室 Logo 52.78 未公布 未公布 未公布 未公布 未公布 700 免费商用授权
8 Facebook AI研究实验室 Logo 52.47 未公布 未公布 未公布 未公布 未公布 700 免费商用授权
9 DeepSeek-AI Logo 未公布 65.20 未公布 94.50 未公布 未公布 700 免费商用授权
MMLU Pro (知识问答) 82.60
GPQA Diamond (常识推理) 73.70
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 96.80
AIME 2024 (数学推理) 79.20
LiveCodeBench (代码生成) 59.60
参数(亿) 719
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 68.90
GPQA Diamond (常识推理) 50.50
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 33.30
参数(亿) 700
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 67.23
GPQA Diamond (常识推理) 71.20
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 87.30
LiveCodeBench (代码生成) 63.90
参数(亿) 800
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 66.40
GPQA Diamond (常识推理) 48.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 33.30
参数(亿) 700
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 58.10
GPQA Diamond (常识推理) 45.90
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 727
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 56.20
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 700
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 52.78
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 700
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 52.47
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 700
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 65.20
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 94.50
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 700
开源情况 免费商用授权
查看模型详情