大模型评测基准与性能对比

快速查看大模型在各项评测基准上的表现,包括MMLU Pro、HLE、SWE-Bench等多个标准数据集,帮助开发者和用户了解不同大模型在通用知识、编程能力、推理能力等方面的表现。

用户可以选择自定义模型与评测基准进行对比,快速获取不同模型在实际应用中的优劣势。

各个评测基准的详细介绍可见: LLM 评测基准列表与介绍

大模型性能评测结果

数据来源:DataLearnerAI

筛选条件

大模型排名数据表格

排名
模型
MMLU Pro
GPQA Diamond
SWE-bench Verified
MATH-500
AIME 2024
LiveCodeBench
参数(亿)
开源情况
1 Microsoft Logo 52.80 36.00 未公布 71.80 10.00 未公布 38 免费商用授权
2 阿里巴巴 Logo 34.60 24.30 未公布 未公布 未公布 未公布 30 免费商用授权
3 Facebook AI研究实验室 Logo 25.00 26.60 未公布 未公布 未公布 未公布 32 免费商用授权
4 Microsoft Logo 未公布 49.00 未公布 90.40 50.00 未公布 38 不开源
MMLU Pro (知识问答) 52.80
GPQA Diamond (常识推理) 36.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 71.80
AIME 2024 (数学推理) 10.00
LiveCodeBench (代码生成) 未公布
参数(亿) 38
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 34.60
GPQA Diamond (常识推理) 24.30
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 30
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 25.00
GPQA Diamond (常识推理) 26.60
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 32
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 49.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 90.40
AIME 2024 (数学推理) 50.00
LiveCodeBench (代码生成) 未公布
参数(亿) 38
开源情况 不开源
查看模型详情