大模型评测基准与性能对比

快速查看大模型在各项评测基准上的表现,包括MMLU Pro、HLE、SWE-Bench等多个标准数据集,帮助开发者和用户了解不同大模型在通用知识、编程能力、推理能力等方面的表现。

用户可以选择自定义模型与评测基准进行对比,快速获取不同模型在实际应用中的优劣势。

各个评测基准的详细介绍可见: LLM 评测基准列表与介绍

大模型性能评测结果

数据来源:DataLearnerAI

筛选条件

大模型排名数据表格

排名
模型
MMLU Pro
GPQA Diamond
SWE-bench Verified
MATH-500
AIME 2024
LiveCodeBench
参数(亿)
开源情况
1 OpenAI Logo 79.00 80.10 60.10 未公布 96.60 未公布 117 免费商用授权
2 Microsoft Logo 70.40 未公布 未公布 未公布 未公布 未公布 140 不可以商用
3 阿里巴巴 Logo 63.69 未公布 未公布 未公布 未公布 未公布 140 免费商用授权
4 Google Deep Mind Logo 60.60 40.90 未公布 未公布 未公布 24.60 120 免费商用授权
5 Moonshot AI Logo 42.40 未公布 未公布 未公布 未公布 未公布 160 免费商用授权
MMLU Pro (知识问答) 79.00
GPQA Diamond (常识推理) 80.10
SWE-bench Verified (代码生成) 60.10
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 96.60
LiveCodeBench (代码生成) 未公布
参数(亿) 117
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 70.40
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 140
开源情况 不可以商用
查看模型详情
MMLU Pro (知识问答) 63.69
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 140
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 60.60
GPQA Diamond (常识推理) 40.90
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 24.60
参数(亿) 120
开源情况 免费商用授权
查看模型详情
MMLU Pro (知识问答) 42.40
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 160
开源情况 免费商用授权
查看模型详情