大模型评测基准与性能对比

快速查看大模型在各项评测基准上的表现，包括MMLU Pro、HLE、SWE-Bench等多个标准数据集，帮助开发者和用户了解不同大模型在通用知识、编程能力、推理能力等方面的表现。

用户可以选择自定义模型与评测基准进行对比，快速获取不同模型在实际应用中的优劣势。

大模型性能评测结果

数据来源：DataLearnerAI

筛选条件

排名	模型	MMLU Pro	GPQA Diamond	SWE-bench Verified	MATH-500	AIME 2024	LiveCodeBench	参数(亿)	开源情况
1	GPT OSS 120B	79.00	80.10	60.10	未公布	96.60	未公布	117	免费商用授权
2	Phi 4 - 14B	70.40	未公布	未公布	未公布	未公布	未公布	140	不可以商用
3	Qwen2.5-14B	63.69	未公布	未公布	未公布	未公布	未公布	140	免费商用授权
4	Gemma 3 - 12B (IT)	60.60	40.90	未公布	未公布	未公布	24.60	120	免费商用授权
5	Moonlight-16B-A3B-Instruct	42.40	未公布	未公布	未公布	未公布	未公布	160	免费商用授权

GPT OSS 120B

MMLU Pro (综合评估) 79.00

GPQA Diamond (综合评估) 80.10

SWE-bench Verified (编程与软件工程) 60.10

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 96.60

LiveCodeBench (编程与软件工程) 未公布

参数(亿) 117

开源情况免费商用授权

查看模型详情

Phi 4 - 14B

MMLU Pro (综合评估) 70.40

GPQA Diamond (综合评估) 未公布

SWE-bench Verified (编程与软件工程) 未公布

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

LiveCodeBench (编程与软件工程) 未公布

参数(亿) 140

开源情况不可以商用

查看模型详情

Qwen2.5-14B

MMLU Pro (综合评估) 63.69

GPQA Diamond (综合评估) 未公布

SWE-bench Verified (编程与软件工程) 未公布

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

LiveCodeBench (编程与软件工程) 未公布

参数(亿) 140

开源情况免费商用授权

查看模型详情

Gemma 3 - 12B (IT)

MMLU Pro (综合评估) 60.60

GPQA Diamond (综合评估) 40.90

SWE-bench Verified (编程与软件工程) 未公布

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

LiveCodeBench (编程与软件工程) 24.60

参数(亿) 120

开源情况免费商用授权

查看模型详情

Moonlight-16B-A3B-Instruct

MMLU Pro (综合评估) 42.40

GPQA Diamond (综合评估) 未公布

SWE-bench Verified (编程与软件工程) 未公布

MATH-500 (数学推理) 未公布

AIME 2024 (数学推理) 未公布

LiveCodeBench (编程与软件工程) 未公布

参数(亿) 160

开源情况免费商用授权

查看模型详情

大模型评测基准与性能对比

大模型性能评测结果

筛选条件

大模型排名数据表格