大模型评测基准与性能对比

对比大模型在 MMLU Pro、HLE、SWE-Bench 等评测上的表现，选择评测查看排名。

各个评测基准的详细介绍可见：LLM 评测基准列表与介绍

数据更新于: 2025/11/08 22:10:24

评测切换

在这里切换评测，图表和表格会同步更新

MMLU Pro GPQA Diamond SWE-bench Verified MATH-500 AIME 2024 LiveCodeBench

还有更多评测基准

进入评测基准列表，按类别/语言快速筛选

筛选

已筛选

参数规模

全部 3B及以下

大模型性能评测结果

数据来源：DataLearnerAI

排名	模型	MMLU Pro	GPQA Diamond	SWE-bench Verified	MATH-500	AIME 2024	LiveCodeBench	参数(亿)	开源情况
1	Phi-4-mini-instruct (3.8B)	52.80	36.00	0.00	71.80	10.00	0.00	38B	免费商用
2	Qwen2.5-3B	34.60	24.30	0.00