排名	模型	MMLU Pro	GPQA Diamond	SWE-bench Verified	AIME 2024	LiveCodeBench	参数(亿)	开源情况
1	GPT OSS 120B	79.00	80.10	60.10	96.60	0.00	117B	免费商用
2	Phi 4 - 14B	70.40	0.00	0.00	0.00	0.00	140B	不可商用
3	Qwen2.5-14B	63.69	0.00	0.00	0.00	0.00	140B	免费商用
4	Gemma 3 - 12B (IT)	60.60	40.90	0.00	0.00	24.60	120B	免费商用
5	Moonlight-16B-A3B-Instruct	42.40	0.00	0.00	0.00	0.00	160B	免费商用

综合排名

单项评测排名