Phi-4-mini-instruct (3.8B) vs Llama-3.2-3B vs Qwen2.5-3B vs Qwen2.5-7B vs Llama3.1-8B 评测对比

自动展示选中模型的核心信息与各评测得分，可左右滑动查看完整表格。当前对比 5 个模型的评测数据与核心参数。

Phi-4-mini-instruct (3.8B)

Microsoft Azure

发布时间: 2025-02-27
上下文: 128K
参数量: 38

查看详情

Qwen2.5-3B

阿里巴巴

发布时间: 2024-09-18
上下文: 32K
参数量: 30

查看详情

Qwen2.5-7B

阿里巴巴

发布时间: 2024-09-18
上下文: 128K
参数量: 70

查看详情·在线体验

Llama3.1-8B

Facebook AI研究实验室

发布时间: 2024-07-23
上下文: 128K
参数量: 80

查看详情

能力分布概览

每条轴代表一个评测领域的平均水平，并统一映射到 100 分雷达坐标。

视图: 非并行模式平均·3 个维度·已隐藏 1 个模型

Phi-4-mini-instruct (3.8B)

相对优势: 数学推理 +26.4 / 相对落后: 暂无明显落后

Llama-3.2-3B

相对优势: 暂无明显优势 / 相对落后: 数学推理 -47.0

Qwen2.5-3B

相对优势: 数学推理 +5.8 / 相对落后: 编程与软件工程 -8.6

Qwen2.5-7B

相对优势: 数学推理 +14.8 / 相对落后: 暂无明显落后

计算口径：同一模型在同一 benchmark 下先平均当前模式范围内的所有分数，不取最高分；再按评测领域对这些 benchmark 分数求平均。只纳入至少两个模型有数据的 benchmark，缺项不按 0 分处理。

综合领先

Phi-4-mini-instruct (3.8B) · 64.06

单项最高

Phi-4-mini-instruct (3.8B) · GSM8K 88.60

模态覆盖

Phi-4-mini-instruct (3.8B) · 0 种模态

性能评测对比

支持不同模式与工具的榜单对比。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

筛选: 最佳可用·5 个模式 · 7 评测基准

图表加载中...

评测得分表格

完整列出各模型/模式的评测得分，便于横向比较。

7 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。

评测项	Phi-4-mini-instruct (3.8B)	Llama-3.2-3B	Qwen2.5-3B	Qwen2.5-7B	Llama3.1-8B
GPQA Diamond 综合评估	36.00常规模式	26.60常规模式	24.30常规模式	36.40常规模式	25.80常规模式
MMLU 综合评估	67.30常规模式	54.75常规模式	65.60常规模式	74.20常规模式	66.60常规模式
MMLU Pro 综合评估	52.80常规模式	25.00常规模式	34.60常规模式	45.00常规模式	35.40常规模式
GSM8K 数学推理	88.60常规模式	34.00常规模式	79.10常规模式	85.40常规模式	55.30常规模式
MATH 数学推理	64.00常规模式	8.50常规模式	42.60常规模式	49.80常规模式	20.50常规模式
HumanEval 编程与软件工程	74.40常规模式	28.00常规模式	42.10常规模式	57.90常规模式	33.50常规模式
MBPP 编程与软件工程	65.30常规模式	48.70常规模式	57.10常规模式	74.90常规模式	53.90常规模式

API 价格对比

输入输出 token 价格并排展示

能力与规格明细

是否 MoE、商业授权、模态支持等附加能力对比。

功能与规格	Phi-4-mini-instruct (3.8B)Microsoft Azure	Llama-3.2-3BFacebook AI研究实验室	Qwen2.5-3B阿里巴巴	Qwen2.5-7B阿里巴巴	Llama3.1-8BFacebook AI研究实验室
核心规格发布时间	2025-02-27	2024-09-18	2024-09-18	2024-09-18	2024-07-23
上下文	128K	128K	32K	128K	128K
参数量	38	32	30	70	80
MoE 架构	不支持	不支持	不支持	不支持	不支持
开源与许可代码开源	未开源	未提供	未提供	未提供	未提供
权重开源	未开源	未提供	未提供	未提供	未提供
商业授权	免费商用授权	免费商用授权	免费商用授权	免费商用授权	免费商用授权
资料来源论文 / 报告	Empowering innovation: The next generation of the Phi family	Llama 3.2-Model Card	Qwen2.5-LLM: Extending the boundary of LLMs	Qwen2.5-LLM: Extending the boundary of LLMs
DataLearner 博客	微软开源最强38亿小规模参数大语言模型以及56亿参数规模全模态大模型，但是总体评测结果超过Qwen2.5-7B以及Llama3.1-8B等模型，接近GPT-4o mini。	未提供	未提供	未提供	重磅！MetaAI开源4050亿参数的大语言模型Llama3.1-405B模型！多项评测结果超越GPT-4o，与Claude-3.5 Sonnet平分秋色！

Loading comparison...

能力分布概览

每条轴代表一个评测领域的平均水平，并统一映射到 100 分雷达坐标。

视图: 非并行模式平均·3 个维度·已隐藏 1 个模型

Phi-4-mini-instruct (3.8B)

相对优势: 数学推理 +26.4 / 相对落后: 暂无明显落后

Llama-3.2-3B

相对优势: 暂无明显优势 / 相对落后: 数学推理 -47.0

Qwen2.5-3B

相对优势: 数学推理 +5.8 / 相对落后: 编程与软件工程 -8.6

Qwen2.5-7B

相对优势: 数学推理 +14.8 / 相对落后: 暂无明显落后

综合领先

Phi-4-mini-instruct (3.8B) · 64.06

单项最高

Phi-4-mini-instruct (3.8B) · GSM8K 88.60

模态覆盖

Phi-4-mini-instruct (3.8B) · 0 种模态

性能评测对比

支持不同模式与工具的榜单对比。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

筛选: 最佳可用·5 个模式 · 7 评测基准

图表加载中...

评测得分表格

完整列出各模型/模式的评测得分，便于横向比较。

7 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。

评测项	Phi-4-mini-instruct (3.8B)	Llama-3.2-3B	Qwen2.5-3B	Qwen2.5-7B	Llama3.1-8B
GPQA Diamond 综合评估	36.00常规模式	26.60常规模式	24.30常规模式	36.40常规模式	25.80常规模式
MMLU 综合评估	67.30常规模式	54.75常规模式	65.60常规模式	74.20常规模式	66.60常规模式
MMLU Pro 综合评估	52.80常规模式	25.00常规模式	34.60常规模式	45.00常规模式	35.40常规模式
GSM8K 数学推理	88.60常规模式	34.00常规模式	79.10常规模式	85.40常规模式	55.30常规模式
MATH 数学推理	64.00常规模式	8.50常规模式	42.60常规模式	49.80常规模式	20.50常规模式
HumanEval 编程与软件工程	74.40常规模式	28.00常规模式	42.10常规模式	57.90常规模式	33.50常规模式
MBPP 编程与软件工程	65.30常规模式	48.70常规模式	57.10常规模式	74.90常规模式	53.90常规模式

API 价格对比

输入输出 token 价格并排展示

能力与规格明细

是否 MoE、商业授权、模态支持等附加能力对比。

功能与规格	Phi-4-mini-instruct (3.8B)Microsoft Azure	Llama-3.2-3BFacebook AI研究实验室	Qwen2.5-3B阿里巴巴	Qwen2.5-7B阿里巴巴	Llama3.1-8BFacebook AI研究实验室
核心规格发布时间	2025-02-27	2024-09-18	2024-09-18	2024-09-18	2024-07-23
上下文	128K	128K	32K	128K	128K
参数量	38	32	30	70	80
MoE 架构	不支持	不支持	不支持	不支持	不支持
开源与许可代码开源	未开源	未提供	未提供	未提供	未提供
权重开源	未开源	未提供	未提供	未提供	未提供
商业授权	免费商用授权	免费商用授权	免费商用授权	免费商用授权	免费商用授权
资料来源论文 / 报告	Empowering innovation: The next generation of the Phi family	Llama 3.2-Model Card	Qwen2.5-LLM: Extending the boundary of LLMs	Qwen2.5-LLM: Extending the boundary of LLMs
DataLearner 博客	微软开源最强38亿小规模参数大语言模型以及56亿参数规模全模态大模型，但是总体评测结果超过Qwen2.5-7B以及Llama3.1-8B等模型，接近GPT-4o mini。	未提供	未提供	未提供	重磅！MetaAI开源4050亿参数的大语言模型Llama3.1-405B模型！多项评测结果超越GPT-4o，与Claude-3.5 Sonnet平分秋色！