自动展示选中模型的核心信息与各评测得分,可左右滑动查看完整表格。 当前对比 5 个模型的评测数据与核心参数。

Llama-3.2-3B
Facebook AI研究实验室
每条轴代表一个评测领域的平均水平,并统一映射到 100 分雷达坐标。
相对优势: 数学推理 +26.4 / 相对落后: 暂无明显落后
相对优势: 暂无明显优势 / 相对落后: 数学推理 -47.0
相对优势: 数学推理 +5.8 / 相对落后: 编程与软件工程 -8.6
相对优势: 数学推理 +14.8 / 相对落后: 暂无明显落后
计算口径:同一模型在同一 benchmark 下先平均当前模式范围内的所有分数,不取最高分;再按评测领域对这些 benchmark 分数求平均。只纳入至少两个模型有数据的 benchmark,缺项不按 0 分处理。
综合领先
Phi-4-mini-instruct (3.8B) · 64.06
单项最高
Phi-4-mini-instruct (3.8B) · GSM8K 88.60
模态覆盖
Phi-4-mini-instruct (3.8B) · 0 种模态
完整列出各模型/模式的评测得分,便于横向比较。
7 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。
| 评测项 | Phi-4-mini-instruct (3.8B) | Llama-3.2-3B | Qwen2.5-3B | Qwen2.5-7B | Llama3.1-8B |
|---|---|---|---|---|---|
GPQA Diamond 综合评估 | 36.00常规模式 | 26.60常规模式 | 24.30常规模式 | 36.40常规模式 | 25.80常规模式 |
MMLU 综合评估 | 67.30常规模式 | 54.75常规模式 | 65.60常规模式 | 74.20常规模式 | 66.60常规模式 |
MMLU Pro 综合评估 | 52.80常规模式 | 25.00常规模式 | 34.60常规模式 | 45.00常规模式 | 35.40常规模式 |
GSM8K 数学推理 | 88.60常规模式 | 34.00常规模式 | 79.10常规模式 | 85.40常规模式 | 55.30常规模式 |
MATH 数学推理 | 64.00常规模式 | 8.50常规模式 | 42.60常规模式 | 49.80常规模式 | 20.50常规模式 |
HumanEval 编程与软件工程 | 74.40常规模式 | 28.00常规模式 | 42.10常规模式 | 57.90常规模式 | 33.50常规模式 |
MBPP 编程与软件工程 | 65.30常规模式 | 48.70常规模式 | 57.10常规模式 | 74.90常规模式 | 53.90常规模式 |
输入输出 token 价格并排展示
是否 MoE、商业授权、模态支持等附加能力对比。
| 功能与规格 | Phi-4-mini-instruct (3.8B)Microsoft Azure | Llama-3.2-3BFacebook AI研究实验室 | Qwen2.5-3B阿里巴巴 | Qwen2.5-7B阿里巴巴 | Llama3.1-8BFacebook AI研究实验室 |
|---|---|---|---|---|---|
核心规格发布时间 | 2025-02-27 | 2024-09-18 | 2024-09-18 | 2024-09-18 | 2024-07-23 |
上下文 | 128K | 128K | 32K | 128K | 128K |
参数量 | 38 | 32 | 30 | 70 | 80 |
MoE 架构 | 不支持 | 不支持 | 不支持 | 不支持 | 不支持 |
开源与许可代码开源 | 未开源 | 未提供 | 未提供 | 未提供 | 未提供 |
权重开源 | 未开源 | 未提供 | 未提供 | 未提供 | 未提供 |
商业授权 | 免费商用授权 | 免费商用授权 | 免费商用授权 | 免费商用授权 | 免费商用授权 |
资料来源论文 / 报告 | Empowering innovation: The next generation of the Phi family | Llama 3.2-Model Card | Qwen2.5-LLM: Extending the boundary of LLMs | Qwen2.5-LLM: Extending the boundary of LLMs | |
DataLearner 博客 | 微软开源最强38亿小规模参数大语言模型以及56亿参数规模全模态大模型,但是总体评测结果超过Qwen2.5-7B以及Llama3.1-8B等模型,接近GPT-4o mini。 | 未提供 | 未提供 | 未提供 | 重磅!MetaAI开源4050亿参数的大语言模型Llama3.1-405B模型!多项评测结果超越GPT-4o,与Claude-3.5 Sonnet平分秋色! |