模型评测对比
最新基准汇总
Phi-4-instruct (reasoning-trained)与Llama-3.2-3B、OpenAI o1-mini、Phi-4-mini-instruct (3.8B)等模型对比
本页面提供Phi-4-instruct (reasoning-trained),Llama-3.2-3B,OpenAI o1-mini,Phi-4-mini-instruct (3.8B),DeepSeek-R1-Distill-Qwen-7B模型的对比,包括参数、开源情况、API价格等。同时,页面也会展示Phi-4-instruct (reasoning-trained),Llama-3.2-3B,OpenAI o1-mini,Phi-4-mini-instruct (3.8B),DeepSeek-R1-Distill-Qwen-7B模型在MATH-500,AIME 2024,GPQA Diamond等评测基准中的详细对比数据,评测数据来自系统收录结果汇总。
📊 左右滑动可查看更多模型数据 →
Phi-4-instruct (reasoning-trained)
Microsoft 发布的推理大模型模型。
Llama-3.2-3B
Facebook AI研究实验室 发布的基础大模型模型。
核心信息
开发机构
Facebook AI研究实验室

发布时间
2024-09-18
模型类型
基础大模型
MoE 架构
性能与规格
总参数量
32 亿
激活参数量
未公开
模型大小
6.43GB
推理能力
暂无数据
推理速度
暂无数据
思考模式
深度思考
最大上下文
128K
最大输出
0
支持模态
Input
Output
API 价格 (每百万Tokens)
输入价格
--
输出价格
--
开源与许可
代码开源
--
权重开源
--
商业用途
免费商用授权
相关资源
论文/报告
查看
模型详细介绍
--
相关链接
OpenAI o1-mini
OpenAI 发布的推理大模型模型。
Phi-4-mini-instruct (3.8B)
Microsoft 发布的聊天大模型模型。
DeepSeek-R1-Distill-Qwen-7B
DeepSeek-AI 发布的推理大模型模型。
核心信息
开发机构
DeepSeek-AI

发布时间
2025-01-20
模型类型
推理大模型
MoE 架构
性能与规格
总参数量
70 亿
激活参数量
未公开
模型大小
14GB
推理能力
暂无数据
推理速度
暂无数据
思考模式
深度思考
最大上下文
128K
最大输出
0
支持模态
Input
Output
API 价格 (每百万Tokens)
输入价格
--
输出价格
--
开源与许可
代码开源
否
权重开源
否
商业用途
免费商用授权
相关资源
论文/报告
查看
模型详细介绍
--
相关链接
评测对比模式筛选
当前大多数模型的评测都有不同的模式,包括是否使用推理过程,是否使用工具等,建议选择特定模式对比。
点击下方任一按钮,将 过滤模型的模式的对比表格,并同步更新
汇总图 与 各基准小图。
Phi-4-instruct (reasoning-trained)与Llama-3.2-3B、OpenAI o1-mini、Phi-4-mini-instruct (3.8B)等模型各评测基准得分对比表
评测基准 | Phi-4-instruct (reasoning-trained) normal | Llama-3.2-3B normal | OpenAI o1-mini normal | Phi-4-mini-instruct (3.8B) normal | DeepSeek-R1-Distill-Qwen-7B normal |
---|---|---|---|---|---|
MATH-500
数学推理
|
90.4 | 0 | 90 | 71.8 | 91.4 |
AIME 2024
数学推理
|
50 | 0 | 63.6 | 10 | 53.3 |
GPQA Diamond
常识推理
|
49 | 26.6 | 60 | 36 | 49.5 |