模型评测对比 最新基准汇总

Phi-4-instruct (reasoning-trained)与Llama-3.2-3B、OpenAI o1-mini、Phi-4-mini-instruct (3.8B)等模型对比

本页面提供Phi-4-instruct (reasoning-trained),Llama-3.2-3B,OpenAI o1-mini,Phi-4-mini-instruct (3.8B),DeepSeek-R1-Distill-Qwen-7B模型的对比,包括参数、开源情况、API价格等。同时,页面也会展示Phi-4-instruct (reasoning-trained),Llama-3.2-3B,OpenAI o1-mini,Phi-4-mini-instruct (3.8B),DeepSeek-R1-Distill-Qwen-7B模型在MATH-500,AIME 2024,GPQA Diamond等评测基准中的详细对比数据,评测数据来自系统收录结果汇总。
📊 左右滑动可查看更多模型数据 →
Phi-4-instruct (reasoning-trained)
Phi-4-instruct (reasoning-trained)

Microsoft 发布的推理大模型模型。

核心信息
开发机构 Microsoft Microsoft
发布时间 2025-02-27
模型类型 推理大模型
MoE 架构
性能与规格
总参数量 38 亿
激活参数量 未公开
模型大小 7.67GB
推理能力 暂无数据
推理速度 暂无数据
思考模式
深度思考
最大上下文 128K
最大输出 0
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格 --
输出价格 --
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告 查看
模型详细介绍 阅读
相关链接 🤗
Llama-3.2-3B
Llama-3.2-3B

Facebook AI研究实验室 发布的基础大模型模型。

核心信息
发布时间 2024-09-18
模型类型 基础大模型
MoE 架构
性能与规格
总参数量 32 亿
激活参数量 未公开
模型大小 6.43GB
推理能力 暂无数据
推理速度 暂无数据
思考模式
深度思考
最大上下文 128K
最大输出 0
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格 --
输出价格 --
开源与许可
代码开源 --
权重开源 --
商业用途 免费商用授权
相关资源
论文/报告 查看
模型详细介绍 --
相关链接 🤗
OpenAI o1-mini
OpenAI o1-mini

OpenAI 发布的推理大模型模型。

核心信息
开发机构 OpenAI OpenAI
发布时间 2024-09-12
模型类型 推理大模型
MoE 架构
性能与规格
总参数量 未公开
激活参数量 未公开
模型大小
推理能力 暂无数据
推理速度 暂无数据
思考模式
深度思考
最大上下文 128K
最大输出 0
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格 --
输出价格 --
开源与许可
代码开源 --
权重开源 --
商业用途 不开源
相关资源
论文/报告 查看
模型详细介绍 阅读
相关链接
Phi-4-mini-instruct (3.8B)
Phi-4-mini-instruct (3.8B)

Microsoft 发布的聊天大模型模型。

核心信息
开发机构 Microsoft Microsoft
发布时间 2025-02-27
模型类型 聊天大模型
MoE 架构
性能与规格
总参数量 38 亿
激活参数量 未公开
模型大小 7.67GB
推理能力 暂无数据
推理速度 暂无数据
思考模式
深度思考
最大上下文 128K
最大输出 0
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格 --
输出价格 --
开源与许可
代码开源
权重开源
商业用途 免费商用授权
相关资源
论文/报告 查看
模型详细介绍 阅读
相关链接 🤗
DeepSeek-R1-Distill-Qwen-7B
DeepSeek-R1-Distill-Qwen-7B

DeepSeek-AI 发布的推理大模型模型。

核心信息
开发机构 DeepSeek-AI DeepSeek-AI
发布时间 2025-01-20
模型类型 推理大模型
MoE 架构
性能与规格
总参数量 70 亿
激活参数量 未公开
模型大小 14GB
推理能力 暂无数据
推理速度 暂无数据
思考模式
深度思考
最大上下文 128K
最大输出 0
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格 --
输出价格 --
开源与许可
代码开源
权重开源
商业用途 免费商用授权
相关资源
论文/报告 查看
模型详细介绍 --
相关链接 🤗
评测对比模式筛选
当前大多数模型的评测都有不同的模式,包括是否使用推理过程,是否使用工具等,建议选择特定模式对比。 点击下方任一按钮,将 过滤模型的模式的对比表格,并同步更新 汇总图各基准小图

Phi-4-instruct (reasoning-trained)与Llama-3.2-3B、OpenAI o1-mini、Phi-4-mini-instruct (3.8B)等模型各评测基准得分对比表

评测基准 Phi-4-instruct (reasoning-trained) normal Llama-3.2-3B normal OpenAI o1-mini normal Phi-4-mini-instruct (3.8B) normal DeepSeek-R1-Distill-Qwen-7B normal
MATH-500
数学推理
90.4 0 90 71.8 91.4
AIME 2024
数学推理
50 0 63.6 10 53.3
GPQA Diamond
常识推理
49 26.6 60 36 49.5

Phi-4-instruct (reasoning-trained)与Llama-3.2-3B、OpenAI o1-mini、Phi-4-mini-instruct (3.8B)等模型评测结果汇总对比图

Phi-4-instruct (reasoning-trained)与Llama-3.2-3B、OpenAI o1-mini、Phi-4-mini-instruct (3.8B)等模型的API价格对比图 (文本输入/输出)

Phi-4-instruct (reasoning-trained)与Llama-3.2-3B、OpenAI o1-mini、Phi-4-mini-instruct (3.8B)等模型在各评测基准详细对比