模型评测对比最新基准汇总

Phi-4-instruct (reasoning-trained)与Llama-3.2-3B、OpenAI o1-mini、Phi-4-mini-instruct (3.8B)等模型对比

本页面提供Phi-4-instruct (reasoning-trained),Llama-3.2-3B,OpenAI o1-mini,Phi-4-mini-instruct (3.8B),DeepSeek-R1-Distill-Qwen-7B模型的对比，包括参数、开源情况、API价格等。同时，页面也会展示Phi-4-instruct (reasoning-trained),Llama-3.2-3B,OpenAI o1-mini,Phi-4-mini-instruct (3.8B),DeepSeek-R1-Distill-Qwen-7B模型在MATH-500,AIME 2024,GPQA Diamond等评测基准中的详细对比数据，评测数据来自系统收录结果汇总。

📊 左右滑动可查看更多模型数据 →

Phi-4-instruct (reasoning-trained)

Microsoft 发布的推理大模型模型。

了解更多无体验地址

核心信息

开发机构

Microsoft

发布时间 2025-02-27

模型类型推理大模型

MoE 架构

性能与规格

总参数量 38 亿

激活参数量未公开

模型大小 7.67GB

推理能力暂无数据

推理速度暂无数据

思考模式

深度思考

最大上下文 128K

最大输出 0

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途不开源

相关资源

论文/报告查看

模型详细介绍阅读

相关链接

Llama-3.2-3B

Facebook AI研究实验室发布的基础大模型模型。

了解更多无体验地址

核心信息

开发机构

Facebook AI研究实验室

发布时间 2024-09-18

模型类型基础大模型

MoE 架构

性能与规格

总参数量 32 亿

激活参数量未公开

模型大小 6.43GB

推理能力暂无数据

推理速度暂无数据

思考模式

深度思考

最大上下文 128K

最大输出 0

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途免费商用授权

相关资源

论文/报告查看

模型详细介绍 --

相关链接

OpenAI o1-mini

OpenAI 发布的推理大模型模型。

了解更多无体验地址

核心信息

开发机构

OpenAI

发布时间 2024-09-12

模型类型推理大模型

MoE 架构

性能与规格

总参数量未公开

激活参数量未公开

模型大小

推理能力暂无数据

推理速度暂无数据

思考模式

深度思考

最大上下文 128K

最大输出 0

支持模态

Input

Output

开源与许可

代码开源 --

权重开源 --

商业用途不开源

相关资源

论文/报告查看

模型详细介绍阅读

相关链接

Phi-4-mini-instruct (3.8B)

Microsoft 发布的聊天大模型模型。

了解更多无体验地址

核心信息

开发机构

Microsoft

发布时间 2025-02-27

模型类型聊天大模型

MoE 架构

性能与规格

总参数量 38 亿

激活参数量未公开

模型大小 7.67GB

推理能力暂无数据

推理速度暂无数据

思考模式

深度思考

最大上下文 128K

最大输出 0

支持模态

Input

Output

开源与许可

代码开源否

权重开源否

商业用途免费商用授权

相关资源

论文/报告查看

模型详细介绍阅读

相关链接

DeepSeek-R1-Distill-Qwen-7B

DeepSeek-AI 发布的推理大模型模型。

了解更多无体验地址

核心信息

开发机构

DeepSeek-AI

发布时间 2025-01-20

模型类型推理大模型

MoE 架构

性能与规格

总参数量 70 亿

激活参数量未公开

模型大小 14GB

推理能力暂无数据

推理速度暂无数据

思考模式

深度思考

最大上下文 128K

最大输出 0

支持模态

Input

Output

开源与许可

代码开源否

权重开源否

商业用途免费商用授权

相关资源

论文/报告查看

模型详细介绍 --

相关链接

Phi-4-instruct (reasoning-trained)与Llama-3.2-3B、OpenAI o1-mini、Phi-4-mini-instruct (3.8B)等模型各评测基准得分对比表

评测基准	Phi-4-instruct (reasoning-trained) normal	Llama-3.2-3B normal	OpenAI o1-mini normal	Phi-4-mini-instruct (3.8B) normal	DeepSeek-R1-Distill-Qwen-7B normal
MATH-500 数学推理	90.4	--	90	71.8	91.4
AIME 2024 数学推理	50	--	63.6	10	53.3
GPQA Diamond 综合评估	49	26.6	60	36	49.5

Phi-4-instruct (reasoning-trained)与Llama-3.2-3B、OpenAI o1-mini、Phi-4-mini-instruct (3.8B)等模型评测结果汇总对比图

蓝色柱状系列表示选定模型 Phi-4-instruct (reasoning-trained) 在不同模式下的表现

Phi-4-instruct (reasoning-trained)与Llama-3.2-3B、OpenAI o1-mini、Phi-4-mini-instruct (3.8B)等模型对比

Phi-4-instruct (reasoning-trained)与Llama-3.2-3B、OpenAI o1-mini、Phi-4-mini-instruct (3.8B)等模型各评测基准得分对比表

Phi-4-instruct (reasoning-trained)与Llama-3.2-3B、OpenAI o1-mini、Phi-4-mini-instruct (3.8B)等模型评测结果汇总对比图

Phi-4-instruct (reasoning-trained)与Llama-3.2-3B、OpenAI o1-mini、Phi-4-mini-instruct (3.8B)等模型的API价格对比图 (文本输入/输出)

Phi-4-instruct (reasoning-trained)与Llama-3.2-3B、OpenAI o1-mini、Phi-4-mini-instruct (3.8B)等模型在各评测基准详细对比