Phi-4-Mini-Reasoning是微软最新开源的推理大模型，参数38亿。本次微软开源的Phi-4推理版包含3个不同的版本，分别是Phi-4-reasoning（140亿参数）、Phi-4-reasoning-plus（增强版140亿参数模型）和Phi-4-Mini-Reasoning（38亿参数）。Phi-4-Mini-Reasoning是其中参数规模最小的版本。

技术架构与设计理念

Phi-4-Mini-Reasoning采用Transformer架构，专为数学推理任务进行了优化。该模型代表了小型语言模型(SLM)在复杂推理任务上的重大突破，通过精心设计的训练流程，使得模型尽管规模较小，却能够在推理性能上媲美甚至超越参数量高出近一倍的模型。

训练方法创新

根据微软发布的技术报告，Phi-4-Mini-Reasoning的训练采用了一个四阶段的系统性训练配方：

大规模中间训练：在多样化的长链式思考(CoT)数据上进行初步训练，建立基础推理能力
高质量监督微调：使用精选的高质量CoT数据进行监督微调
Roll-Out DPO优化：利用精心策划的偏好数据集进行直接偏好优化
可验证奖励强化学习：通过验证性奖励信号进行强化学习微调

该模型训练过程采用了多项创新技术来提高稳定性：

提示词优化：筛选产生统一长度响应的提示词
奖励重平衡：通过过采样和过滤技术平衡难题训练样本
温度退火：在训练过程中从1.0逐渐降至0.6，平衡探索与利用

训练数据特点

Phi-4-Mini-Reasoning训练使用了超过100万个多样化数学问题，涵盖从中学到博士级别的难度。训练数据来源包括：

AquaRAT（98K样本）
Ape210K（210K样本）
MetaMathQA（395K样本）
MathInstruct（262K样本）
TAL-SCQ5K（5K样本）
OpenR1-Math（220K样本）
Bespoke-Stratos-17k（17K样本）
OpenThoughts-114K（114K样本）

特别值得注意的是，模型采用了Deepseek-R1模型生成的合成训练数据，并进行了严格的验证筛选，确保推理链的质量。

性能表现

在数学推理基准测试中，Phi-4-Mini-Reasoning的表现令人瞩目：

AIME24测试：57.5% (Pass@1)
MATH-500：94.6% (Pass@1)
GPQA Diamond：52.0% (Pass@1)

这些成绩超越了参数量接近两倍的多个开源推理模型，包括DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Llama-8B。特别值得注意的是，模型在美国数学奥林匹克2025年资格赛AIME 2025测试上的表现优于拥有6710亿参数的DeepSeek-R1完整模型。

应用场景与部署优势

作为一个紧凑型推理模型，Phi-4-Mini-Reasoning特别适合于：

教育应用程序
嵌入式辅导系统
边缘设备或移动系统上的轻量级部署
计算资源或延迟受限的环境

微软计划将其优化并集成到Copilot+ PC的NPU上运行，成为Windows 11生态系统的一部分，为Click to Do等核心体验提供支持，并作为开发者API提供给应用程序集成。

技术意义

Phi-4-Mini-Reasoning的成功表明，通过精心设计的训练流程和数据选择策略，小型模型能够在推理任务上达到甚至超越更大模型的能力。这一突破为资源受限环境下开发高性能AI应用程序提供了新的可能性，代表了小型语言模型领域的重要进步。

该模型目前已在Azure AI Foundry和HuggingFace平台上提供，开发者可以直接访问并使用这一强大的小型推理模型。

Phi-4-mini-reasoning

模型基本信息

是否支持推理过程

最高上下文输入长度

最长输出结果

模型类型

发布时间

模型预文件大小

开源和体验地址

代码开源状态

预训练权重开源

GitHub 源码

Hugging Face

在线体验

官方介绍与博客

官方论文

DataLearnerAI博客

API接口信息

接口速度（满分5分）

接口价格

输入价格:

输出价格:

输入支持的模态

文本

图片

视频

音频

Embedding（向量）

输出支持的模态

文本

图片

视频

音频

Embedding（向量）