Ph

Phi-4-mini-reasoning

推理大模型

Phi-4-mini-reasoning

发布时间: 2025-04-30

模型参数(Parameters)
38.0
最高上下文长度(Context Length)
128K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

支持

最高上下文输入长度

128K tokens

最长输出结果

32768 tokens

模型类型

推理大模型

发布时间

2025-04-30

模型预文件大小

7.76GB

开源和体验地址

代码开源状态
预训练权重开源
MIT License - 免费商用授权
GitHub 源码
暂无GitHub开源地址
Hugging Face
在线体验
暂无在线体验地址

API接口信息

接口速度(满分5分)
接口价格
输入价格:
  • 文本:
  • 图片:
  • 音频:
  • 视频:
  • Embedding:
输出价格:
  • 文本:
  • 图片:
  • 音频:
  • 视频:
  • Embedding:

输入支持的模态

文本

输入支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

Phi-4-mini-reasoning模型在各大评测榜单的评分

发布机构

模型介绍

Phi-4-Mini-Reasoning是微软最新开源的推理大模型,参数38亿。本次微软开源的Phi-4推理版包含3个不同的版本,分别是Phi-4-reasoning(140亿参数)、Phi-4-reasoning-plus(增强版140亿参数模型)和Phi-4-Mini-Reasoning(38亿参数)。Phi-4-Mini-Reasoning是其中参数规模最小的版本。

技术架构与设计理念

Phi-4-Mini-Reasoning采用Transformer架构,专为数学推理任务进行了优化。该模型代表了小型语言模型(SLM)在复杂推理任务上的重大突破,通过精心设计的训练流程,使得模型尽管规模较小,却能够在推理性能上媲美甚至超越参数量高出近一倍的模型。

训练方法创新

根据微软发布的技术报告,Phi-4-Mini-Reasoning的训练采用了一个四阶段的系统性训练配方:

  1. 大规模中间训练:在多样化的长链式思考(CoT)数据上进行初步训练,建立基础推理能力
  2. 高质量监督微调:使用精选的高质量CoT数据进行监督微调
  3. Roll-Out DPO优化:利用精心策划的偏好数据集进行直接偏好优化
  4. 可验证奖励强化学习:通过验证性奖励信号进行强化学习微调

该模型训练过程采用了多项创新技术来提高稳定性:

  • 提示词优化:筛选产生统一长度响应的提示词
  • 奖励重平衡:通过过采样和过滤技术平衡难题训练样本
  • 温度退火:在训练过程中从1.0逐渐降至0.6,平衡探索与利用

训练数据特点

Phi-4-Mini-Reasoning训练使用了超过100万个多样化数学问题,涵盖从中学到博士级别的难度。训练数据来源包括:

  • AquaRAT(98K样本)
  • Ape210K(210K样本)
  • MetaMathQA(395K样本)
  • MathInstruct(262K样本)
  • TAL-SCQ5K(5K样本)
  • OpenR1-Math(220K样本)
  • Bespoke-Stratos-17k(17K样本)
  • OpenThoughts-114K(114K样本)

特别值得注意的是,模型采用了Deepseek-R1模型生成的合成训练数据,并进行了严格的验证筛选,确保推理链的质量。

性能表现

在数学推理基准测试中,Phi-4-Mini-Reasoning的表现令人瞩目:

  • AIME24测试:57.5% (Pass@1)
  • MATH-500:94.6% (Pass@1)
  • GPQA Diamond:52.0% (Pass@1)

这些成绩超越了参数量接近两倍的多个开源推理模型,包括DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Llama-8B。特别值得注意的是,模型在美国数学奥林匹克2025年资格赛AIME 2025测试上的表现优于拥有6710亿参数的DeepSeek-R1完整模型。

应用场景与部署优势

作为一个紧凑型推理模型,Phi-4-Mini-Reasoning特别适合于:

  • 教育应用程序
  • 嵌入式辅导系统
  • 边缘设备或移动系统上的轻量级部署
  • 计算资源或延迟受限的环境

微软计划将其优化并集成到Copilot+ PC的NPU上运行,成为Windows 11生态系统的一部分,为Click to Do等核心体验提供支持,并作为开发者API提供给应用程序集成。

技术意义

Phi-4-Mini-Reasoning的成功表明,通过精心设计的训练流程和数据选择策略,小型模型能够在推理任务上达到甚至超越更大模型的能力。这一突破为资源受限环境下开发高性能AI应用程序提供了新的可能性,代表了小型语言模型领域的重要进步。

该模型目前已在Azure AI Foundry和HuggingFace平台上提供,开发者可以直接访问并使用这一强大的小型推理模型。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat