DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
页面导航
大模型列表Phi-4-mini-reasoning
PH

Phi-4-mini-reasoning

推理大模型

Phi-4-mini-reasoning

发布时间: 2025-04-30更新于: 2025-05-01 22:05:06768
在线体验GitHubHugging FaceCompare
模型参数
38亿
上下文长度
128K (131072)
中文支持
支持
推理能力

Phi-4-mini-reasoning 是由 Microsoft Azure 发布的 AI 模型,发布时间为 2025-04-30,定位为 推理大模型,参数规模约为 38.0B,上下文长度为 128K,模型文件大小约 7.76GB,采用 MIT License 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

Phi-4-mini-reasoning

模型基本信息

推理过程
支持
思考模式
不支持思考模式
上下文长度
128K (131072) tokens
最大输出长度
32K (32768) tokens
模型类型
推理大模型
发布时间
2025-04-30
模型文件大小
7.76GB
MoE架构
否
总参数 / 激活参数
38 亿 / 不涉及
知识截止
暂无数据
Phi-4-mini-reasoning

开源和体验地址

代码开源状态
MIT License
预训练权重开源
MIT License- 免费商用授权
GitHub 源码
暂无GitHub开源地址
Hugging Face
https://huggingface.co/microsoft/Phi-4-mini-reasoning
在线体验
暂无在线体验地址
Phi-4-mini-reasoning

官方介绍与博客

官方论文
One year of Phi: Small language models making big leaps in AI
DataLearnerAI博客
微软开源140亿参数规模的Phi-4推理版本大模型:多项评测结果超过OpenAI o1-mini,单张4090可运行,完全免费开源
Phi-4-mini-reasoning

API接口信息

接口速度
4/5
暂无公开的 API 定价信息。
Phi-4-mini-reasoning

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合?打开对比工具

Phi-4-mini-reasoning

发布机构

Microsoft Azure
Microsoft Azure
查看发布机构详情
Phi-4-mini-reasoning

模型解读

Phi-4-Mini-Reasoning是微软最新开源的推理大模型,参数38亿。本次微软开源的Phi-4推理版包含3个不同的版本,分别是Phi-4-reasoning(140亿参数)、Phi-4-reasoning-plus(增强版140亿参数模型)和Phi-4-Mini-Reasoning(38亿参数)。Phi-4-Mini-Reasoning是其中参数规模最小的版本。

技术架构与设计理念

Phi-4-Mini-Reasoning采用Transformer架构,专为数学推理任务进行了优化。该模型代表了小型语言模型(SLM)在复杂推理任务上的重大突破,通过精心设计的训练流程,使得模型尽管规模较小,却能够在推理性能上媲美甚至超越参数量高出近一倍的模型。

训练方法创新

根据微软发布的技术报告,Phi-4-Mini-Reasoning的训练采用了一个四阶段的系统性训练配方:

  1. 大规模中间训练:在多样化的长链式思考(CoT)数据上进行初步训练,建立基础推理能力
  2. 高质量监督微调:使用精选的高质量CoT数据进行监督微调
  3. Roll-Out DPO优化:利用精心策划的偏好数据集进行直接偏好优化
  4. 可验证奖励强化学习:通过验证性奖励信号进行强化学习微调

该模型训练过程采用了多项创新技术来提高稳定性:

  • 提示词优化:筛选产生统一长度响应的提示词
  • 奖励重平衡:通过过采样和过滤技术平衡难题训练样本
  • 温度退火:在训练过程中从1.0逐渐降至0.6,平衡探索与利用

训练数据特点

Phi-4-Mini-Reasoning训练使用了超过100万个多样化数学问题,涵盖从中学到博士级别的难度。训练数据来源包括:

  • AquaRAT(98K样本)
  • Ape210K(210K样本)
  • MetaMathQA(395K样本)
  • MathInstruct(262K样本)
  • TAL-SCQ5K(5K样本)
  • OpenR1-Math(220K样本)
  • Bespoke-Stratos-17k(17K样本)
  • OpenThoughts-114K(114K样本)

特别值得注意的是,模型采用了Deepseek-R1模型生成的合成训练数据,并进行了严格的验证筛选,确保推理链的质量。

性能表现

在数学推理基准测试中,Phi-4-Mini-Reasoning的表现令人瞩目:

  • AIME24测试:57.5% (Pass@1)
  • MATH-500:94.6% (Pass@1)
  • GPQA Diamond:52.0% (Pass@1)

这些成绩超越了参数量接近两倍的多个开源推理模型,包括DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Llama-8B。特别值得注意的是,模型在美国数学奥林匹克2025年资格赛AIME 2025测试上的表现优于拥有6710亿参数的DeepSeek-R1完整模型。

应用场景与部署优势

作为一个紧凑型推理模型,Phi-4-Mini-Reasoning特别适合于:

  • 教育应用程序
  • 嵌入式辅导系统
  • 边缘设备或移动系统上的轻量级部署
  • 计算资源或延迟受限的环境

微软计划将其优化并集成到Copilot+ PC的NPU上运行,成为Windows 11生态系统的一部分,为Click to Do等核心体验提供支持,并作为开发者API提供给应用程序集成。

技术意义

Phi-4-Mini-Reasoning的成功表明,通过精心设计的训练流程和数据选择策略,小型模型能够在推理任务上达到甚至超越更大模型的能力。这一突破为资源受限环境下开发高性能AI应用程序提供了新的可能性,代表了小型语言模型领域的重要进步。

该模型目前已在Azure AI Foundry和HuggingFace平台上提供,开发者可以直接访问并使用这一强大的小型推理模型。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码