微软开源140亿参数规模的Phi-4推理版本大模型:多项评测结果超过OpenAI o1-mini,单张4090可运行,完全免费开源
微软发布了全新的Phi-4推理模型系列,是小型语言模型(SLM)在复杂推理能力上的一种新的尝试。本次发布包含三个不同规模和性能的推理模型,分别是Phi-4-reasoning(140亿参数)、Phi-4-reasoning-plus(增强版140亿参数)和Phi-4-Mini-Reasoning(38亿参数)。这三款模型尽管参数规模远小于当前主流大型语言模型,却在多项推理基准测试中展现出与甚至超越大型模型的能力。

Phi-4 Reasoning系列模型介绍
微软Phi系列模型是由微软研究院开发的一系列“小型语言模型”(Small Language Models, SLMs)。与业界追求更大参数量的趋势不同,Phi系列模型的核心理念是通过使用精心筛选的高质量、”教科书级别”的训练数据,在相对较小的模型规模下实现卓越的性能,特别是在常识推理、语言理解和逻辑推理等方面。
在2025年2月底,微软就开源了第四代Phi-4系列,不过当时微软开源的是没有推理能力的版本,并表示他们在训练Phi-4的推理版本。而2个月后的今天,微软就发布了3个推理版Phi-4-reasoning系列。
Phi-4-reasoning系列包含3个不同的版本,Phi-4-mini应该是重新训练的,而Phi-4-reasoning以及Phi-4-reasoning-plus则是基于Phi-4微调得到的。
由于参数规模较小,即使是最大参数规模版本的Phi-4-reasoning也只用了2.5天时间,32个H100-80G的卡训练完成,可以说十分高效。而Phi-4-mini的训练时间也就2天。
Phi-4-Mini-Reasoning:紧凑型推理突破
Phi-4-Mini-Reasoning是一个仅有38亿参数的紧凑型推理模型,专为数学推理任务进行了优化。尽管参数量极小,该模型却能在多项数学推理基准测试中超越参数量接近两倍的竞品模型。该模型最高支持128K上下文,在1500亿数据集上训练得到,知识的截止日期也是2025年2月份,可以说非常新了。
Phi-4-Mini-Reasoning模型相关信息如下:
- 采用四阶段系统性训练:大规模中间训练、高质量监督微调、Roll-Out DPO优化和可验证奖励强化学习
- 训练数据包含超过100万个多样化数学问题,涵盖从中学到博士级难度
- 在AIME24获得57.5%、MATH-500获得94.6%、GPQA Diamond获得52.0%的优异成绩
- 超越DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Llama-8B等更大模型
与业界其它模型对比,Phi-4-mini-reasoning也在评测结果上表现亮眼:
模型 | AIME | MATH-500 | GPQA Diamond |
---|---|---|---|
o1-mini | 63.6 | 90.0 | 60.0 |
DeepSeek-R1-Distill-Qwen-7B | 53.3 | 91.4 | 49.5 |
DeepSeek-R1-Distill-Llama-8B | 43.3 | 86.9 | 47.3 |
Bespoke-Stratos-7B | 20.0 | 82.0 | 37.8 |
OpenThinker-7B | 31.3 | 83.0 | 42.4 |
Llama-3.2-3B-Instruct | 6.7 | 44.4 | 25.3 |
Phi-4-Mini (base model, 3.8B) | 10.0 | 71.8 | 36.9 |
Phi-4-mini-reasoning (3.8B) | 57.5 | 94.6 | 52.0 |
可以看到,Phi-4-mini-reasoning模型在多个任务上都非常不错,甚至在MATH-500上超过了OpenAI o1-mini模型。
Phi-4-Mini-Reasoning展示了通过精心设计的训练流程,极小规模模型也能实现强大的推理能力,为边缘计算设备和资源受限环境提供了高质量AI推理解决方案。
Phi-4-Reasoning:小型推理模型的基准
Phi-4-Reasoning是一个拥有140亿参数的开放权重推理模型,通过对Phi-4基础模型进行监督微调而来。该模型通过使用从OpenAI o3-mini中精心筛选的推理演示数据进行训练(问题收集自公开数据,答案来自OpenAI o3-mini),能够生成详细的推理链,有效利用推理时间计算资源解决复杂问题(OpenAI官方是不允许使用OpenAI模型生成的数据进行训练的,而作为金主爸爸的微软看样子是有特权~)。这份数据集大约有140万问答对。
不过相比较Phi-4-mini-reasoning,Phi-4-Reasoning模型支持的最大上下文只有32K了。一共在160亿tokens上训练,其中大约一半的tokens是不重复的。
Phi-4-Reasoning的成功证明,通过精心的数据策划和高质量训练,小型模型也能在复杂推理任务上实现突破性进展,为资源受限环境下的高性能AI应用提供了新可能。
Phi-4-Reasoning-Plus:强化学习增强的顶级推理能力
Phi-4-Reasoning-Plus建立在Phi-4-Reasoning的基础上,保持相同的140亿参数量,但通过额外的强化学习训练显著提升了推理性能。这款模型代表了微软在小型推理模型领域的最高技术水平。Phi-4-Reasoning-Plus使用比Phi-4-Reasoning多1.5倍的tokens进行推理,提供更高准确性,性能接近甚至超过拥有6710亿参数的DeepSeek-R1模型
Benchmark | Phi-4-reasoning | Phi-4-reasoning-plus | DeepSeek-R1 | o1-mini | o1 | o3-mini | Claude-3.7-Sonnet | Gemini-2.5-Pro | GPT-4o |
---|---|---|---|---|---|---|---|---|---|
AIME 24 | 75.3 | 81.3 | 78.7 | 63.6 | 74.6 | 88.0 | 55.3 | 92.0 | — |
AIME 25 | 62.9 | 78.0 | 70.4 | 54.8 | 75.3 | 78.0 | 58.7 | 86.7 | — |
OmniMath | 76.6 | 81.9 | 85.0 | — | 67.5 | 74.6 | 54.6 | 61.1 | — |
GPQA-D | 65.8 | 68.9 | 73.0 | 60.0 | 76.7 | 77.7 | 76.8 | 84.0 | — |
LiveCodeBench (8/1/24-2/1/25) | 53.8 | 53.1 | 62.8 | 53.8 | 71.0 | 69.5 | — | 69.2 | — |
IFEval Strict | 83.4 | 84.9 | — | — | — | 91.5 | — | — | 81.8 |
ArenaHard | 73.3 | 79.0 | — | — | — | 81.9 | — | — | 75.6 |
HumanEvalPlus | 92.9 | 92.3 | — | — | — | 94.0 | — | — | 88.0 |
MMLUPro | 74.3 | 76.0 | — | — | — | 79.4 | — | — | 73.0 |
从这个表格我们可以看到如下结论:
- 对比 Phi-4-reasoning,Phi-4-reasoning-plus 在大多数考验复杂推理能力的基准测试中表现更优,尤其是在数学推理方面(AIME 24/25, OmniMath)提升显著。因此,强化学习的作用真的很明显。
- 在数学推理 (AIME, OmniMath) 和部分代码生成 (HumanEvalPlus) 任务上,Phi-4-reasoning-plus 的表现非常突出,能够与 o3-mini 等业界领先的模型相媲美,甚至在某些指标上(如 AIME 25)超过了 o1。
- 虽然推理能力突出,但在更广泛的知识问答 (GPQA-D, MMLUPro)、多语言处理 (Kitab) 或特定编程基准 (LiveCodeBench) 上,Phi-4 系列与 Gemini-2.5-Pro、GPT-4o 或 o3-mini 相比,整体仍存在一定差距。例如,在 GPQA-D 和 MMLUPro 上落后于 o3-mini 和 Gemini-2.5-Pro,在 Kitab(尤其是无上下文场景)上远低于 o3-mini 和 GPT-4o。
- 值得注意的是,并非所有指标 “Plus” 版本都优于基础版。例如,在 HumanEvalPlus 上两者分数相近,甚至 “Plus” 略低;而在 Toxigen Discriminative 的 Toxic category 检测上,”Plus” 版本得分显著低于基础版 (77.3 vs 86.7)。这可能暗示 “Plus” 版本的优化带来了一些行为上的改变或权衡 (trade-off),可能在某些对齐或安全相关的评估维度上表现有所不同。
总之,这些结果虽然无法完全替代模型的真实感受,但是微软发布的论文和技术报告中还是有非常多值得细究的内容的。
Phi-4推理模型的价值和开源情况
微软Phi-4推理模型系列的发布,再次证明了精心设计的小型模型在推理任务上的巨大潜力。从140亿参数的Phi-4-reasoning到仅有38亿参数的Phi-4-Mini-Reasoning,这些模型都在各自的规模级别上实现了与大型模型相媲美甚至超越的性能,尽管很多时候Phi系列的评测结果高于大家的感知结果,但这毕竟是一个非常值得持续投入的方向。
通过不断推进小型模型的能力边界,微软为学术界和小型研究团队提供了可负担的AI研究路线。相比动辄需要数千亿参数的大型模型,Phi系列模型的规模使得更多研究团队能够参与到模型改进和应用创新中来。
最重要的是,这三个模型均是MIT开源协议开源,意味着可以完全免费商用。关于模型更多的信息和开源地址,参考DataLearnerAI的模型信息卡:
Phi-4-mini-reasoning:https://www.datalearner.com/ai-models/pretrained-models/Phi-4-mini-reasoning
Phi-4-reasoning:https://www.datalearner.com/ai-models/pretrained-models/Phi-4-reasoning
Phi-4-reasoning-plus:https://www.datalearner.com/ai-models/pretrained-models/Phi-4-reasoning-plus
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
