微软发布第四代Phi系列大模型,140亿参数的Phi-4 14B模型数学推理方面评测结果超过GPT 4o,复杂推理能力大幅增强
Phi大语言模型是微软发布的一系列小规模大语言模型,其主要的目标是用较小规模参数的大语言模型达成较大参数规模的大语言模型的能力。就在今天,微软发布了Phi4-14B模型,参数规模仅140亿,但是数学推理能力大幅增强,在多个评测基准上甚至接近GPT-4o的能力。
Phi-4-14B模型简介
微软将大语言模型分为两类,参数较小的规模被称为小语言模型(Small Language Models, SLMs)。微软认为,使用高质量的数据集训练小规模参数语言模型,以达成更高的推理能力是很重要的一个方向。为此,微软发布了Phi系列的大语言模型。
在2023年6月份,微软开源了第一代Phi模型,这个模型参数规模仅有13亿,这是一个纯粹的编程大模型,但是效果不错,三个月后,微软发布Phi-1.5模型,在Phi-1代码补全的基础上增加了模型推理能力和语言理解的能力,参数量不变。随后,2023年年底微软开源了Phi-2模型,这个模型的参数增长到27亿,但是MMLU评测结果超过了LLaMA2 13B,让大家十分惊叹。2024年4月份,微软发布了Phi-3系列SLM,最高参数达到140亿,性能接近Mixtral-8×22B-MoE这样更大规模参数的模型。2024年8月份,微软发布了Phi-3.5系列模型,增加了多模态和混合专家架构,模型能力更强。而4个月后的今天,微软发布了全新的Phi 4 - 14B模型,大幅增强了数学推理能力。
Phi-4-14B模型的参数规模140亿,上下文长度(context length)在预训练阶段是4096。在预训练之后的中期训练(midtraining)阶段,上下文长度被扩展到了16384(即16K)。
Phi-4 是一款在数学推理方面表现出色的先进模型,超越了同类和更大规模的模型。其成功归功于几个关键创新:
-
合成数据用于预训练和中期训练(Synthetic Data for Pretraining and Midtraining):



