DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tools
LanguageEnglish

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

Products

  • Leaderboards
  • Model comparison
  • Datasets

Resources

  • Tutorials
  • Editorial
  • Tool directory

Company

  • About
  • Privacy policy
  • Data methodology
  • Contact

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

Privacy policyTerms of service
Page navigation
目录
Model catalogPhi-4-mini-instruct (3.8B)
PH

Phi-4-mini-instruct (3.8B)

Phi-4-mini-instruct (3.8B)

Release date: 2025-02-27更新于: 2025-02-28 08:35:59898
Live demoGitHubHugging FaceCompare
Parameters
38.0亿
Context length
128K
Chinese support
Supported
Reasoning ability

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Phi-4-mini-instruct (3.8B)

Model basics

Reasoning traces
Not supported
Thinking modes
Thinking modes not supported
Context length
128K tokens
Max output length
No data
Model type
聊天大模型
Release date
2025-02-27
Model file size
7.67GB
MoE architecture
No
Total params / Active params
38.0B / N/A
Knowledge cutoff
No data
Phi-4-mini-instruct (3.8B)

Open source & experience

Code license
MIT License
Weights license
MIT License- 免费商用授权
GitHub repo
GitHub link unavailable
Hugging Face
https://huggingface.co/microsoft/Phi-4-mini-instruct
Live demo
No live demo
Phi-4-mini-instruct (3.8B)

Official resources

Paper
Empowering innovation: The next generation of the Phi family
DataLearnerAI blog
微软开源最强38亿小规模参数大语言模型以及56亿参数规模全模态大模型,但是总体评测结果超过Qwen2.5-7B以及Llama3.1-8B等模型,接近GPT-4o mini。
Phi-4-mini-instruct (3.8B)

API details

API speed
No data
No public API pricing yet.
Phi-4-mini-instruct (3.8B)

Benchmark Results

Phi-4-mini-instruct (3.8B) currently shows benchmark results led by GSM8K (14 / 26, score 88.60), HumanEval (24 / 39, score 74.40), MATH (27 / 42, score 64). This page also consolidates core specs, context limits, and API pricing so you can evaluate the model from benchmark results and deployment constraints together.

Thinking
All modesNormal

综合评估

3 evaluations
Benchmark / mode
Score
Rank/total
MMLU
Off
67.30
60 / 64
MMLU Pro
Off
52.80
102 / 115
GPQA Diamond
Off
36
151 / 162

数学推理

4 evaluations
Benchmark / mode
Score
Rank/total
GSM8K
Off
88.60
14 / 26
MATH-500
Off
71.80
43 / 43
MATH
Off
64
27 / 42
AIME 2024
Off
10
60 / 62

编程与软件工程

2 evaluations
Benchmark / mode
Score
Rank/total
HumanEval
Off
74.40
24 / 39
MBPP
Off
65.30
20 / 28
View benchmark analysisCompare with other models
Phi-4-mini-instruct (3.8B)

Publisher

Microsoft Azure
Microsoft Azure
View publisher details
Phi-4-mini-instruct (3.8B)

Model Overview

微软近期发布的 Phi-4-mini-instruct 模型是一款轻量级的开放性语言模型,属于 Phi-4 系列,并专注于多语言支持与高效推理能力。它在基于合成数据和公开网站数据进行训练时,特别注重高质量推理密集型数据。这款模型不仅具有较强的推理能力,还在多语言任务中表现出色,支持高达 128K tokens 的上下文长度。

主要技术特点

特性详细描述
参数量3.8B
模型架构密集型解码器(Transformer),采用组查询注意力(Grouped-Query Attention)
词汇表大小200,064 tokens
上下文长度支持 128K tokens
训练数据量5万亿 tokens,涵盖高质量的教育数据、代码数据和合成数据
训练硬件512 A100-80G GPUs
训练时间21天
发布版本2025年2月

模型应用与目标

Phi-4-mini-instruct 主要面向多语言的商业和研究用途,尤其适合需要 内存和计算资源受限的环境,以及对 推理能力要求较高(如数学与逻辑推理) 的应用场景。它能够显著加速语言和多模态模型的研究,成为生成式 AI 功能开发的重要基石。

性能与基准

Phi-4-mini-instruct 在多个基准测试中的表现令人印象深刻,尽管其模型参数量相对较少。以下是与其他同类模型在多个任务上的比较:

基准任务Phi-4-mini-instructPhi-3.5-mini-InsLlama-3.2-3B-InsGPT-4o-mini-2024-07-18
Arena Hard32.834.417.053.7
MMLU (5-shot)67.365.561.877.2
Multilingual MMLU (5-shot)49.351.848.172.9
GSM8K (8-shot, CoT)88.676.975.691.3
MATH (0-shot, CoT)64.049.846.770.2

从表格中可以看出,尽管 Phi-4-mini-instruct 拥有较少的参数,它仍在多项任务上与更大规模的模型相当,特别是在多语言处理和数学推理方面,显示出了强大的能力。

训练数据与模型设计

该模型的训练数据来自于多种来源,包括:

  • 高质量的公开文档,经过精筛过滤;
  • 专门创建的合成数据,用于数学、编程、常识推理等领域;
  • 包含对话格式的监督数据,增强了模型在遵循指令、推理和事实准确性方面的能力。

使用场景

由于其高效的推理能力,Phi-4-mini-instruct 适用于一些对延迟和计算能力要求较高的应用场景,如:

  • 内存/计算受限的环境:如边缘计算设备或其他硬件资源受限的设备。
  • 低延迟要求的场景:需要快速响应的 AI 系统,适合用于聊天机器人、客户服务、教育应用等。
  • 推理密集型任务:如需要进行复杂逻辑推理或数学计算的应用。

安全性与责任AI

尽管Phi-4-mini-instruct 在多个基准上表现出色,但与所有语言模型一样,仍然存在一些潜在的风险。微软特别强调了以下几个方面:

  1. 多语言表现与安全性差异:该模型在英语表现最佳,对于其他语言的支持可能存在性能差异,尤其是对于低资源语言。
  2. 信息可靠性:该模型可能会生成不准确或过时的信息,因此在高风险场景中使用时需要特别小心,尤其是在法律、医疗等领域。
  3. 生成有害内容的风险:尽管微软在训练过程中进行了安全性后处理,但模型仍可能在某些情况下生成冒犯性或有害内容,开发者需要在部署时采取适当的安全措施。

结语

微软的 Phi-4-mini-instruct 是一款高效、强大的轻量级语言模型,适用于各种多语言应用。其在多个领域的表现使其成为研究和实际应用中的一个有力工具。然而,开发者在使用时需注意其在安全性、准确性和多语言支持方面的潜在限制,并采取必要的措施进行风险管理。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码