MiniCPM5-1B
MiniCPM5-1B 是由 OpenBMB 发布的 AI 模型,发布时间为 2026-05-01,定位为 推理大模型,参数规模约为 10.8B,上下文长度为 128K,采用 Apache 2.0 许可。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
暂时没有为该模型整理的相关对比页面。
想自定义其他组合?打开对比工具
基本信息: MiniCPM5-1B 是面壁智能(ModelBest Inc.)与 OpenBMB 社区于 2026 年 5 月联合发布的端侧语言模型。作为 MiniCPM5 系列的首个里程碑版本,该模型旨在为端侧设备、本地助手和资源受限环境提供高性能的语言 AI 能力。
核心目标: MiniCPM5-1B 专为本地助手、编程智能体、工具调用工作流及需要复杂推理的场景而设计,力求在紧凑的模型体积下,提供业界领先的 1B 级开源性能。
模型参数: 模型总参数量为 1,080,632,832(约 10.8 亿),非嵌入参数为 679,552,512。 架构: 采用标准 Llama 因果语言模型架构(StandardLlamaForCausalLM),包含 24 层 Transformer,使用分组查询注意力(GQA),其中查询头(Q)为 16 个,键值头(KV)为 2 个。 上下文窗口: 原生支持 131,072(128K)Tokens 的上下文长度,适用于长文档理解与长程对话等场景。 训练数据与策略: 训练过程采用全栈式超数据分层管理方案,涵盖基础训练、中期训练和后训练三个阶段。训练语料已开源,包括 Ultra-FineWeb、UltraData-Math 等数据集。后训练阶段采用了强化学习与在线策略蒸馏技术,显著提升了数学、编程和指令遵循能力。
MiniCPM5-1B 是一个纯文本模型。其标志性特性是原生支持混合推理:通过同一个模型检查点和内置的聊天模板,用户可以在常规模式(No Think)与思考模式(Think)间一键切换,使该模型既是一个快速响应的日常助手,也是一个深思熟虑的推理者。在工具使用、代码生成和高难度推理任务上,该模型展现出同尺寸最前沿的性能。
在与同尺寸顶尖开源模型的对比评测中,MiniCPM5-1B 取得了该级别的领先成绩,尤其在工具使用、代码和推理方面优势明显。在 Artificial Analysis 的智能指数中,该模型获得了 18 分,远超同类模型的平均水平(8 分),展现了卓越的综合智能水平。
推荐用例: 官方推荐的应用场景包括本地编程助手、工具调用代理、个人日常助理以及需要逻辑推理的复杂任务。得益于其小巧的体积,它非常适合在手机、PC 等端侧设备上运行。 已知局限: 作为一个小型纯文本模型,它不具备图像、视频或音频等多模态理解与生成能力。在处理需要庞杂世界知识的任务时,可能会受到模型参数规模的制约。
模型权重与代码: 模型在 Hugging Face 和 ModelScope 上开源,提供 BF16、GGUF、MLX 等多种格式,方便在不同框架和硬件上部署。官方 GitHub 仓库提供详尽的部署、微调手册和智能体技能包。 许可证: 模型遵循 Apache 2.0 许可证。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
