MiniCPM-V 4.6 是由 OpenBMB 发布的 AI 模型,发布时间为 2026-05-11,定位为 多模态大模型,参数规模约为 13.0B,上下文长度为 262K,模型文件大小约 ~1.6GB (Q4_K_M GGUF),采用 Apache 2.0 许可。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
MiniCPM-V 4.6 是 OpenBMB 于 2026 年 5 月 11 日发布的一款专为移动设备本地部署优化的多模态大模型,隶属于 MiniCPM-V 系列,是该系列目前最轻量、最高效的端侧模型。该模型仅 1.3B 参数,专为在手机等消费级硬件上实现图像、视频和文本理解而设计,旨在解决多模态大模型在端侧部署时的计算效率与资源限制问题。[reference:0]
MiniCPM-V 4.6 的总参数量为 1.3B(激活参数同为 1.3B,为稠密模型),上下文窗口达 262K tokens(约 393 页 A4 纸文本)。架构上,模型采用 SigLIP2-400M 作为视觉编码器,并以 Qwen3.5-0.8B 作为语言基座,并集成了 LLaVA-UHD v4 技术。关键创新包括:
MiniCPM-V 4.6 支持文本、图像和视频(最多 128 帧)三种输入模态,输出为文本。在能力方面,该模型继承了 MiniCPM-V 系列在单图、多图和视频理解上的强大能力,包括图像描述、视觉问答、文档 OCR、视频帧理解等,并支持工具/函数调用。作为端侧模型,其所有的数据处理可在手机本地完成,从而有效保护用户隐私。[reference:1][reference:2]
在 Artificial Analysis Intelligence Index 基准测试中,MiniCPM-V 4.6 取得了 13 分的成绩,超越了 Qwen3.5-0.8B(10 分)和 Ministral 3 3B(11 分),且 token 成本分别降低了约 19 倍和 43 倍。在视觉-语言任务上,该模型在 OpenCompass、RefCOCO、HallusionBench、MUIRBench 和 OCRBench 等多个基准上达到了与更大规模的 Qwen3.5 2B 相当的性能水平。在 MMMU-Pro 测试中,它取得了 38% 的分数,是 2B 参数以下开源模型中视觉推理的最高分。[reference:3][reference:4]
该模型推荐用于离线辅助、端侧文档理解、注重隐私的消费级应用等移动端场景。已知局限性在于其性能尚无法超过大型旗舰模型(如 GPT-4 或 Gemini),主要定位于高效推理而非追求绝对性能巅峰。[reference:5]
模型权重在 Hugging Face 上开提供,采用 Apache 2.0 许可证。同时提供了适用于 vLLM、SGLang、llama.cpp 和 Ollama 的部署支持,以及多种量化变体(BNB、AWQ、GPTQ、GGUF)。完整的端侧适配代码也已开源。[reference:6][reference:7]
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

暂时没有为该模型整理的相关对比页面。
想自定义其他组合?打开对比工具