模型解读

模型简介与核心特点

MiniCPM-V 4.6 是 OpenBMB 于 2026 年 5 月 11 日发布的一款专为移动设备本地部署优化的多模态大模型，隶属于 MiniCPM-V 系列，是该系列目前最轻量、最高效的端侧模型。该模型仅 1.3B 参数，专为在手机等消费级硬件上实现图像、视频和文本理解而设计，旨在解决多模态大模型在端侧部署时的计算效率与资源限制问题。[reference:0]

架构与技术规格

MiniCPM-V 4.6 的总参数量为 1.3B（激活参数同为 1.3B，为稠密模型），上下文窗口达 262K tokens（约 393 页 A4 纸文本）。架构上，模型采用 SigLIP2-400M 作为视觉编码器，并以 Qwen3.5-0.8B 作为语言基座，并集成了 LLaVA-UHD v4 技术。关键创新包括：

视觉编码效率大幅提升：通过 Intra-ViT 早期压缩技术，视觉编码的浮点运算量（FLOPs）降低超过 50%。
混合视觉 token 压缩：支持 4x/16x 两种压缩率，可在高精度（如小文本 OCR）和高效率之间灵活切换。
高 token 吞吐：端到端 token 吞吐量约为 Qwen3.5-0.8B 的 1.5 倍。

核心能力与支持模态

MiniCPM-V 4.6 支持文本、图像和视频（最多 128 帧）三种输入模态，输出为文本。在能力方面，该模型继承了 MiniCPM-V 系列在单图、多图和视频理解上的强大能力，包括图像描述、视觉问答、文档 OCR、视频帧理解等，并支持工具/函数调用。作为端侧模型，其所有的数据处理可在手机本地完成，从而有效保护用户隐私。[reference:1][reference:2]

性能与基准评测

在 Artificial Analysis Intelligence Index 基准测试中，MiniCPM-V 4.6 取得了 13 分的成绩，超越了 Qwen3.5-0.8B（10 分）和 Ministral 3 3B（11 分），且 token 成本分别降低了约 19 倍和 43 倍。在视觉-语言任务上，该模型在 OpenCompass、RefCOCO、HallusionBench、MUIRBench 和 OCRBench 等多个基准上达到了与更大规模的 Qwen3.5 2B 相当的性能水平。在 MMMU-Pro 测试中，它取得了 38% 的分数，是 2B 参数以下开源模型中视觉推理的最高分。[reference:3][reference:4]

应用场景与局限

该模型推荐用于离线辅助、端侧文档理解、注重隐私的消费级应用等移动端场景。已知局限性在于其性能尚无法超过大型旗舰模型（如 GPT-4 或 Gemini），主要定位于高效推理而非追求绝对性能巅峰。[reference:5]

访问方式与许可

模型权重在 Hugging Face 上开提供，采用 Apache 2.0 许可证。同时提供了适用于 vLLM、SGLang、llama.cpp 和 Ollama 的部署支持，以及多种量化变体（BNB、AWQ、GPTQ、GGUF）。完整的端侧适配代码也已开源。[reference:6][reference:7]

MiniCPM-V 4.6

模型基本信息

开源和体验地址

官方介绍与博客

API接口信息

评测结果

发布机构