MI

MiniCPM-V 4.6

多模态大模型V 4.6

MiniCPM-V 4.6

发布时间: 2026-05-11683
模型参数
13亿
上下文长度
262K
中文支持
支持
推理能力

MiniCPM-V 4.6 是由 OpenBMB 发布的 AI 模型,发布时间为 2026-05-11,定位为 多模态大模型,参数规模约为 13亿,上下文长度为 262K,模型文件大小约 ~1.6GB (Q4_K_M GGUF),采用 Apache 2.0 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

MiniCPM-V 4.6

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
262K tokens
最大输出长度
4K tokens
模型类型
多模态大模型
输入/输出模态
文本、图像、视频 → 文本
发布时间
2026-05-11
模型文件大小
~1.6GB (Q4_K_M GGUF)
MoE架构
总参数 / 激活参数
13亿 / 不涉及
知识截止
暂无数据
MiniCPM-V 4.6

开源和体验地址

MiniCPM-V 4.6

官方介绍与博客

DataLearnerAI博客
暂无介绍博客
MiniCPM-V 4.6

API接口信息

接口速度
3/5
暂无公开的 API 定价信息。
MiniCPM-V 4.6

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合?打开对比工具

MiniCPM-V 4.6

发布机构

MiniCPM-V 4.6

模型解读

模型简介与核心特点

MiniCPM-V 4.6 是 OpenBMB 于 2026 年 5 月 11 日发布的一款专为移动设备本地部署优化的多模态大模型,隶属于 MiniCPM-V 系列,是该系列目前最轻量、最高效的端侧模型。该模型仅 1.3B 参数,专为在手机等消费级硬件上实现图像、视频和文本理解而设计,旨在解决多模态大模型在端侧部署时的计算效率与资源限制问题。[reference:0]

架构与技术规格

MiniCPM-V 4.6 的总参数量为 1.3B(激活参数同为 1.3B,为稠密模型),上下文窗口达 262K tokens(约 393 页 A4 纸文本)。架构上,模型采用 SigLIP2-400M 作为视觉编码器,并以 Qwen3.5-0.8B 作为语言基座,并集成了 LLaVA-UHD v4 技术。关键创新包括:

  • 视觉编码效率大幅提升:通过 Intra-ViT 早期压缩技术,视觉编码的浮点运算量(FLOPs)降低超过 50%。
  • 混合视觉 token 压缩:支持 4x/16x 两种压缩率,可在高精度(如小文本 OCR)和高效率之间灵活切换。
  • 高 token 吞吐:端到端 token 吞吐量约为 Qwen3.5-0.8B 的 1.5 倍。

核心能力与支持模态

MiniCPM-V 4.6 支持文本、图像和视频(最多 128 帧)三种输入模态,输出为文本。在能力方面,该模型继承了 MiniCPM-V 系列在单图、多图和视频理解上的强大能力,包括图像描述、视觉问答、文档 OCR、视频帧理解等,并支持工具/函数调用。作为端侧模型,其所有的数据处理可在手机本地完成,从而有效保护用户隐私。[reference:1][reference:2]

性能与基准评测

在 Artificial Analysis Intelligence Index 基准测试中,MiniCPM-V 4.6 取得了 13 分的成绩,超越了 Qwen3.5-0.8B(10 分)和 Ministral 3 3B(11 分),且 token 成本分别降低了约 19 倍和 43 倍。在视觉-语言任务上,该模型在 OpenCompass、RefCOCO、HallusionBench、MUIRBench 和 OCRBench 等多个基准上达到了与更大规模的 Qwen3.5 2B 相当的性能水平。在 MMMU-Pro 测试中,它取得了 38% 的分数,是 2B 参数以下开源模型中视觉推理的最高分。[reference:3][reference:4]

应用场景与局限

该模型推荐用于离线辅助、端侧文档理解、注重隐私的消费级应用等移动端场景。已知局限性在于其性能尚无法超过大型旗舰模型(如 GPT-4 或 Gemini),主要定位于高效推理而非追求绝对性能巅峰。[reference:5]

访问方式与许可

模型权重在 Hugging Face 上开提供,采用 Apache 2.0 许可证。同时提供了适用于 vLLM、SGLang、llama.cpp 和 Ollama 的部署支持,以及多种量化变体(BNB、AWQ、GPTQ、GGUF)。完整的端侧适配代码也已开源。[reference:6][reference:7]

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码