DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表VisCPM-Chat
VI

VisCPM-Chat

聊天大模型

VisCPM-Chat

发布时间: 2023-06-30更新于: 2023-07-07 23:16:16.380510
在线体验GitHubHugging FaceCompare
模型参数
100亿
上下文长度
2K
中文支持
支持
推理能力

VisCPM-Chat 是由 面壁智能 发布的 AI 模型,发布时间为 2023-06-30,定位为 聊天大模型,参数规模约为 100.0B,上下文长度为 2K,模型文件大小约 20.6GB,采用 通用模型许可协议-来源说明-宣传限制-非商业化 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

VisCPM-Chat

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
聊天大模型
发布时间
2023-06-30
模型文件大小
20.6GB
MoE架构
否
总参数 / 激活参数
100 亿 / 不涉及
知识截止
暂无数据
VisCPM-Chat

开源和体验地址

代码开源状态
通用模型许可协议-来源说明-宣传限制-非商业化
预训练权重开源
通用模型许可协议-来源说明-宣传限制-非商业化- 收费商用授权
GitHub 源码
https://github.com/OpenBMB/VisCPM
Hugging Face
https://huggingface.co/openbmb/VisCPM-Chat
在线体验
暂无在线体验地址
VisCPM-Chat

官方介绍与博客

官方论文
VisCPM
DataLearnerAI博客
暂无介绍博客
VisCPM-Chat

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。
VisCPM-Chat

评测结果

当前尚无可展示的评测数据。
VisCPM-Chat

发布机构

面壁智能
面壁智能
查看发布机构详情
VisCPM-Chat

模型解读

VisCPM-Chat是基于清华大学NLP小组发布的CPM-Bee模型(CPM Bee - 10B模型信息卡: https://www.datalearner.com/ai-models/pretrained-models/CPM-Bee )进行多模态训练得到的一个多模态对话模型。该系列模型包含2种,分别是VisCPM-Chat-balance与VisCPM-Chat-zhplus,前者是中英文能力平衡,后者则是中文能力更强。


关于VisCPM-模型的整体介绍参考: https://www.datalearner.com/blog/1051688132077366 


VisCPM-Chat模型在中文多模对话、复杂推理方面都具有很好的效果。模型本身是基于基础语言模型外接视觉编解码得到的。如下图所示:

VisCPM-Chat模型训练细节

VisCPM-Chat模型是针对多模态对话进行优化的多模态大模型,是基座语言模型外接Q-Former视觉编码器和Diffusion-UNet视觉解码器其训练分为2个阶段:


预训练阶段:使用1亿条高质量英文图文对数据对VisCPM-Chat进行预训练,其中基座语言模型的参数保持固定,仅更新视觉编码器Q-Former部分的参数,用来做语言与视觉的对齐。


指令精调阶段:在预训练结束之后,需要让模型理解视觉相关的指令。因此,官方采用了LLaVA-150K英文指令精调数据集(LLaVA是微软官方发布的多模态大模型: https://www.datalearner.com/ai-models/pretrained-models/LLaVA )对模型进行精调。该阶段模型所有的参数都会更新。


官方在指令精调阶段发现一个有意思的现象:

有趣的是,我们发现即使仅采用英文指令数据进行指令精调,模型也可以理解中文问题,但仅能用英文回答。这表明模型的多语言多模态能力已经得到良好的泛化。

从这里也可以发现生成模型的优点,应该是其基础语言模型有中英文多语言的能力,基于中文问题,自然地可以生成英文回答,并生成了图像信息。


为了更好地支持中文的多模态对话能力,官方也收集了额外的2000万原生中文图文对数据以及1.2亿翻译后的中文图文数据对,然后在预训练阶段训练了另一个模型称为VisCPM-Chat-zhplus,也就是对中文理解的版本。原始版本则成为VisCPM-Chat-balance。


VisCPM-Chat模型开源和使用

不过可惜的是,该模型是收费商用授权(其语言模型的基座模型为CPM-Bee 10B,可免费商用授权),但是对个人和研究完全免费开源。


官方也放出了预训练结果的下载链接:

VisCPM-Chat模型版本版本说明预训练下载地址
VisCPM-Chat-balance中英文均衡 huggingface/viscpm_chat_balance_checkpoint.pt 
VisCPM-Chat-zhplus中文优化 huggingface/viscpm_chat_zhplus_checkpoint.pt 


需要注意的是,VisCPM-Chat模型的载入需要40G的显存,开启CUDA_MEM_SAVE=True之后也需要22G显存,但是推理时间更长。

基础模型

CPM-Bee
CPM-Bee
查看详情

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码