国产大模型进展神速！清华大学NLP小组发布顶尖多模态大模型：VisCPM，支持文本生成图片与多模态对话，图片理解能力优秀！

大模型的发展正在从单纯的语言模型向多模态大模型快速发展。尽管GPT-4号称也是一个多模态大模型，但是受限于GPU资源，GPT-4没有开放任何多模态的能力（参考：https://www.datalearner.com/blog/1051685866651273 ）。目前大家所能接触到的多模态大模型很少。今天，清华大学NLP小组带来了新的选择，发布了VisCPM系列多模态大模型。VisCPM系列包含2类多模态大模型，分别针对多模态对话和文本生成图片进行优化。

VisCPM多模态大模型简介

VisCPM由清华大学NLP小组基于CPM-Bee-10B进行多模态扩展得到。CPM-Bee-10B是参数规模为100亿的大语言模型，也是由该小组开源，该模型的评测结果英文水平与LLaMA-13B相当，中文水平在ZeroCLUE评测排行榜上仅次于人类排名第二。是一个非常优秀的大语言模型，最重要的是免费商用授权（详情参考CPM-Bee-10B模型信息卡：）。因此，也获得了很多人的关注。

VisCPM版本	模型类型	特点	模型信息卡地址
VisCPM-Chat-balance	多模态对话大模型	中英文平衡	https://datalearner.com/ai/pretrained-models/VisCPM-Chat
VisCPM-Chat-zhplus	多模态对话大模型	中文调优	https://datalearner.com/ai/pretrained-models/VisCPM-Chat
VisCPM-Paint-balance	文本生成图片大模型	中英文平衡	https://datalearner.com/ai/pretrained-models/VisCPM-Paint

模型名称	基座语言模型	模型类型	英文-多模对话	英文-细节描述	英文-复杂推理	英文-平均	英文-多模对话	英文-细节描述	英文-复杂推理	英文-平均
MiniGPT4	Vicuna-13B	英文模型	65	67.3	76.6	69.7	-	-	-	-
InstructBLIP	Vicuna-13B	英文模型	81.9	68	91.2	80.5	-

模型	Zero-shot FID-英文	Zero-shot FID-中文
GLIDE	12.2	-
Make-A-Scene	11.8	-
DALL·E-2	10.4	-
Unidiffuser	9.7	-
Cogview2	-	24
Stable Diffusion

模型	下载链接
VisCPM-Chat-balance	https://huggingface.co/openbmb/VisCPM-Chat/resolve/main/viscpm_chat_balance_checkpoint.pt
VisCPM-Chat-zhplus	https://huggingface.co/openbmb/VisCPM-Chat/resolve/main/viscpm_chat_zhplus_checkpoint.pt
VisCPM-Paint-balance	https://huggingface.co/openbmb/VisCPM-Paint/resolve/main/viscpm_paint_balance_checkpoint.pt
VisCPM-Paint-zhplus	https://huggingface.co/openbmb/VisCPM-Paint/resolve/main/viscpm_paint_zhplus_checkpoint.pt

国产大模型进展神速！清华大学NLP小组发布顶尖多模态大模型：VisCPM，支持文本生成图片与多模态对话，图片理解能力优秀！

VisCPM多模态大模型简介

DataLearner WeChat

VisCPM多模态大模型效果

VisCPM-Chat的多模态对话效果

VisCPM-Paint图片生成评测效果

VisCPM的开源、使用和其它资源

Hot Blogs