DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
Tools

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表LLaVA
LL

LLaVA

Large Language and Vision Assistant

发布时间: 2023-04-17更新于: 2023-08-03 17:31:52.671993
在线体验GitHubHugging FaceCompare
模型参数
130.0亿
上下文长度
2K
中文支持
不支持
推理能力

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

LLaVA

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
多模态大模型
发布时间
2023-04-17
模型文件大小
26.1GB
MoE架构
否
总参数 / 激活参数
130.0 亿 / 不涉及
知识截止
暂无数据
LLaVA

开源和体验地址

代码开源状态
Apache 2.0
预训练权重开源
开源不可商用- 不可以商用
GitHub 源码
https://github.com/haotian-liu/LLaVA
Hugging Face
https://huggingface.co/liuhaotian/LLaVA-13b-delta-v0
在线体验
暂无在线体验地址
LLaVA

官方介绍与博客

官方论文
Visual Instruction Tuning
DataLearnerAI博客
暂无介绍博客
LLaVA

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。
LLaVA

评测结果

当前尚无可展示的评测数据。
LLaVA

发布机构

Microsoft Azure
Microsoft Azure
查看发布机构详情
Large Language and Vision Assistant

模型解读

LLaVA全称Large Language and Vision Assistant,是由微软与威斯康星大学麦迪逊分校教授一起提出的一个多模态大模型。它是一个非常简单的思想,就可以让语言模型支持多模态的能力,包括理解图像等。不过,由于使用的开源语言模型是Vicuna,它是基于MetaAI的LLaMA微调的,受到LLaMA的限制,无法商用。不过预训练结果和数据集都是公开的。


LLaVA模型技术简介

语言模型能力无法在多模态上直接应用的一个主要障碍就是缺少多模态数据。而微软的研究人员首先利用语言模型生成视觉相关的指令数据,利用ChatGPT/GPT4将文本-图像对数据转换成指令跟随的形式。然后提出LLaVA模型,将预训练的CLIP VIT-L/14作为encoder,然后和MetaAI开源的LLaMA连接(其实使用的Vicuna),使用一个简单的映射矩阵完成语言模型的多模态能力升级。主要包括两个步骤:

  1. 面向特征对其的预训练过程:基于CC3M数据子集更新映射矩阵
  2. 端到端微调:映射矩阵与语言模型均更新,不过是针对2种场景:一个是Visual Chat,一个是Science QA



这样一个简单的方法就让语言模型有了多模态的能力,主要就是有了的图像理解的能力,你只要输入一个图像,它就可以回答关于图像内容的问题。


LLaVA数据集简介

LLaVA的研究者的一个主要贡献是开源了他们使用的数据集。如前所述,多模态模型缺乏的一个重要原因是缺少多模态数据。而微软的想法很简单,基于COCO数据集,来和GPT-4交互,并将这样的文本-图像对数据转换成语言-图像指令数据。最终,微软得到了15.8万的多模态指令数据集:



数据文件名称简介数据集大小下载地址
llava_instruct_150k.json15万个图像-文本指令数据集229MBhttps://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K/raw/main/llava_instruct_150k.json
llava_instruct_80k.json8万个图像-文本指令数据集229MBhttps://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K/raw/main/llava_instruct_80k.json
conversation_58k.json5.8万对话数据集126MB https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K/raw/main/conversation_58k.json 
detail_23k.json2.3万描述图像细节的数据集20.5MB https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K/raw/main/detail_23k.json 
complex_reasoning_77k.json7.7万包含复杂推理的对话数据79.6MB https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K/raw/main/complex_reasoning_77k.json 


上述数据完全公开,质量很高,包含了每一次对话对应的图像ID,大家根据ID就可以找到GPT-4和人类讨论的是哪个图像了。

当然,上面讨论的都是CC-3M数据集的子集,也就是LLaVA使用的预训练数据集。所以图像也是其中的图像。需要注意的是,原始的CC-3M中已经有15%左右的数据无法访问,为了让大家更好地使用这个模型,微软还提供了一个压缩文件来给大家使用(下载地址: https://huggingface.co/datasets/liuhaotian/LLaVA-CC3M-Pretrain-595K/blob/main/images.zip ),这里包含了已经从CC-3M去除的数据,温馨提示,这个数据集不允许用在其它地方。



数据集对话文件元数据数据集大小
CC-3M Concept-balanced 595K  chat.json  metadata.json 211MB
LAION/CC/SBU BLIP-Caption Concept-balanced 558K blip_laion_cc_sbu_558k.json   metadata.json 181MB


LLaVA预训练结果文件

前面说过,这个项目原始依赖的文件是LLaMA预训练结果文件,但是该文件受到分发限制,只能去MetaAI那里申请下载。下载完成之后用再下载LLaVA的预训练文件,再使用LLaVA的脚本将其转化成LLaVA需要的权重即可。目前,LLaVA提供两个预训练文件:LLaVA-13B,需要60G的CPU内存才可以运行。另一个是LLaVA-7B,需要30G的CPU内存才可以运行。


轻量级的LLaVA Lightning

2023年5月2日,官方发布LLaVA Lightning,只需要8个A100的GPU训练3个小时即可完成(按照spot实例价格,仅需要40美元)。大家只需要下载源代码,执行train_lightning.sh即可训练Lightning版本。原版是基于Vicuna 13B,即130亿参数微调的,而Lightning版本应该是基于Vicuna 7B模型微调的结果。



LLaVA实际案例

效果还是很不错的,而且速度很快,下面是我上传的一个AI转绘的清明上河图的截图部分,回答虽然是英文的,但是大差不差,唯一的问题就是它认为可能是日本的建筑。





LLaVA的相关参考链接

在线演示地址: https://llava-vl.github.io/ 

官方介绍地址: https://llava-vl.github.io/ 

LLaVA数据集地址: https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K 


基础模型

Vicuna
Vicuna
查看详情

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码