MI

MiniGPT-4

多模态大模型

MiniGPT-4

发布时间: 2023-04-16更新于: 2023-08-03 17:34:46.578654
在线体验GitHubHugging FaceCompare
模型参数
130亿
上下文长度
2K
中文支持
不支持
推理能力

MiniGPT-4 是由 King Abdullah University of Science and Technology 发布的 AI 模型,发布时间为 2023-04-16,定位为 多模态大模型,参数规模约为 130亿,上下文长度为 2K,采用 开源不可商用 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

MiniGPT-4

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
多模态大模型
输入/输出模态
暂无数据
发布时间
2023-04-16
模型文件大小
暂无数据
MoE架构
总参数 / 激活参数
130亿 / 不涉及
知识截止
暂无数据
MiniGPT-4

开源和体验地址

代码开源状态
预训练权重开源
开源不可商用- 不可商用
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址
MiniGPT-4

官方介绍与博客

MiniGPT-4

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。
MiniGPT-4

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合?打开对比工具

MiniGPT-4

发布机构

King Abdullah University of Science and Technology
查看发布机构详情
MiniGPT-4

模型解读

MiniGPT-4是一个可以理解图片的大语言模型,是由开源的预训练模型Vicuna-13B与BLIP-2结合的新模型。


MiniGPT-4是分两个阶段训练的。

  1. 首先是使用500万个图像-文本数据训练,在4个A100上训练了10个小时左右,不过这个阶段的模型的生成能力受到了严重的影响,因此还有第二个阶段;
  2. 第二个阶段是通过模型本身和ChatGPT一起创建高质量的图像文本对,这是一个小而高质量的数据集(共计3500个对)。然后在对话模板中使用这个数据集进行训练,显著提高了其生成可靠性和整体可用性;但是这个阶段的微调效率很高,一个A100在大约7分钟内就可以完成。



研究发现,MiniGPT-4具有许多与GPT-4类似的功能,比如生成详细的图像描述和从手写草稿创建网站。MiniGPT-4还有其他新兴功能,包括根据给定的图像撰写故事和诗歌,提供解决图像中显示的问题的方法,以及基于食品照片教用户如何烹饪等。下图是一个实例:




MiniGPT-4的数据集、论文等完全公开。


MiniGPT-4开源代码地址: https://github.com/Vision-CAIR/MiniGPT-4 

MiniGPT-4第一阶段数据集地址: https://github.com/Vision-CAIR/MiniGPT-4/blob/main/dataset/README_1_STAGE.md 

MiniGPT-4第二阶段数据集地址: https://github.com/Vision-CAIR/MiniGPT-4/blob/main/dataset/README_2_STAGE.md 

MiniGPT-4官网地址: https://minigpt-4.github.io/ 

MiniGPT-4在线演示地址: https://minigpt-4.github.io/ 

MiniGPT-4论文地址: https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf 

基础模型

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码