VI

Visual ChatGPT

Visual ChatGPT

发布时间: 2023-03-08444
模型参数
1750.0亿
上下文长度
2K
中文支持
不支持
推理能力

模型基本信息

推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2023-03-08
模型文件大小
暂无数据
MoE架构
总参数 / 激活参数
1750.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据

开源和体验地址

代码开源状态
暂无数据
预训练权重开源
暂无数据
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。

评测得分

当前尚无可展示的评测数据。

发布机构

模型解读

Visual ChatGPT是微软发布的利用ChatGPT构建的一个多模态模型。原版的ChatGPT只能处理自然语言领域的问题,不涉及图片、视频等其它数据。微软提出的Visual ChatGPT是一个新的模型,它将ChatGPT与Transformer、ControlNet和Stable Diffusion等VFM(Visual Foundation Models)相结合。本质上,人工智能模型作为用户之间的桥梁,允许他们通过聊天进行交流并产生视觉效果。


ChatGPT正在吸引着跨领域的兴趣,因为它提供了一个具有显著的对话能力和跨领域推理能力的语言界面。然而,由于ChatGPT是用语言来训练的,所以它目前还不能处理或生成来自视觉世界的图像。同时,视觉基础模型,如Visual Transformer或Stable Diffusion,虽然显示了强大的视觉理解和生成能力,但它们只是特定任务的专家,有一轮固定的输入和输出。为此,我们建立了一个名为Visual ChatGPT的系统,结合了不同的视觉基础模型,使用户能够通过以下方式与ChatGPT互动:1)不仅发送和接收语言,也发送和接收图像;2)提供复杂的视觉问题或视觉编辑指令,需要多个人工智能模型的协作,具有多步骤。3)提供反馈并要求纠正结果。我们设计了一系列提示,将视觉模型信息注入ChatGPT,考虑到多输入/输出的模型和需要视觉反馈的模型。实验表明,Visual ChatGPT为研究ChatGPT在可视化基础模型帮助下的可视化作用打开了大门。


visual-chat-gpt



目前,Visual ChatGPT的能力如下:

  • 除了文本之外,Visual ChatGPT还可以生成和接收图像。
  • 复杂的视觉查询或编辑指令,要求不同的人工智能模型在多个阶段协作,都可以由Visual ChatGPT处理。
  • 为了处理有许多输入/输出的模型和那些需要视觉反馈的模型,研究人员开发了一系列提示,将视觉模型信息整合到ChatGPT中。他们通过测试发现,Visual ChatGPT促进了利用视觉基础模型对ChatGPT的视觉能力的调查。


它还不完美。研究人员观察到他们的工作存在某些问题,例如由于视觉基础模型(VFMs)的失败和提示的多样性而导致生成结果的不一致。他们得出的结论是,需要一个自我纠正的模块来保证执行结果符合人类的目标,并进行任何必要的纠正。由于需要持续的路线修正,包括这样一个模块可能会延长模型的推理时间。研究小组打算在随后的研究中对这一问题进行更深入的研究。


目前微软开放了一个在线系统供大家测试,不过需要你提供自己的ChatGPT的API Key。


你也可以自己使用Python脚本调用模型:


# create a new environment
conda create -n visgpt python=3.8

# activate the new environment
conda activate visgpt

#  prepare the basic environments
pip install -r requirement.txt

# download the visual foundation models
bash download.sh

# prepare your private openAI private key
export OPENAI_API_KEY={Your_Private_Openai_Key}

# create a folder to save images
mkdir ./image

# Start Visual ChatGPT !
python visual_chatgpt.py



Visual ChatGPT模型的GitHub地址: https://github.com/microsoft/visual-chatgpt 

Visual ChatGPT模型的HuggingFace地址: https://huggingface.co/spaces/RamAnanth1/visual-chatGPT 



基础模型

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码