GP

GPT-4V

多模态大模型

GPT-4V(ision)

发布时间: 2023-09-25

模型参数(Parameters)
未披露
最高上下文长度(Context Length)
32K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

32K tokens

最长输出结果
暂无数据
模型类型

多模态大模型

发布时间

2023-09-25

模型预文件大小
暂无数据

开源和体验地址

代码开源状态
预训练权重开源
不开源 - 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

GPT-4V模型在各大评测榜单的评分

发布机构

模型介绍

GPT-4V是OpenAI开发的多模态版本的GPT-4模型。该模型在2022年训练完成,2023年五月份提供早期访问。


由于GPT-4是GPT-4V视觉能力背后的技术,因此其训练过程也是相同的。首先训练预训练模型,使用来自互联网以及许可数据源的大量文本和图像数据集来预测文档中的下一个单词。然后,使用一种称为强化学习的人工反馈算法(RLHF),对其他数据进行微调,以产生人类训练者偏好的输出。


与基于文本的语言模型相比,大型多模态模型引入了不同的限制,扩大了风险面。GPT-4V具有每种模态(文本和视觉)的局限性和能力,同时呈现出由所述模态的交叉以及大规模模型提供的智能和推理而产生的新能力。


GPT-4V的产品是多模态的ChatGPT,详情参考: https://www.datalearner.com/blog/1051695648010042 

Foundation Model

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat