CL

CLIP

Contrastive Language–Image Pre-training

发布时间: 2021-01-05768
模型参数
未披露
上下文长度
2K
中文支持
不支持
推理能力

模型基本信息

推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
基础大模型
发布时间
2021-01-05
模型文件大小
244MB
MoE架构
总参数 / 激活参数
0.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据

开源和体验地址

代码开源状态
暂无数据
预训练权重开源
暂无数据
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。

评测得分

当前尚无可展示的评测数据。

发布机构

模型解读

CLIP全称是Contrastive Language–Image Pre-training,是由OpenAI提出的一个具有里程碑式的多模态学习的transformer模型。此前的多模态学习基本是类似语音识别这种比较简单的多模态转换学习。而CLIP则是将视觉transformer(Vision Transformer)与文本处理相结合,采用text encoder +  image encoder结合的方式进行文本-图像对的训练。该模型开启了后续的Text-to-Image等多模态预训练模型的研究。影响很大。其主要特点总结如下:

  • CLIP是一个神经网络模型。
  • 它是在400,000,000个(图像,文本)对上训练的。一个(图像,文本)对可能是一张图片和它的标题。因此,这意味着有400,000,000张图片和它们的标题被匹配起来,而这就是用于训练CLIP模型的数据。
  • "给定一张图片,它可以预测最相关的文本片段" :你可以将一张图片输入CLIP模型,它将为你返回最可能的标题或该图片的摘要。
  • "而不直接对任务进行优化,类似于GPT-2和3的zero-shot能力。" 大多数机器学习模型都学习一个特定的任务。例如,一个在分类狗和猫方面训练有素的图像分类器只能可以分类狗和猫。一般来说,我们不会期望一个在猫狗方面训练的机器学习模型在检测浣熊方面表现得非常好。然而,一些模型--包括CLIP、GPT-2和GPT-3--倾向于在它们没有被直接训练的任务中表现良好,这被称为 "zero-shot learning"。

CLIP是计算机视觉和自然语言处理之间的一座桥梁。对后续的多模态学习模型影响巨大。

在OpenAI的官方开源代码中,官方开源了9个预训练模型,其中5个是与ResNet结合的预训练模型,另外4个是与ViT结合的模型。预训练模型大小只有200-300MB,十分小巧,但是从对比结果看,效果好于之前的模型。


官方GitHub地址: https://github.com/openai/CLIP 

Hugging Face实现地址: https://huggingface.co/docs/transformers/main/en/model_doc/clip 

官方介绍博客: https://openai.com/blog/clip/ 

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码