CLIP

CLIP 预训练模型详情

模型全称

Contrastive Language–Image Pre-training

发布组织

发布日期

2021-01-05

预训练文件大小

244MB

模型参数数量(亿)

0

发布论文

Learning Transferable Visual Models From Natural Language Supervision

Contrastive Language–Image Pre-training 简介

CLIP全称是Contrastive Language–Image Pre-training,是由OpenAI提出的一个具有里程碑式的多模态学习的transformer模型。此前的多模态学习基本是类似语音识别这种比较简单的多模态转换学习。而CLIP则是将视觉transformer(Vision Transformer)与文本处理相结合,采用text encoder +  image encoder结合的方式进行文本-图像对的训练。该模型开启了后续的Text-to-Image等多模态预训练模型的研究。影响很大。其主要特点总结如下:

  • CLIP是一个神经网络模型。
  • 它是在400,000,000个(图像,文本)对上训练的。一个(图像,文本)对可能是一张图片和它的标题。因此,这意味着有400,000,000张图片和它们的标题被匹配起来,而这就是用于训练CLIP模型的数据。
  • "给定一张图片,它可以预测最相关的文本片段" :你可以将一张图片输入CLIP模型,它将为你返回最可能的标题或该图片的摘要。
  • "而不直接对任务进行优化,类似于GPT-2和3的zero-shot能力。" 大多数机器学习模型都学习一个特定的任务。例如,一个在分类狗和猫方面训练有素的图像分类器只能可以分类狗和猫。一般来说,我们不会期望一个在猫狗方面训练的机器学习模型在检测浣熊方面表现得非常好。然而,一些模型--包括CLIP、GPT-2和GPT-3--倾向于在它们没有被直接训练的任务中表现良好,这被称为 "zero-shot learning"。

CLIP是计算机视觉和自然语言处理之间的一座桥梁。对后续的多模态学习模型影响巨大。

在OpenAI的官方开源代码中,官方开源了9个预训练模型,其中5个是与ResNet结合的预训练模型,另外4个是与ViT结合的模型。预训练模型大小只有200-300MB,十分小巧,但是从对比结果看,效果好于之前的模型。


官方GitHub地址: https://github.com/openai/CLIP 

Hugging Face实现地址: https://huggingface.co/docs/transformers/main/en/model_doc/clip 

官方介绍博客: https://openai.com/blog/clip/ 

CLIP所属的领域
多模态学习

多模态学习

Multimodal Learning

35个资源

CLIP相关的任务