多模态学习

Multimodal Learning

多模态学习试图对不同模态的数据组合进行建模,这在现实世界的应用中经常出现。联合数据的一个例子是将文本(通常表示为离散的字数向量)与由像素强度和注释标签组成的成像数据相结合。由于这些模式具有根本上不同的统计属性,将它们结合在一起是不容易的,这就是为什么需要专门的建模策略和算法。

很多模型/算法已经实现了对某类数据的检索和分类,例如图像或文本(与机器互动的人类可以提取图片形式的图像和可能是任何信息的文本等)。然而,数据通常带有不同的模式(它是指一个系统的组成部分可能被分离或组合的程度),这些模式携带不同的信息。例如,为一张图片添加标题以传达该图片未呈现的信息是非常常见的。同样地,有时用图像来描述从文本中可能不明显的信息也是比较直接的。因此,如果一些不同的词出现在类似的图像中,这些词很可能是用来描述同一事物的。反之,如果一些词用在不同的图像中,这些图像可能代表同一个物体。因此,邀请一个能够共同代表信息的新模型是很重要的,这样的模型可以捕捉到不同模式之间的相关结构。此外,它还应该能够恢复缺失的模式,例如,根据文本描述预测可能的图像对象。多模态深度波尔兹曼机模型满足了上述目的。

多模态深度玻尔兹曼机被成功用于分类和缺失数据检索。在对具有图像-文本模态或单一模态的数据进行测试时,多模态深度玻尔兹曼机的分类精度优于支持向量机、潜在狄里切特分配和深度信念网络等模型。多模态深度玻尔兹曼机也能够在观察到的模态下以相当好的精度预测缺失的模态。自我监督学习为多模态带来了更有趣和强大的模型。OpenAI开发了CLIP和DALL-E模型,彻底改变了多模态。

——来自维基百科

多模态学习

多模态学习领域的任务

文本生成图片

文本生成图片

Text to Image

35个资源

文本生成视频

文本生成视频

Text to Video

35个资源

自动语音识别

自动语音识别

Automatic Speech Recognition

35个资源

口语理解

口语理解

Spoken Language Understanding

35个资源

文本生成3D

文本生成3D

Text to 3D

35个资源

音乐生成

音乐生成

Music Generation

35个资源

语音生成

语音生成

Speech Generation

35个资源

图像生成图像

图像生成图像

Image to Image

35个资源

多模态学习领域的预训练大模型

DALL·E2

35.0

亿个参数

2022-04-13

发布时间

ERNIE-ViLG 2.0

240.0

亿个参数

2022-10-27

发布时间

Imagen

20.0

亿个参数

2022-05-23

发布时间

Whisper

15.5

亿个参数

2022-09-21

发布时间

CLIP

0.0

亿个参数

2021-01-05

发布时间

Stable Diffusion-2.0

9.83

亿个参数

2022-11-24

发布时间

Stable Diffusion - 2.1

9.83

亿个参数

2022-12-07

发布时间

Composer

50.0

亿个参数

2023-02-20

发布时间

Stable Diffusion XL - Base 1.0

23.0

亿个参数

2023-04-14

发布时间

LVDM

0.0

亿个参数

2023-04-06

发布时间

MiniGPT-4

130.0

亿个参数

2023-04-16

发布时间

LLaVA

130.0

亿个参数

2023-04-17

发布时间

Whisper V2

15.5

亿个参数

2022-12-09

发布时间

AudioGPT

0.0

亿个参数

2023-04-25

发布时间

DeepFloyd IF

43.0

亿个参数

2023-04-26

发布时间

LLaMA Adapter V2

650.0

亿个参数

2023-04-28

发布时间

ImageBind

0.0

亿个参数

2023-05-09

发布时间

Shap-E

0.0

亿个参数

2023-05-03

发布时间

InstructBLIP

130.0

亿个参数

2023-05-11

发布时间

VisualGLM-6B

78.0

亿个参数

2023-05-17

发布时间

MMS

10.0

亿个参数

2023-05-23

发布时间

MusicGen

33.0

亿个参数

2023-06-08

发布时间

Voicebox

3.72

亿个参数

2023-06-16

发布时间

VisCPM-Chat

100.0

亿个参数

2023-06-30

发布时间

VisCPM-Paint

100.0

亿个参数

2023-06-30

发布时间

CM3leon

70.0

亿个参数

2023-07-14

发布时间

AudioGen

15.0

亿个参数

2023-05-05

发布时间

Ziya-BLIP2-14B-Visual-v1

140.0

亿个参数

2023-06-05

发布时间

AudioLDM 2 Full

0.0

亿个参数

2023-08-05

发布时间

SeamlessM4T-Large

23.0

亿个参数

2023-08-22

发布时间

SeamlessM4T-Medium

12.0

亿个参数

2023-08-22

发布时间

DeciDiffusion 1.0

8.2

亿个参数

2023-09-13

发布时间

DALL·E3

0.0

亿个参数

2023-09-21

发布时间

GPT-4V

0.0

亿个参数

2023-09-25

发布时间

CogVLM

170.0

亿个参数

2023-10-11

发布时间

Qwen-VL

96.0

亿个参数

2023-08-24

发布时间

Distil-Whisper

15.5

亿个参数

2023-11-01

发布时间

SVD

10.0

亿个参数

2023-11-21

发布时间

SVD-XT

10.0

亿个参数

2023-11-21

发布时间

Qwen-Audio

85.0

亿个参数

2023-11-30

发布时间

LaVie

30.0

亿个参数

2023-09-26

发布时间

VideoBooth

30.0

亿个参数

2023-12-01

发布时间

Gemini-ultra

0.0

亿个参数

2023-12-07

发布时间

Gemini-pro

1000.0

亿个参数

2023-12-07

发布时间

Gemini-Nano

32.5

亿个参数

2023-12-07

发布时间

Emu

28.0

亿个参数

2023-09-27

发布时间

Stable Zero123

40.0

亿个参数

2023-12-13

发布时间

AnyText

5.0

亿个参数

2023-11-06

发布时间

Yi-VL-6B

60.0

亿个参数

2024-01-22

发布时间

Yi-VL-34B

340.0

亿个参数

2024-01-22

发布时间

Qwen-VL-Plus

0.0

亿个参数

2023-11-28

发布时间

Qwen-VL-MAX

0.0

亿个参数

2024-01-25

发布时间

Bunny-3B

30.0

亿个参数

2024-02-05

发布时间

Stable Cascade

5.0

亿个参数

2024-02-12

发布时间

多模态学习领域的公开数据集