多模态学习（Multimodal Learning）简介及其子任务、模型、数据集

多模态学习

Multimodal Learning

多模态学习试图对不同模态的数据组合进行建模，这在现实世界的应用中经常出现。联合数据的一个例子是将文本（通常表示为离散的字数向量）与由像素强度和注释标签组成的成像数据相结合。由于这些模式具有根本上不同的统计属性，将它们结合在一起是不容易的，这就是为什么需要专门的建模策略和算法。

很多模型/算法已经实现了对某类数据的检索和分类，例如图像或文本（与机器互动的人类可以提取图片形式的图像和可能是任何信息的文本等）。然而，数据通常带有不同的模式（它是指一个系统的组成部分可能被分离或组合的程度），这些模式携带不同的信息。例如，为一张图片添加标题以传达该图片未呈现的信息是非常常见的。同样地，有时用图像来描述从文本中可能不明显的信息也是比较直接的。因此，如果一些不同的词出现在类似的图像中，这些词很可能是用来描述同一事物的。反之，如果一些词用在不同的图像中，这些图像可能代表同一个物体。因此，邀请一个能够共同代表信息的新模型是很重要的，这样的模型可以捕捉到不同模式之间的相关结构。此外，它还应该能够恢复缺失的模式，例如，根据文本描述预测可能的图像对象。多模态深度波尔兹曼机模型满足了上述目的。

多模态深度玻尔兹曼机被成功用于分类和缺失数据检索。在对具有图像-文本模态或单一模态的数据进行测试时，多模态深度玻尔兹曼机的分类精度优于支持向量机、潜在狄里切特分配和深度信念网络等模型。多模态深度玻尔兹曼机也能够在观察到的模态下以相当好的精度预测缺失的模态。自我监督学习为多模态带来了更有趣和强大的模型。OpenAI开发了CLIP和DALL-E模型，彻底改变了多模态。

——来自维基百科

多模态学习领域的任务

文本生成图片

Text to Image

35个资源

文本生成视频

Text to Video

35个资源

自动语音识别

Automatic Speech Recognition

35个资源

口语理解

Spoken Language Understanding

35个资源

文本生成3D

Text to 3D

35个资源

音乐生成

Music Generation

35个资源

语音生成

Speech Generation

35个资源

图像生成图像

Image to Image

35个资源

基于文本的图像编辑

Image Edit Based on Text Instructions

35个资源

多模态学习领域的预训练大模型

DALL·E2

35.0

亿个参数

2022-04-13

发布时间

查看详情

ERNIE-ViLG 2.0

240.0

亿个参数

2022-10-27

发布时间

查看详情

Imagen

20.0

亿个参数

2022-05-23

发布时间

查看详情

Whisper

15.5

亿个参数

2022-09-21

发布时间

查看详情

CLIP

0.0

亿个参数

2021-01-05

发布时间

查看详情

Stable Diffusion-2.0

9.83

亿个参数

2022-11-24

发布时间

查看详情

Stable Diffusion - 2.1

9.83

亿个参数

2022-12-07

发布时间

查看详情

Composer

50.0

亿个参数

2023-02-20

发布时间

查看详情

Stable Diffusion XL - Base 1.0

23.0

亿个参数

2023-04-14

发布时间

查看详情

LVDM

0.0

亿个参数

2023-04-06

发布时间

查看详情

MiniGPT-4

130.0

亿个参数

2023-04-16

发布时间

查看详情

LLaVA

130.0

亿个参数

2023-04-17

发布时间

查看详情

Whisper V2

15.5

亿个参数

2022-12-09

发布时间

查看详情

AudioGPT

0.0

亿个参数

2023-04-25

发布时间

查看详情

DeepFloyd IF

43.0

亿个参数

2023-04-26

发布时间

查看详情

LLaMA Adapter V2

650.0

亿个参数

2023-04-28

发布时间

查看详情

ImageBind

0.0

亿个参数

2023-05-09

发布时间

查看详情

Shap-E

0.0

亿个参数

2023-05-03

发布时间

查看详情

InstructBLIP

130.0

亿个参数

2023-05-11

发布时间

查看详情

VisualGLM-6B

78.0

亿个参数

2023-05-17

发布时间

查看详情

MMS

10.0

亿个参数

2023-05-23

发布时间

查看详情

MusicGen

33.0

亿个参数

2023-06-08

发布时间

查看详情

Voicebox

3.72

亿个参数

2023-06-16

发布时间

查看详情

VisCPM-Chat

100.0

亿个参数

2023-06-30

发布时间

查看详情

VisCPM-Paint

100.0

亿个参数

2023-06-30

发布时间

查看详情

CM3leon

70.0

亿个参数

2023-07-14

发布时间

查看详情

AudioGen

15.0

亿个参数

2023-05-05

发布时间

查看详情

Ziya-BLIP2-14B-Visual-v1

140.0

亿个参数

2023-06-05

发布时间

查看详情

AudioLDM 2 Full

0.0

亿个参数

2023-08-05

发布时间

查看详情

SeamlessM4T-Large

23.0

亿个参数

2023-08-22

发布时间

查看详情

SeamlessM4T-Medium

12.0

亿个参数

2023-08-22

发布时间

查看详情

DeciDiffusion 1.0

8.2

亿个参数

2023-09-13

发布时间

查看详情

DALL·E3

0.0

亿个参数

2023-09-21

发布时间

查看详情

GPT-4V

0.0

亿个参数

2023-09-25

发布时间

查看详情

CogVLM

170.0

亿个参数

2023-10-11

发布时间

查看详情

Qwen-VL

96.0

亿个参数

2023-08-24

发布时间

查看详情

Distil-Whisper

15.5

亿个参数

2023-11-01

发布时间

查看详情

SVD

10.0

亿个参数

2023-11-21

发布时间

查看详情

SVD-XT

10.0

亿个参数

2023-11-21

发布时间

查看详情

Qwen-Audio

85.0

亿个参数

2023-11-30

发布时间

查看详情

LaVie

30.0

亿个参数

2023-09-26

发布时间

查看详情

VideoBooth

30.0

亿个参数

2023-12-01

发布时间

查看详情

Gemini-ultra

0.0

亿个参数

2023-12-07

发布时间

查看详情

Gemini-pro

1000.0

亿个参数

2023-12-07

发布时间

查看详情

Gemini-Nano

32.5

亿个参数

2023-12-07

发布时间

查看详情

Emu

28.0

亿个参数

2023-09-27

发布时间

查看详情

Stable Zero123

40.0

亿个参数

2023-12-13

发布时间

查看详情

AnyText

5.0

亿个参数

2023-11-06

发布时间

查看详情

Yi-VL-6B

60.0

亿个参数

2024-01-22

发布时间

查看详情

Yi-VL-34B

340.0

亿个参数

2024-01-22

发布时间

查看详情

Qwen-VL-Plus

0.0

亿个参数

2023-11-28

发布时间

查看详情

Qwen-VL-MAX

0.0

亿个参数

2024-01-25

发布时间

查看详情

Bunny-3B

30.0

亿个参数

2024-02-05

发布时间

查看详情

Stable Cascade

5.0

亿个参数

2024-02-12

发布时间

查看详情

Claude3-Opus

0.0

亿个参数

2024-03-04

发布时间

查看详情

Claude3-Sonnet

0.0

亿个参数

2024-03-04

发布时间

查看详情

Claude3-Haiku

0.0

亿个参数

2024-03-04

发布时间

查看详情

DeepSeek VL-7B-Chat

70.0

亿个参数

2024-03-11

发布时间

查看详情

DeepSeek VL-7B-Base

70.0

亿个参数

2024-03-11

发布时间

查看详情

DeepSeek VL-1.3B-Base

13.0

亿个参数

2024-03-11

发布时间

查看详情

DeepSeek VL-1.3B-Chat

13.0

亿个参数

2024-03-11

发布时间

查看详情

MiniCPM-V-2

28.0

亿个参数

2024-04-10

发布时间

查看详情

GPT-4o

0.0

亿个参数

2024-05-13

发布时间

查看详情

PaliGemma-3B

30.0

亿个参数

2024-05-14

发布时间

查看详情

GLM-4V-9B

90.0

亿个参数

2024-06-05

发布时间

查看详情

Claude 3.5 Sonnet

亿个参数

2024-06-21

发布时间

查看详情

Amazon Nova Lite

亿个参数

2024-12-03

发布时间

查看详情

Amazon Nova Pro

亿个参数

2024-12-03

发布时间

查看详情

Llama 3.2-Vision-11B

110.0

亿个参数

2024-09-18

发布时间

查看详情

Llama 3.2-Vision-90B

900.0

亿个参数

2024-09-18

发布时间

查看详情

Gemini 2.0 Flash Experimental

亿个参数

2024-12-11

发布时间

查看详情

Qwen2.5-VL-72B-Instruct

720.0

亿个参数

2025-01-28

发布时间

查看详情

Phi-4-multimodal-instruct

56.0

亿个参数

2025-02-27

发布时间

查看详情

CogView4-6B

60.0

亿个参数

2025-03-04

发布时间

查看详情

C4AI Aya Vision 32B

320.0

亿个参数

2025-03-04

发布时间

查看详情

C4AI Aya Vision 8B

80.0

亿个参数

2025-03-04

发布时间

查看详情

Gemma 3 - 1B (IT)

10.0

亿个参数

2025-03-12

发布时间

查看详情

ERNIE 4.5

亿个参数

2025-03-16

发布时间

查看详情

ERNIE X1

亿个参数

2025-03-16

发布时间

查看详情

Mistral-Small-3.1-24B-Base-2503

240.0

亿个参数

2025-03-17

发布时间

查看详情

Mistral-Small-3.1-24B-Instruct-2503

240.0

亿个参数

2025-03-17

发布时间

查看详情

gpt-4o-transcribe

0.0

亿个参数

2025-03-20

发布时间

查看详情

gpt-4o-mini-transcribe

0.0

亿个参数

2025-03-20

发布时间

查看详情

gpt-4o-mini-TTS

0.0

亿个参数

2025-03-20

发布时间

查看详情

Qwen2.5-VL-32B-Instruct

320.0

亿个参数

2025-03-24

发布时间

查看详情

Qwen2.5-Omni-7B

70.0

亿个参数

2025-03-27

发布时间

查看详情

Llama 4 Scout

1090.0

亿个参数

2025-04-05

发布时间

查看详情

Llama 4 Scout Instruct

1090.0

亿个参数

2025-04-05

发布时间

查看详情

Llama 4 Maverick

4000.0

亿个参数

2025-04-05

发布时间

查看详情

Llama 4 Maverick Instruct

4000.0

亿个参数

2025-04-05

发布时间

查看详情

Llama 4 Behemoth Instruct

20000.0

亿个参数

2025-04-05

发布时间

查看详情

Gemma-3n-E2B

20.0

亿个参数

2025-06-26

发布时间

查看详情

ERNIE-4.5-VL-28B-Base-A3B

280.0

亿个参数

2025-06-28

发布时间

查看详情

FLUX.1-Kontext-dev

120.0

亿个参数

2025-06-26

发布时间

查看详情

ERNIE-4.5-VL-424B-A47B-Base

4240.0

亿个参数

2025-06-30

发布时间

查看详情

ERNIE-4.5-VL-28B-A3B-Paddle

280.0

亿个参数

2025-06-30

发布时间

查看详情

Wan2.1-T2V-14B

140.0

亿个参数

2025-02-25

发布时间

查看详情

Qwen-TTS

0.0

亿个参数

2025-06-27

发布时间

查看详情

GLM-4.1V-9B-Base

90.0

亿个参数

2025-07-02

发布时间

查看详情

GLM-4.1V-9B-Thinking

90.0

亿个参数

2025-07-02

发布时间

查看详情

Step1X-Edit

0.0

亿个参数

2025-04-24

发布时间

查看详情

TTS-1.6b-en_fr

16.0

亿个参数

2025-07-03

发布时间

查看详情

Skywork-R1V3-38B

380.0

亿个参数

2025-07-09

发布时间

查看详情

Grok 4 Heavy

0.0

亿个参数

2025-07-10

发布时间

查看详情

GPT-5-mini

0.0

亿个参数

2025-08-07

发布时间

查看详情

Voxtral-Small-24B

240.0

亿个参数

2025-07-15

发布时间

查看详情

Voxtral-Mini-3B

30.0

亿个参数

2025-07-15

发布时间

查看详情

Intern-S1

2410.0

亿个参数

2025-07-27

发布时间

查看详情

Step3

3210.0

亿个参数

2025-07-31

发布时间

查看详情

Qwen Image

200.0

亿个参数

2025-08-04

发布时间

查看详情

Genie 3

0.0

亿个参数

2025-08-05

发布时间

查看详情

GLM-4.5V

1060.0

亿个参数

2025-08-11

发布时间

查看详情

Qwen-Image-Edit

200.0

亿个参数

2025-08-19

发布时间

查看详情

Nano Banana

0.0

亿个参数

2025-08-27

发布时间

查看详情

Gemini 2.5 Flash Image Preview

0.0

亿个参数

2025-08-27

发布时间

查看详情

GPT Realtime

0.0

亿个参数

2025-08-28

发布时间

查看详情

Qwen3-ASR-Flash

0.0

亿个参数

2025-09-08

发布时间

查看详情

Qwen3-Omni-30B-A3B

300.0

亿个参数

2025-09-22

发布时间

查看详情

Qwen-Image-Edit

300.0

亿个参数

2025-09-22

发布时间

查看详情

Qwen3-TTS-Flash

0.0

亿个参数

2025-09-22

发布时间

查看详情

Sora 2

0.0

亿个参数

2025-09-30

发布时间

查看详情

GPT Image 1-mini

0.0

亿个参数

2025-10-08

发布时间

查看详情

Grok Imagine 0.9

0.0

亿个参数

2025-10-05

发布时间

查看详情

Qwen3-VL-32B

320.0

亿个参数

2025-10-22

发布时间

查看详情

Qwen3-VL-2B-Thinking

20.0

亿个参数

2025-10-22

发布时间

查看详情

Qwen3-VL-32B-Thinking

320.0

亿个参数

2025-10-22

发布时间

查看详情

多模态学习领域的公开数据集

DiffusionDB