DataLearner Atlas

多模态大模型

同时支持文本与图像、音频、视频等多种输入/输出模态的大模型。

已收录 130 个模型 · 持续更新

多模态大模型（Multimodal Model）扩展了纯文本 LLM 的输入输出范围，可处理图像理解（VQA）、图文生成、文档解析、视频问答等任务。OpenAI、Google、Anthropic、Qwen 等主要团队都已推出强多模态版本。下方汇总主流多模态模型支持的模态类型、上下文长度与评测成绩。

全部模型

支持按类型、规模、授权、发布机构等条件组合筛选

浏览分类:多模态

收录 130 款模型

全部模型

Inkling

Claude Sonnet 5

Gemini 3.5 Flash

MiniMax M3

MiniCPM-V 4.6

Gemini 3.1 Flash-Lite

GPT-image-2

Gemma 4 E4B

Gemma 4 E2B

Dreamina Seedance 2.0 720p

Gemini 3.1 Flash Image Preview

Qwen3.5-Omni-Light

Qwen3.5-Omni-Plus

Qwen3.5-Omni-Flash

GPT-5.4 nano

GPT-5.4 Pro

GPT-5.4

Qwen3.5-9B

Wan2.6 T2V

Wan2.6 I2V

Gemini 3.1 Pro Preview

Qwen3.5-397B-A17B

Seedance 2.0

Qwen-Image-2.0

Gemini 3 Pro

Doubao Seed 2.0 Lite

PaddleOCR-VL-1.5

DeepSeek-OCR 2

Kimi K2.5

MedGemma 1.5

Qwen-Image-2512

GPT Realtime Mini - 2025-12-15

GLM-4.6V-Flash

GLM-4.6V

Nova 2 Omni（Preview）

Ministral 3 8B

Ministral 3 14B

Mistral Large 3

Gemini 3.0 Flash Lite（未发布/传闻）

Nano Banana Pro

Gemini 3.0 Pro (Preview 11-2025)

ERNIE 5.0

Qwen3-VL-32B

Qwen3-VL-2B

Qwen3-VL-2B-Thinking

Qwen3-VL-32B-Thinking

Qwen3-VL-4B-Instruct

Haiku 4.5

全部模型

Inkling

Claude Sonnet 5

Gemini 3.5 Flash

MiniMax M3

MiniCPM-V 4.6

Gemini 3.1 Flash-Lite

GPT-image-2

Gemma 4 E4B

Gemma 4 E2B

Dreamina Seedance 2.0 720p

Gemini 3.1 Flash Image Preview

Qwen3.5-Omni-Light

Qwen3.5-Omni-Plus

Qwen3.5-Omni-Flash

GPT-5.4 nano

GPT-5.4 Pro

GPT-5.4

Qwen3.5-9B

Wan2.6 T2V

Wan2.6 I2V

Gemini 3.1 Pro Preview

Qwen3.5-397B-A17B

Seedance 2.0

Qwen-Image-2.0

Gemini 3 Pro

Doubao Seed 2.0 Lite

PaddleOCR-VL-1.5

DeepSeek-OCR 2

Kimi K2.5

MedGemma 1.5