同时支持文本与图像、音频、视频等多种输入/输出模态的大模型。
已收录 121 个模型 · 持续更新
多模态大模型(Multimodal Model)扩展了纯文本 LLM 的输入输出范围,可处理图像理解(VQA)、图文生成、文档解析、视频问答等任务。OpenAI、Google、Anthropic、Qwen 等主要团队都已推出强多模态版本。下方汇总主流多模态模型支持的模态类型、上下文长度与评测成绩。
支持按类型、规模、授权、发布机构等条件组合筛选
收录 121 款模型