标签

「多模态」相关文章

汇总「多模态」相关的原创 AI 技术文章与大模型实践笔记，持续更新。

标签:#多模态

重磅！Kimi K2.5发布，依然免费开源！原生多模态MoE架构，全球最大规模参数的开源模型之一，官方评测结果比肩诸多闭源模型！可以驱动100个子Agent执行！

2026年1月27日，月之暗面（Moonshot AI）发布新一代模型Kimi K2.5。根据官方说明，这是Kimi K2的后续版本，目前已通过Kimi.com网页端和App向用户推送。该模型同步上线Kimi API开放平台及编程助手Kimi Code，模型权重与相关代码也在Hugging Face开源。

2026/01/27 17:27:053,593

#K2 #K2.5

MMEB：多模态嵌入基准评测，用于测试多模态向量检索和排序准确性的基准

MMEB（Massive Multimodal Embedding Benchmark）是一个用于评估多模态嵌入模型的基准测试框架。该基准最初聚焦于图像-文本嵌入，并在后续版本中扩展到文本、图像、视频和视觉文档输入。MMEB通过收集多样化数据集，提供一个统一的评估平台，用于测试模型在分类、检索和其他任务上的性能。

2026/01/09 09:43:40942

#多模态嵌入评测 #大模型评测

智谱发布 GLM-ASR（闭源）与开源 1.5B GLM-ASR-Nano-2512：针对中文与方言场景的语音识别尝试

就在刚才，智谱推出了两个语音识别模型：闭源的 GLM-ASR 和开源的 GLM-ASR-Nano-2512。与过去他们更多关注通用大模型或多模态模型不同，这次聚焦的是语音转文字（ASR）任务，尤其面向中文语境、方言与复杂环境。以下是对这两款模型已知公开资料的整理与分析。

2025/12/10 11:10:411,214

#ASR #GLM-ASR

评测结果超GPT-5 mini和Claude 4 Sonnet，阿里再发开源版本Qwen3-VL模型：手机可运行的Qwen3-VL-2B和Qwen3-VL-32B

就在今日，阿里巴巴Qwen团队重磅推出Qwen3-VL-2B和Qwen3-VL-32B两款视觉语言模型，这些dense架构的创新之作，将多模态AI的强大能力压缩进更紧凑的框架中，显著降低了部署门槛。作为Qwen3系列的最新扩展，它们在保持顶级性能的同时，支持从边缘设备到云端的无缝应用——想象一下，一款手机App就能实时分析2小时视频，或从模糊手写笔记中提取精确信息。这不仅仅是参数缩减，更是AI普惠化的关键一步，帮助开发者以更低的成本实现视觉智能的突破。

2025/10/22 21:55:521,023

#Qwen3-VL #Qwen3-VL-2B

DeepSeekAI开源全新的DeepSeek-OCR模型：参数规模仅30亿的MoE大模型，图像文本结构化提取成本下降十倍！准确率超过Qwen2.5-VL-7B

DeepSeek AI团队重磅推出DeepSeek-OCR，该模型不仅在文档提取上达到了行业领先水平，更通过创新的视觉压缩技术，将长上下文处理效率提升了 10 倍以上。根据测算，在A100-40G的一个GPU上，它每天可以将20万页的文档图像数据转为Markdown文本！

2025/10/20 20:47:35859

#DeepSeek #DeepSeek-OCR

阿里开源2个全新多模态理解大模型Qwen3-VL-4B和8B：主流评测结果超Gemini 2.5 Flash Lite、GPT-5 Nano，面向多模态Agent和机器人应用打造

就在刚才，阿里云Qwen团队推出了两个多模态理解大模型Qwen3-VL-4B和Qwen3-VL-8B，本次发布的模型是较小参数规模的模型，可以用于消费级硬件（手机/PC）等，且都是稠密架构。

2025/10/15 09:06:341,667

#Qwen3-VL #图像识别

大模型评测SimpleVQA全方位深度解析，直击多模态模型“事实幻觉”

随着多模态大语言模型（MLLM）在各个领域的应用日益广泛，一个核心问题浮出水面：我们如何信赖它们生成内容的准确性？当模型需要结合图像和文本进行问答时，其回答是否基于事实，还是仅仅是“看似合理”的幻觉？为了应对这一挑战，一个名为SimpleVQA的新型评测基准应运而生，旨在为多模态模型的事实性能力提供一个清晰、可量化的度量衡。

2025/08/01 15:49:57467

#多模态评测 #大模型评测

智谱AI开源多模态推理大模型GLM-4.1V-Thinking：90亿参数，基于强化学习技术，带推理能力，多模态理解能力接近720亿的Qwen2.5-VL-72B，免费商用授权

GLM-4.1V-Thinking是智谱AI（Zhipu AI）与清华大学KEG实验室联合推出的多模态推理大模型。这款模型并非简单的版本迭代，而是通过一个以“推理为中心”的全新训练框架，旨在将多模态模型的能力从基础的视觉感知，推向更复杂的逻辑推理和问题解决层面。多模态理解能力接近720亿的Qwen2.5-VL-72B。

2025/07/02 21:11:34962

#GLM #多模态大模型

Google开源多模态大模型Gemma3n的正式版：重新定义端侧AI的多模态能力，10B（100亿）参数以下最强多模态大模型，一个月前的预览版正式转正

继Gemma系列模型发布并迅速形成超过1.6亿次下载的繁荣生态后，Google再次推出了其在端侧AI领域的重磅力作——Gemma 3n。这款模型并非一次简单的迭代，而是基于全新的移动优先（mobile-first）架构，旨在为开发者提供前所未有的设备端多模态处理能力。Gemma 3n的定位是成为一款高效、强大且灵活的开源模型，直接与设备端AI领域的其他先进模型（如Phi-4、Llama系列的小参数版本）竞争，其核心特性在于原生支持图像、音频、视频和文本输入。

2025/06/27 09:08:40912

#Gemm3n #Gemma系列

MMMU基准：多模态多学科复杂推理能力的权威评估体系

大规模多学科多模态理解与推理基准（MMMU）于2023年11月推出，是一种用于评估多模态模型的复杂工具。该基准测试人工智能系统在需要大学水平学科知识和深思熟虑推理的任务上的能力。与之前的基准不同，MMMU强调跨多个领域的先进感知和推理，旨在衡量朝专家级人工智能通用智能（AGI）的进展。

2025/05/05 21:48:001,001

#MMMU #多模态评测

阿里开源全模态大模型Qwen2.5-Omni-7B：支持文本、语音、视频、图像任意模态输入，可以实时生成文本或者语音，文本理解能力接近GPT-4o-mini，开源且免费商用

Qwen2.5-Omni-7B是阿里巴巴发布的一款端到端全模态大模型，支持文本、图像、音频、视频（无音频轨）的多模态输入与实时生成能力，可同步输出文本与自然语音的流式响应。目前，该模型在HuggingFace以Apache2.0协议开源，可以免费商用授权。

2025/03/27 08:18:051,702

#Qwen2.5-Omni-7B #多模态大模型

MistralAI开源240亿参数的多模态大模型Mistral-Small-3.1-24B：评测结果与GPT-4o-mini与Gemma 3 27B有来有回，开源且免费商用，支持24种语言

欧洲大模型之光MistralAI开源了2个全新的多模态大模型，即Mistral-Small-3.1-24B基座版本和指令微调版本。这两个大模型均以Apache2.0协议开源，因此可以完全免费商用。而官方也给出了这个模型在多个评测集上的效果，高于GPT-4o-mini和Gemma 3 27B。因为其参数规模较小，推理速度可以达到每秒150个tokens，同时支持多种语言，是一个非常值得关注的小而美的多模态大模型。

2025/03/18 16:41:501,077

#MistralAI #MistralSmall3.1

CohereAI开源了2个Aya Vision多模态大模型：80亿和320亿两种规格多模态大模型，评测结果超越Qwen2.5 72B和Llama 3.2 90B，支持23种语言

Cohere For AI 推出了 Aya Vision 系列，这是一组包含 80 亿（8B）和 320 亿（32B）参数的视觉语言模型（VLMs）。这些模型针对多模态AI系统中的多语言性能挑战，支持23种语言。Aya Vision 基于 Aya Expanse 语言模型，并通过引入视觉语言理解扩展了其能力。该系列模型旨在提升同时需要文本和图像理解的任务性能。

2025/03/04 23:24:06600

#AyaVision #CohereAI

大模型多模态评测基准MMMU介绍

大模型多模态评测基准MMMU（大规模多学科多模态理解和推理基准）是一项旨在评估多模态人工智能模型在复杂跨学科任务中综合能力的测试工具。

2025/02/21 20:51:011,232

#MMMU #大模型多模态评测

OpenAI发布的GPT-4o能力总结，数学推理能力超过所有模型，价格下降一半！

OpenAI在GPT-4发布一年之后再次更新其基础模型，发布最新的GPT-4o模型，其中o代表的是omni，即“全能”的意思。GPT-4o相比较此前最大的升级是对多模态的支持以及性能的提升。GPT-4o在各方面比GPT-4更强，但是速度更快，开发者接口的价格则只有一半！

2024/05/14 08:14:481,813

#GPT-4o #OpenAI

开源多模态大模型新选择：DeepSeekAI（深度求索科技）开源全新多模态大模型DeepSeek-VL模型，包含可在手机端运行的13亿规模tiny多模态模型。

深度求索是著名量化机构幻方量化旗下的一家大模型初创企业，成立与2023年7月份。他们开源了很多大模型，其中编程大模型DeepSeek-Coder系列获得了非常多的好评。而在今天，DeepSeek-AI再次开源了全新的多模态大模型DeepSeek-VL系列，包含70亿和13亿两种不同规模的4个版本的模型。

2024/03/11 14:11:261,914

#DeepSeek-VL #DeepSeekAI

Google Gemini Pro多模态接口开放！DataLearnerAI第一时间测试Gemini Pro多模态能力，比想象惊喜！

Google Gemini是Google最新发布的大模型系列。这是一系列的多模态的大模型，谷歌官方宣布在各项评分中Gemini超过了GPT-4V。但是，谷歌的宣传视频过于夸张被很多人质疑造假嫌疑，导致被全网嘲讽。而今天，Google官方的Gemini多模态接口开放，DataLearnerAI第一时间申请测试，结果让人惊喜。

2023/12/14 01:07:541,090

#Gemini #Gemini多模态

2023年11月第四周的HuggingFace流行的十大开源大模型分析——多模态大模型和小规模模型爆发

在本周，HuggingFace最流行的十个大模型多模态模型占了4个，包括StabilityAI最新开源的文本生成视频大模型Stable Video Diffusion、Coqui最新的语音合成大模型XTTS第二代等都吸引了大量的关注多。而大语言模型中，谷歌开源了2022年就已经发布的Switch大模型，该模型号称参数可以达到上万亿，也是十分有意思。

2023/11/26 23:53:444,647

#HuggingFace #多模态大模型

重磅！ChatGPT加入多模态能力，可以听语音、生成语音并理解图片了！

几分钟之前，OpenAI宣布ChatGPT支持多模态，目前已经支持语音的输入、语音的输出、理解图片的输入！不过目前似乎仅限于客户端~官方说的是未来2周内企业和Plus用户可以使用，后面会普及到其它用户！

2023/09/26 10:30:501,764

#ChatGPT #OpenAI

关于GPT-4的多模态版本最新消息：可能的代号是Gobi，也许会比Google下一代LLM的Gemini更早发布

The Information最新消息透露OpenAI正在抓紧准备GPT-4多模态版本的发布，可能称为GPT4-Vision。

2023/09/20 11:23:28521

#Gemini #GPT-4-Vision

国产大模型进展神速！清华大学NLP小组发布顶尖多模态大模型：VisCPM，支持文本生成图片与多模态对话，图片理解能力优秀！

大模型的发展正在从单纯的语言模型向多模态大模型快速发展。尽管GPT-4号称也是一个多模态大模型，但是受限于GPU资源，GPT-4没有开放任何多模态的能力（参考：https://www.datalearner.com/blog/1051685866651273 ）。目前大家所能接触到的多模态大模型很少。今天，清华大学NLP小组带来了新的选择，发布了VisCPM系列多模态大模型。VisCPM系列包含2类多模态大模型，分别针对多模态对话和文本生成图片进行优化。

2023/06/30 21:36:232,877

#CPM-Bee #VisCPM

ChatGLM-6B升级！清华大学开源VisualGLM-6B：一个可以在本地运行的读懂图片的语言模型！

今天，THUDM开源了ChatGLM-6B的多模态升级版模型VisualGLM-6B。这是一个多模态对话语言模型，支持图像、中文和英文。VisualGLM-6B的特别之处在于它能够整合视觉和语言信息。可以用来理解图片，解析图片内容。

2023/05/19 00:27:345,143

#ChatGLM-6B #VisualGLM-6B

通用人工智能（AGI）再往前一步：MetaAI发布新的能听会说的多模态AI大模型ImageBind

当前，大语言模型主要是基于生成式自然语言处理模型为主。少部分多模态模型可以处理文本、图片和视频信息。但是，AI模型目前还无法像人类一样接受周围的多模态信息进行处理，如图像、文本、声音等。但是，昨天MetaAI发布了一个可以听说读写的AI大模型ImageBind，它可以同时处理6种数据，并输出。本文将简单介绍一下这个模型。

2023/05/10 13:32:141,423

#AGI #ImageBind