标签

「多模态」相关文章

汇总「多模态」相关的原创 AI 技术文章与大模型实践笔记，持续更新。

标签:#多模态

重磅！Kimi K2.5发布，依然免费开源！原生多模态MoE架构，全球最大规模参数的开源模型之一，官方评测结果比肩诸多闭源模型！可以驱动100个子Agent执行！

2026年1月27日，月之暗面（Moonshot AI）发布新一代模型Kimi K2.5。根据官方说明，这是Kimi K2的后续版本，目前已通过Kimi.com网页端和App向用户推送。该模型同步上线Kimi API开放平台及编程助手Kimi Code，模型权重与相关代码也在Hugging Face开源。

2026/01/27 17:27:05934

#K2 #K2.5

MMEB：多模态嵌入基准评测，用于测试多模态向量检索和排序准确性的基准

MMEB（Massive Multimodal Embedding Benchmark）是一个用于评估多模态嵌入模型的基准测试框架。该基准最初聚焦于图像-文本嵌入，并在后续版本中扩展到文本、图像、视频和视觉文档输入。MMEB通过收集多样化数据集，提供一个统一的评估平台，用于测试模型在分类、检索和其他任务上的性能。

2026/01/09 09:43:40449

#多模态嵌入评测 #大模型评测

智谱发布 GLM-ASR（闭源）与开源 1.5B GLM-ASR-Nano-2512：针对中文与方言场景的语音识别尝试

就在刚才，智谱推出了两个语音识别模型：闭源的 GLM-ASR 和开源的 GLM-ASR-Nano-2512。与过去他们更多关注通用大模型或多模态模型不同，这次聚焦的是语音转文字（ASR）任务，尤其面向中文语境、方言与复杂环境。以下是对这两款模型已知公开资料的整理与分析。

2025/12/10 11:10:41778

#ASR #GLM-ASR

评测结果超GPT-5 mini和Claude 4 Sonnet，阿里再发开源版本Qwen3-VL模型：手机可运行的Qwen3-VL-2B和Qwen3-VL-32B

就在今日，阿里巴巴Qwen团队重磅推出Qwen3-VL-2B和Qwen3-VL-32B两款视觉语言模型，这些dense架构的创新之作，将多模态AI的强大能力压缩进更紧凑的框架中，显著降低了部署门槛。作为Qwen3系列的最新扩展，它们在保持顶级性能的同时，支持从边缘设备到云端的无缝应用——想象一下，一款手机App就能实时分析2小时视频，或从模糊手写笔记中提取精确信息。这不仅仅是参数缩减，更是AI普惠化的关键一步，帮助开发者以更低的成本实现视觉智能的突破。

2025/10/22 21:55:52518

#Qwen3-VL #Qwen3-VL-2B

「多模态」相关文章

重磅！Kimi K2.5发布，依然免费开源！原生多模态MoE架构，全球最大规模参数的开源模型之一，官方评测结果比肩诸多闭源模型！可以驱动100个子Agent执行！

MMEB：多模态嵌入基准评测，用于测试多模态向量检索和排序准确性的基准

智谱发布 GLM-ASR（闭源）与开源 1.5B GLM-ASR-Nano-2512：针对中文与方言场景的语音识别尝试

评测结果超GPT-5 mini和Claude 4 Sonnet，阿里再发开源版本Qwen3-VL模型：手机可运行的Qwen3-VL-2B和Qwen3-VL-32B

DeepSeekAI开源全新的DeepSeek-OCR模型：参数规模仅30亿的MoE大模型，图像文本结构化提取成本下降十倍！准确率超过Qwen2.5-VL-7B

阿里开源2个全新多模态理解大模型Qwen3-VL-4B和8B：主流评测结果超Gemini 2.5 Flash Lite、GPT-5 Nano，面向多模态Agent和机器人应用打造

大模型评测SimpleVQA全方位深度解析，直击多模态模型“事实幻觉”

智谱AI开源多模态推理大模型GLM-4.1V-Thinking：90亿参数，基于强化学习技术，带推理能力，多模态理解能力接近720亿的Qwen2.5-VL-72B，免费商用授权

Google开源多模态大模型Gemma3n的正式版：重新定义端侧AI的多模态能力，10B（100亿）参数以下最强多模态大模型，一个月前的预览版正式转正

MMMU基准：多模态多学科复杂推理能力的权威评估体系

阿里开源全模态大模型Qwen2.5-Omni-7B：支持文本、语音、视频、图像任意模态输入，可以实时生成文本或者语音，文本理解能力接近GPT-4o-mini，开源且免费商用

MistralAI开源240亿参数的多模态大模型Mistral-Small-3.1-24B：评测结果与GPT-4o-mini与Gemma 3 27B有来有回，开源且免费商用，支持24种语言

CohereAI开源了2个Aya Vision多模态大模型：80亿和320亿两种规格多模态大模型，评测结果超越Qwen2.5 72B和Llama 3.2 90B，支持23种语言

大模型多模态评测基准MMMU介绍

OpenAI发布的GPT-4o能力总结，数学推理能力超过所有模型，价格下降一半！

开源多模态大模型新选择：DeepSeekAI（深度求索科技）开源全新多模态大模型DeepSeek-VL模型，包含可在手机端运行的13亿规模tiny多模态模型。

Google Gemini Pro多模态接口开放！DataLearnerAI第一时间测试Gemini Pro多模态能力，比想象惊喜！

2023年11月第四周的HuggingFace流行的十大开源大模型分析——多模态大模型和小规模模型爆发

重磅！ChatGPT加入多模态能力，可以听语音、生成语音并理解图片了！

关于GPT-4的多模态版本最新消息：可能的代号是Gobi，也许会比Google下一代LLM的Gemini更早发布

国产大模型进展神速！清华大学NLP小组发布顶尖多模态大模型：VisCPM，支持文本生成图片与多模态对话，图片理解能力优秀！

ChatGLM-6B升级！清华大学开源VisualGLM-6B：一个可以在本地运行的读懂图片的语言模型！

通用人工智能（AGI）再往前一步：MetaAI发布新的能听会说的多模态AI大模型ImageBind