阿里开源全模态大模型Qwen2.5-Omni-7B:支持文本、语音、视频、图像任意模态输入,可以实时生成文本或者语音,文本理解能力接近GPT-4o-mini,开源且免费商用
Qwen2.5-Omni-7B是阿里巴巴发布的一款端到端全模态大模型,支持文本、图像、音频、视频(无音频轨)的多模态输入与实时生成能力,可同步输出文本与自然语音的流式响应。目前,该模型在HuggingFace以Apache2.0协议开源,可以免费商用授权。

Qwen2.5-Omni-7B模型特点
Qwen2.5-Omni-7B模型最大的特点是端到端统一架构的多模态大模型,支持实时的语音和视频交互。
也就是说,你可以通过语音或者视频直接和它对话,而Qwen2.5-Omni-7B模型也可以实时输出文本和语音(流式输出)。需要注意的是,尽管Qwen2.5-Omni-7B支持文本、视频、语音和图片作为输入,输出的模态则仅支持文本和语音(视频对话输出似乎也没有必要)。
此外,这个模型只有70亿参数规模(应该是70亿语言模型参数+6.75亿ViT以及音频部分),最高支持32K的输入和8K的输出,响应非常快。官方的演示显示时延非常小。
Qwen2.5-Omni-7B模型在原有的Qwen2.5-7B的语言模型上继续增加了1.2万亿多模态数据的训练,主要包括:
- 800B tokens(图像 & 视频相关)

