QW

Qwen3.5-Omni-Plus

多模态大模型Qwen3.5

Qwen3.5-Omni-Plus

发布时间: 2026-03-30770

在线体验GitHubHugging Face Compare

模型参数

未披露

上下文长度

256K

中文支持

支持

推理能力

Qwen3.5-Omni-Plus 是由阿里巴巴发布的 AI 模型，发布时间为 2026-03-30，定位为多模态大模型，上下文长度为 256K，采用 Qwen License 许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Qwen3.5-Omni-Plus

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

256K tokens

最大输出长度

8K tokens

模型类型

多模态大模型

输入/输出模态

文本、图像、音频、视频 → 文本、音频

发布时间

2026-03-30

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

暂无数据 / 不涉及

知识截止

暂无数据

Qwen3.5-Omni-Plus

开源和体验地址

代码开源状态

预训练权重开源

Qwen License- 免费商用授权

GitHub 源码

暂无GitHub开源地址

Hugging Face

https://huggingface.co/spaces/Qwen/Qwen3.5-Omni-Offline-Demo

在线体验

https://huggingface.co/spaces/Qwen/Qwen3.5-Omni-Online-Demo

Qwen3.5-Omni-Plus

官方介绍与博客

官方论文

Qwen3.5-Omni: Scaling Up, Toward Native Omni-Modal AGI

DataLearnerAI博客

暂无介绍博客

Qwen3.5-Omni-Plus

API接口信息

接口速度

3/5

暂无公开的 API 定价信息。

Qwen3.5-Omni-Plus

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

Qwen3.5-Omni-Plus

发布机构

阿里巴巴

查看发布机构详情

Qwen3.5-Omni-Plus

模型解读

Qwen3.5-Omni是阿里巴巴通义实验室于2026年3月30日正式发布的新一代全模态大模型[citation:1][citation:2][citation:4]。该模型属于Qwen Omni系列，定位为原生全模态（Omni-Modal）模型，旨在实现对文本、图像、音频和视频的统一理解与生成[citation:2][citation:6]。

在架构设计上，Qwen3.5-Omni延续并升级了经典的Thinker-Talker分工架构[citation:4]。其中，Thinker（理解中枢）负责接收多模态输入并输出文本，升级为Hybrid-Attention MoE（混合注意力混合专家架构），结合TMRoPE技术进行位置编码，能够高效处理长序列输入[citation:4][citation:7]。Talker（表达中枢）负责基于Thinker的输出生成上下文化语音，采用RVQ编码替代传统的DiT运算，并引入ARIA（自适应速率交错对齐）技术，以提升语音合成的自然度和稳定性[citation:4][citation:7]。模型在海量文本、视觉以及超过1亿小时的音视频数据上进行了原生多模态预训练[citation:8]。

Qwen3.5-Omni-Plus支持256K的长上下文窗口，可处理超过10小时的音频输入或超过400秒的720P（1 FPS）音视频输入[citation:2][citation:4][citation:8]。在能力方面，模型支持文本、图像、音频、视频的全模态输入，并可输出文本和音频[citation:1][citation:2]。具体能力包括：音视频理解与细粒度描述（可生成带时间戳的剧本级描述、自动切片）、Audio-Visual Vibe Coding（根据音视频指令直接生成代码）、实时语音交互（支持语义打断、语音控制音色/语速/情绪）、音色克隆、多语言语音识别与合成等[citation:4][citation:7][citation:10]。

根据千问团队公布的技术报告，Qwen3.5-Omni-Plus在215项音频/音视频理解、推理和交互任务中取得了SOTA（业界最佳）成绩[citation:1][citation:4][citation:8]。在通用音频理解、识别、翻译、对话等任务上，该模型超越了Google的Gemini-3.1 Pro；音视频理解能力总体达到Gemini-3.1 Pro同等水平；视觉与文本能力则与同尺寸的Qwen3.5模型持平[citation:4][citation:9]。具体测试中，在DailyOmni、QualcommInteractive、Omni Cloze等视听交互测试中得分大幅领先Gemini-3.1 Pro；在WenetSpeech嘈杂环境语音识别测试中错误率远低于对比模型[citation:1][citation:10]。

应用场景方面，Qwen3.5-Omni可广泛用于短视频/直播平台内容理解与审核、游戏开发、自媒体创作、会议与访谈纪要生成、多语言实时翻译等场景[citation:1][citation:3][citation:6]。模型支持113种语言及方言的语音识别和36种语言及方言的语音生成[citation:1][citation:4]。目前，开发者可通过阿里云百炼平台以API形式调用该模型，普通用户可访问Qwen Chat、Hugging Face Spaces或魔搭社区进行免费体验[citation:1][citation:2][citation:4]。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码