Qwen3-VL-4B-Instruct
不支持
256K tokens
多模态大模型
2025-10-15
8.89 GB
Qwen3-VL 是阿里巴巴 Qwen 团队在 Qwen3 代系下推出的新一代视觉-语言模型,面向文本、图像与视频的联合理解与生成。该代系在长上下文、多模态融合与时空理解等方面进行了系统升级:模型原生支持 256K token 上下文,并可扩展至 1M;在视频理解中强调时间戳对齐,能够对长时序视频进行秒级片段定位;在跨模态对齐方面引入多层次视觉特征融合。
官方模型卡提供多模态与纯文本基准图表与使用样例;权重与推理代码可通过 Transformers/ModelScope 直接调用。
关注DataLearnerAI微信公众号,接受最新大模型资讯