V-MoE - Vision Mixture of Experts

模型详细情况和参数

V-MoE

模型全称
Vision Mixture of Experts
模型简称
V-MoE
模型类型
基础大模型
发布日期
2021-06-10
预训练文件大小
未知
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
150.0
模型代码开源协议
预训练结果开源商用情况
-
模型GitHub链接
暂无
模型HuggingFace链接
暂无
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型
发布机构

Vision Mixture of Experts 简介

视觉Transformers (ViT)已经成为视觉任务的最佳架构之一。ViT首先将图像分割成同等大小的方形斑块。这些被称为标记,是一个从语言模型继承下来的术语。然而,与最大的语言模型相比,ViT模型在参数数量和计算量上要小几个数量级。


为了大规模地扩展视觉模型,我们用独立的前馈层的稀疏混合物(我们称之为专家)取代了ViT架构中的一些密集前馈层(FFN)。一个可学习的路由器层为每个单独的标记选择哪些专家(以及他们的加权方式)。也就是说,来自同一图像的不同标记可能会被路由到不同的专家。每个标记最多只能被送到K(通常是1或2)个专家那里,总共有E个专家(在我们的实验中,E通常是32)。这使得模型的规模可以扩展,同时保持每个令牌的计算量大致不变。下图更详细地显示了编码器模块的结构。

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

V-MoE所属的领域
V-MoE相关的任务