XVERSE-MoE-A4.2B - XVERSE-MoE-A4.2B

模型详细情况和参数

XVERSE-MoE-A4.2B

模型全称
XVERSE-MoE-A4.2B
模型简称
XVERSE-MoE-A4.2B
模型类型
基础大模型
发布日期
2024-04-01
预训练文件大小
51.5GB
是否支持中文(中文优化)
最高支持的上下文长度
4K
模型参数数量(亿)
258.0
模型代码开源协议
Apache 2.0
预训练结果开源商用情况
Apache 2.0 - 免费商用授权
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型
发布机构

XVERSE-MoE-A4.2B 简介

XVERSE-MoE-A4.2B 是由深圳元象科技自主研发的支持多语言的大语言模型(Large Language Model),使用混合专家模型(MoE,Mixture-of-experts)架构,模型的总参数规模为 258 亿,实际激活的参数量为 42 亿,本次开源的模型为底座模型 XVERSE-MoE-A4.2B,主要特点如下:

  • 模型结构:XVERSE-MoE-A4.2B 为 Decoder-only 的 Transformer 架构,将密集模型的 FFN 层扩展为专家层,不同于传统 MoE 中每个专家的大小与标准 FFN 相同(如Mixtral 8x7B ),使用了更细粒度的专家,每个专家是标准 FFN 大小的 1/4,并设置了共享专家(Shared Expert)和非共享专家(Non-shared Expert)两类,共享专家在计算时始终被激活,非共享专家通过 Router 选择性激活。
  • 训练数据:构建了 2.7 万亿 token 的高质量、多样化的数据对模型进行充分训练,包含中、英、俄、西等 40 多种语言,通过精细化设置不同类型数据的采样比例,使得中英两种语言表现优异,也能兼顾其他语言效果;模型使用 8K 长度的训练样本进行训练。
  • 训练框架:针对 MoE 模型中独有的专家路由和权重计算逻辑,进行了深入定制优化,开发出一套高效的融合算子,以提升计算效率。同时,为解决 MoE 模型显存占用和通信量大的挑战,设计了计算、通信和 CPU-Offload 的 Overlap 处理方式,从而提高整体吞吐量。


欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

XVERSE-MoE-A4.2B所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

XVERSE-MoE-A4.2B相关的任务
问答系统

问答系统

Question Answering

35个资源