DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表XVERSE-MoE-A4.2B
XV

XVERSE-MoE-A4.2B

XVERSE-MoE-A4.2B

发布时间: 2024-04-01更新于: 2024-04-07 21:42:57548
在线体验GitHubHugging FaceCompare
模型参数
258.0亿
上下文长度
4K
中文支持
支持
推理能力

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

XVERSE-MoE-A4.2B

模型基本信息

推理过程
不支持
上下文长度
4K tokens
最大输出长度
暂无数据
模型类型
基础大模型
发布时间
2024-04-01
模型文件大小
51.5GB
MoE架构
否
总参数 / 激活参数
258.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据
XVERSE-MoE-A4.2B

开源和体验地址

代码开源状态
Apache 2.0
预训练权重开源
Apache 2.0- 免费商用授权
GitHub 源码
https://github.com/xverse-ai/XVERSE-MoE-A4.2B
Hugging Face
https://huggingface.co/xverse/XVERSE-MoE-A4.2B
在线体验
暂无在线体验地址
XVERSE-MoE-A4.2B

官方介绍与博客

官方论文
元象首个MoE大模型开源:4.2B激活参数,效果堪比13B模型
DataLearnerAI博客
暂无介绍博客
XVERSE-MoE-A4.2B

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。
XVERSE-MoE-A4.2B

评测结果

当前尚无可展示的评测数据。
XVERSE-MoE-A4.2B

发布机构

元象XVERSE
元象XVERSE
查看发布机构详情
XVERSE-MoE-A4.2B

模型解读

XVERSE-MoE-A4.2B 是由深圳元象科技自主研发的支持多语言的大语言模型(Large Language Model),使用混合专家模型(MoE,Mixture-of-experts)架构,模型的总参数规模为 258 亿,实际激活的参数量为 42 亿,本次开源的模型为底座模型 XVERSE-MoE-A4.2B,主要特点如下:

  • 模型结构:XVERSE-MoE-A4.2B 为 Decoder-only 的 Transformer 架构,将密集模型的 FFN 层扩展为专家层,不同于传统 MoE 中每个专家的大小与标准 FFN 相同(如Mixtral 8x7B ),使用了更细粒度的专家,每个专家是标准 FFN 大小的 1/4,并设置了共享专家(Shared Expert)和非共享专家(Non-shared Expert)两类,共享专家在计算时始终被激活,非共享专家通过 Router 选择性激活。
  • 训练数据:构建了 2.7 万亿 token 的高质量、多样化的数据对模型进行充分训练,包含中、英、俄、西等 40 多种语言,通过精细化设置不同类型数据的采样比例,使得中英两种语言表现优异,也能兼顾其他语言效果;模型使用 8K 长度的训练样本进行训练。
  • 训练框架:针对 MoE 模型中独有的专家路由和权重计算逻辑,进行了深入定制优化,开发出一套高效的融合算子,以提升计算效率。同时,为解决 MoE 模型显存占用和通信量大的挑战,设计了计算、通信和 CPU-Offload 的 Overlap 处理方式,从而提高整体吞吐量。


DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码