XVERSE-Ent-A4.2B

Name: XVERSE-Ent-A4.2B
Author: 元象XVERSE

基础大模型XVERSE

XVERSE-Ent-A4.2B

发布时间: 2025-12-30更新于: 2026-03-08 21:11:18326

在线体验 GitHub Hugging Face Compare

模型参数

250亿

上下文长度

中文支持

支持

推理能力

XVERSE-Ent-A4.2B 是由元象XVERSE 发布的 AI 模型，发布时间为 2025-12-30，定位为基础大模型，参数规模约为 250亿，上下文长度为 8K，采用免费商用授权许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

XVERSE-Ent-A4.2B

模型基本信息

推理过程

不支持

思考模式

常规模式

上下文长度

8K tokens

最大输出长度

暂无数据

模型类型

基础大模型

输入/输出模态

文本 → 文本

发布时间

2025-12-30

模型文件大小

暂无数据

MoE架构

是

总参数 / 激活参数

250亿 / 42亿

知识截止

暂无数据

XVERSE-Ent-A4.2B

开源和体验地址

代码开源状态

Apache 2.0

预训练权重开源

免费商用授权

GitHub 源码

https://github.com/xverse-ai/XVERSE-Ent

Hugging Face

https://huggingface.co/xverse/XVERSE-Ent-A4.2B

在线体验

https://huggingface.co/spaces/xverse/XChat

XVERSE-Ent-A4.2B

官方介绍与博客

官方论文

XVERSE-Ent-A4.2B model card (Hugging Face)

DataLearnerAI博客

暂无介绍博客

XVERSE-Ent-A4.2B

API接口信息

接口速度

3/5

暂无公开的 API 定价信息。

XVERSE-Ent-A4.2B

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

XVERSE-Ent-A4.2B

发布机构

元象XVERSE

查看发布机构详情

XVERSE-Ent-A4.2B

模型解读

模型定位与简介

XVERSE-Ent-A4.2B 属于 XVERSE（Shenzhen Yuanxiang/元象XVERSE）发布的 XVERSE-Ent 系列预训练模型，面向 Entertainment（娱乐内容）领域的文本生成与理解场景。该系列在娱乐领域的大规模高质量数据上进行训练与优化，并提供中英双语两款：XVERSE-Ent-A4.2B（中文）与 XVERSE-Ent-A5.7B（英文）。

架构与技术规格

该模型采用 Mixture-of-Experts（MoE）架构，并在“Sparse Upcycling（稀疏升级）”框架下，将稠密模型转换为大规模 MoE，以在不从零训练的情况下提升总容量并控制训练成本。XVERSE-Ent-A4.2B 的训练采用多阶段训练流程（S0 能力重建、S1 语言增强、S2 领域增强），其中 S2 使用通用数据与娱乐领域数据混合，以在增强领域能力的同时尽量保留通用能力。

项目	取值
语言	中文
总参数量（Total Parameters）	25B
激活参数量（Activated Parameters）	4.2B
层数（Layers）	28
隐藏维度（Hidden Size）	2560
注意力头数（Attention Heads）	32
共享专家数（Shared Experts）	2
非共享专家数（Non-Shared Experts）	64
每 token 选择专家数（Selected Experts per Token）	8
词表大小（Vocab Size）	100K
上下文长度（Context Length）	8K

训练方面，官方在模型卡中说明该系列训练规模约为 ~1T tokens，并指出中文模型是在通用领域骨干模型 XVERSE-MoE-A4.2B 基础上进行 S2 领域增强训练得到。

核心能力与适用场景

模型定位于娱乐内容相关的生成与理解任务（例如小说/故事文本、对话文本等）。官方在评测部分给出了以困惑度（Perplexity, PPL）为指标的多数据集对比，用于衡量在 fiction、conversation、web 文本上的语言建模表现。

评测与基准呈现（官方给出的 PPL 示例）

官方使用 PPL（越低越好）对比了通用领域模型与娱乐领域增强后的表现，并给出多项数据集上的数值结果；同时描述在一般基准（如 MMLU、数学、代码）上通用能力退化较小，并给出“通用能力保留超过 98%”的表述（以模型卡为准）。

访问方式与许可

模型权重：通过 Hugging Face 模型仓库获取（Transformers 加载需 trust_remote_code）。
开源协议：模型卡说明代码遵循 Apache-2.0；模型权重需遵循其 Model License Agreement，并在模型卡中说明支持不受限制的商业使用（以许可文本为准）。

限制与免责声明（官方说明）

官方在模型卡中提示：模型可能产生不准确、有偏见或冒犯性内容，建议在部署前进行安全测试与针对性优化，并避免用于产生或传播有害信息等不当用途。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送