DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Page navigation
目录
Model catalogXVERSE-Ent-A5.7B
XV

XVERSE-Ent-A5.7B

XVERSE-Ent-A5.7B

Release date: 2025-12-30更新于: 2026-01-04 09:43:15184
Live demoGitHubHugging FaceCompare
Parameters
360.0亿
Context length
8K
Chinese support
Not supported
Reasoning ability

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

XVERSE-Ent-A5.7B

Model basics

Reasoning traces
Not supported
Context length
8K tokens
Max output length
No data
Model type
基础大模型
Release date
2025-12-30
Model file size
No data
MoE architecture
Yes
Total params / Active params
360.0B / 57B
Knowledge cutoff
No data
Inference modes
常规模式(Non-Thinking Mode)
XVERSE-Ent-A5.7B

Open source & experience

Code license
Apache 2.0
Weights license
免费商用授权- 免费商用授权
GitHub repo
https://github.com/xverse-ai/XVERSE-Ent
Hugging Face
https://huggingface.co/xverse/XVERSE-Ent-A5.7B
Live demo
https://huggingface.co/spaces/xverse/XChat
XVERSE-Ent-A5.7B

Official resources

Paper
XVERSE-Ent-A5.7B model card (Hugging Face)
DataLearnerAI blog
No blog post yet
XVERSE-Ent-A5.7B

API details

API speed
3/5
No public API pricing yet.
XVERSE-Ent-A5.7B

Benchmark Results

No benchmark data to show.
XVERSE-Ent-A5.7B

Publisher

元象XVERSE
元象XVERSE
View publisher details
XVERSE-Ent-A5.7B

Model Overview

模型定位与简介

XVERSE-Ent-A5.7B 属于 XVERSE(Shenzhen Yuanxiang/元象XVERSE)发布的 XVERSE-Ent 系列预训练模型,面向 Entertainment(娱乐内容)领域的文本生成与理解场景。该系列在娱乐领域的大规模高质量数据上训练与优化,并提供两款:XVERSE-Ent-A4.2B(中文)与 XVERSE-Ent-A5.7B(英文)。

架构与技术规格

该模型采用 Mixture-of-Experts(MoE)架构。官方描述其通过 Sparse Upcycling(稀疏升级)将通用领域的稠密骨干模型转换为 MoE,并配合多阶段训练策略完成能力恢复、语言增强与娱乐领域增强,以在提升领域能力的同时尽量保留通用能力。英文模型的训练配方在模型卡中标注为“Fine-grained Upcycling + Multi-stage Training”。

项目取值
语言英文
总参数量(Total Parameters)36B
激活参数量(Activated Parameters)5.7B
层数(Layers)32
隐藏维度(Hidden Size)3072
注意力头数(Attention Heads)32
共享专家数(Shared Experts)2
非共享专家数(Non-Shared Experts)64
每 token 选择专家数(Selected Experts per Token)8
词表大小(Vocab Size)128K
上下文长度(Context Length)8K

训练方面,官方在模型卡中说明该系列训练规模约为 ~1T tokens,并描述英文模型是将通用稠密骨干通过细粒度 upcycling 转为 MoE 后,再进行完整的多阶段训练流程。

核心能力与适用场景

模型面向娱乐内容生成与理解(如 fiction、conversation 等文本形态)。官方评测使用困惑度(Perplexity, PPL)在多类数据集上对比不同训练/架构设置下的效果,用于展示在娱乐相关文本上的语言建模改进情况。

评测与基准呈现(官方给出的 PPL 示例)

官方给出了多项 PPL 表格,覆盖 fiction / web 文本 / 对话等数据集,并对比了不同 upcycling 方式与训练阶段设置的结果;同时在文字描述中提及对通用能力(例如一般基准)影响较小,并给出“通用能力保留超过 98%”的表述(以模型卡为准)。

访问方式与许可

  • 模型权重:通过 Hugging Face 模型仓库获取(Transformers 加载需 trust_remote_code)。
  • 开源协议:模型卡说明代码遵循 Apache-2.0;模型权重需遵循其 Model License Agreement,并在模型卡中说明支持不受限制的商业使用(以许可文本为准)。

限制与免责声明(官方说明)

官方在模型卡中提示:模型可能产生不准确、有偏见或冒犯性内容,建议在部署前进行安全测试与针对性优化,并避免用于产生或传播有害信息等不当用途。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码