又一个国产开源大模型发布:前腾讯创始人创业公司元象发布XVERSE-13B,超过Baichuan-13B,与ChatGLM2-12B齐平!但免费商用授权!
1,321 阅读
XVERSE-13B是元象开源的一个大语言模型,发布一周后就登顶HuggingFace流行趋势榜。该模型最大的特点是支持多语言,其中文和英文水平都十分优异,在评测结果上超过了Baichuan-13B,与ChatGLM2-12B差不多,不过ChatGLM2-12B是收费模型,而XVERSE-13B是免费商用授权!

元象简介
这是一家成立于2021年的初创企业,由腾讯公司前副总裁姚星创办。2022年3月A/A+轮融资1.2亿美元。
此前,该公司的产品和服务与元宇宙关系密切,包括一些3D互动技术等。本次发布的大语言模型是在HuggingFace上也吸引了很多人的下载使用。

XVERSE-13B简介
XVERSE-13B是一个支持多语言的大语言模型。该模型在1.4万亿tokens数据集上训练得到。主要的模型信息如下:
- 模型结构:XVERSE-13B 使用主流 Decoder-only 的标准 Transformer 网络结构,支持 8K 的上下文长度(Context Length),为同尺寸模型中最长,能满足更长的多轮对话、知识问答与摘要等需求,模型应用场景更广泛。
- 训练数据:构建了 1.4 万亿 token 的高质量、多样化的数据对模型进行充分训练,包含中、英、俄、西等 40 多种语言,通过精细化设置不同类型数据的采样比例,使得中英两种语言表现优异,也能兼顾其他语言效果。
- 分词:基于 BPE(Byte-Pair Encoding)算法,使用上百 GB 语料训练了一个词表大小为 100,278 的分词器,能够同时支持多语言,而无需额外扩展词表。
- 训练框架:自主研发多项关键技术,包括高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台和框架协同等,让训练效率更高,模型稳定性强,在千卡集群上的峰值算力利用率可达到 58.5%,位居业界前列。
XVERSE-13B评测结果
官方宣称,该模型在中英文测评上的效果都很好。这里我们也可以看看:
注意,这里的ChatGLM2和Qwen是我们加入的,官方的列表没有提供,但是可以看到,其实这两个模型在MMLU上的得分是很不错的,比XVERSE-13B要好。
XVERSE-13B的下载地址
下载地址和官方的代码地址参考XVERSE-13B的模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/XVERSE-13B
