又一个国产开源大模型发布:前腾讯创始人创业公司元象发布XVERSE-13B,超过Baichuan-13B,与ChatGLM2-12B齐平!但免费商用授权!
XVERSE-13B是元象开源的一个大语言模型,发布一周后就登顶HuggingFace流行趋势榜。该模型最大的特点是支持多语言,其中文和英文水平都十分优异,在评测结果上超过了Baichuan-13B,与ChatGLM2-12B差不多,不过ChatGLM2-12B是收费模型,而XVERSE-13B是免费商用授权!

元象简介
这是一家成立于2021年的初创企业,由腾讯公司前副总裁姚星创办。2022年3月A/A+轮融资1.2亿美元。
此前,该公司的产品和服务与元宇宙关系密切,包括一些3D互动技术等。本次发布的大语言模型是在HuggingFace上也吸引了很多人的下载使用。

XVERSE-13B简介
XVERSE-13B是一个支持多语言的大语言模型。该模型在1.4万亿tokens数据集上训练得到。主要的模型信息如下:
- 模型结构:XVERSE-13B 使用主流 Decoder-only 的标准 Transformer 网络结构,支持 8K 的上下文长度(Context Length),为同尺寸模型中最长,能满足更长的多轮对话、知识问答与摘要等需求,模型应用场景更广泛。
- 训练数据:构建了 1.4 万亿 token 的高质量、多样化的数据对模型进行充分训练,包含中、英、俄、西等 40 多种语言,通过精细化设置不同类型数据的采样比例,使得中英两种语言表现优异,也能兼顾其他语言效果。
- 分词:基于 BPE(Byte-Pair Encoding)算法,使用上百 GB 语料训练了一个词表大小为 100,278 的分词器,能够同时支持多语言,而无需额外扩展词表。
- 训练框架:自主研发多项关键技术,包括高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台和框架协同等,让训练效率更高,模型稳定性强,在千卡集群上的峰值算力利用率可达到 58.5%,位居业界前列。
XVERSE-13B评测结果
官方宣称,该模型在中英文测评上的效果都很好。这里我们也可以看看:
模型 | MMLU | C-Eval | AGIEval1 | GAOKAO-Bench1 | GAOKAO-English1 |
---|---|---|---|---|---|
Baichuan-13B | 51.62 | 53.63 | 40.5 | 45.9 | 56.9 |
Llama-1-13B | 46.94 | 28.8 | 27.3 | 26.4 | 38.1 |
Llama-2-13B | 54.84 | 35.6 | 33.4 | 35.4 | 60.6 |
moss-moon-003-base (16B) | 24.7 | 33.13 | 26.8 | 28.5 | 34.7 |
OpenLLaMA-13B | 42.4 | 24.7 | 24.0 | 25.6 | 33.3 |
OPT-13B | 25.2 | 25.0 | 24.2 | 24.4 | 31.1 |
Pythia-12B | 25.1 | 26.2 | 25.3 | 25.3 | 26.8 |
Ziya-LLaMA-13B-Pretrain-v1 | 43.9 | 30.2 | 27.2 | 26.4 | 37.6 |
ChatGLM2-6B (base) | 47.86 | 51.7 | |||
ChatGLM2-12B (base) | 56.18 | 61.6 | |||
Qwen-7B | 56.7 | 59.6 | |||
XVERSE-13B | 55.1 | 54.7 | 41.4 | 53.9 | 66.5 |
注意,这里的ChatGLM2和Qwen是我们加入的,官方的列表没有提供,但是可以看到,其实这两个模型在MMLU上的得分是很不错的,比XVERSE-13B要好。
XVERSE-13B的下载地址
下载地址和官方的代码地址参考XVERSE-13B的模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/XVERSE-13B
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
