又一个国产开源大模型发布:前腾讯创始人创业公司元象发布XVERSE-13B,超过Baichuan-13B,与ChatGLM2-12B齐平!但免费商用授权!

标签:#LLM##XVERSE-13B##大模型# 时间:2023/08/14 09:57:08 作者:小木

XVERSE-13B是元象开源的一个大语言模型,发布一周后就登顶HuggingFace流行趋势榜。该模型最大的特点是支持多语言,其中文和英文水平都十分优异,在评测结果上超过了Baichuan-13B,与ChatGLM2-12B差不多,不过ChatGLM2-12B是收费模型,而XVERSE-13B是免费商用授权!


元象简介

这是一家成立于2021年的初创企业,由腾讯公司前副总裁姚星创办。2022年3月A/A+轮融资1.2亿美元。

此前,该公司的产品和服务与元宇宙关系密切,包括一些3D互动技术等。本次发布的大语言模型是在HuggingFace上也吸引了很多人的下载使用。


XVERSE-13B简介

XVERSE-13B是一个支持多语言的大语言模型。该模型在1.4万亿tokens数据集上训练得到。主要的模型信息如下:

  1. 模型结构:XVERSE-13B 使用主流 Decoder-only 的标准 Transformer 网络结构,支持 8K 的上下文长度(Context Length),为同尺寸模型中最长,能满足更长的多轮对话、知识问答与摘要等需求,模型应用场景更广泛。
  2. 训练数据:构建了 1.4 万亿 token 的高质量、多样化的数据对模型进行充分训练,包含中、英、俄、西等 40 多种语言,通过精细化设置不同类型数据的采样比例,使得中英两种语言表现优异,也能兼顾其他语言效果。
  3. 分词:基于 BPE(Byte-Pair Encoding)算法,使用上百 GB 语料训练了一个词表大小为 100,278 的分词器,能够同时支持多语言,而无需额外扩展词表。
  4. 训练框架:自主研发多项关键技术,包括高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台和框架协同等,让训练效率更高,模型稳定性强,在千卡集群上的峰值算力利用率可达到 58.5%,位居业界前列。

XVERSE-13B评测结果

官方宣称,该模型在中英文测评上的效果都很好。这里我们也可以看看:

模型 MMLU C-Eval AGIEval1 GAOKAO-Bench1 GAOKAO-English1
Baichuan-13B 51.62 53.63 40.5 45.9 56.9
Llama-1-13B 46.94 28.8 27.3 26.4 38.1
Llama-2-13B 54.84 35.6 33.4 35.4 60.6
moss-moon-003-base (16B) 24.7 33.13 26.8 28.5 34.7
OpenLLaMA-13B 42.4 24.7 24.0 25.6 33.3
OPT-13B 25.2 25.0 24.2 24.4 31.1
Pythia-12B 25.1 26.2 25.3 25.3 26.8
Ziya-LLaMA-13B-Pretrain-v1 43.9 30.2 27.2 26.4 37.6
ChatGLM2-6B (base) 47.86 51.7
ChatGLM2-12B (base) 56.18 61.6
Qwen-7B 56.7 59.6
XVERSE-13B 55.1 54.7 41.4 53.9 66.5

注意,这里的ChatGLM2和Qwen是我们加入的,官方的列表没有提供,但是可以看到,其实这两个模型在MMLU上的得分是很不错的,比XVERSE-13B要好。

XVERSE-13B的下载地址

下载地址和官方的代码地址参考XVERSE-13B的模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/XVERSE-13B

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
相关博客