XVERSE-65B - XVERSE-65B

模型详细情况和参数

XVERSE-65B

模型全称
XVERSE-65B
模型简称
XVERSE-65B
模型类型
基础大模型
发布日期
2023-11-05
预训练文件大小
132.89
是否支持中文(中文优化)
最高支持的上下文长度
16K
模型参数数量(亿)
650.0
模型代码开源协议
Apache 2.0
预训练结果开源商用情况
Apache 2.0 - 免费商用授权
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型
发布机构

XVERSE-65B 简介

XVERSE-65B是元象科技开源的国产大语言模型,参数规模650亿,基于Apache2.0开源协议开源,完全免费商用授权。是国产开源大模型参数规模最大的一个大模型。


国产大语言模型的开源领域一直是很多企业或者科研机构都在卷的领域。最早,智谱AI开源ChatGLM-6B之后,国产大模型的开源就开始不断发展。早期大模型开源的参数规模一直在60-70亿参数规模,随着后续阿里千问系列的140亿参数的模型开源以及智源340亿参数模型开源之后,元象科技开源650亿参数规模的大语言模型XVERSE-65B,将国产开源大模型的参数规模提高到新的台阶。

XVERSE-65B简介XVERSE-65B的评价结果XVERSE-65B的开源对比

XVERSE-65B简介

XVERSE-65B是深圳元象科技公司开源的650亿参数规模的大模型。这是一个从头开始训练的大语言模型,是当前主流的Decoder-Only的Transformer架构

根据官方的介绍,XVERSE-65B模型的主要特点如下:

  • 截止国产开源领域参数规模最大的大语言模型,达到650亿参数;
  • 基于2.6万亿tokens的高质量数据集进行预训练,数据集包括中、英、俄、西等 40 多种语言,在中英文上表现很好,支持部分小语种;
  • 词汇表是基于几百GB的语料训练得到,词汇表大小为100534
  • 模型采用了最新的FlashAttention2架构,性能较好;
  • 最高支持16K的上下文输入

这里值得一提的是XVERSE-65B的词汇表大小,应该是目前业界比较大规模的词汇表了:

模型/Model词表大小/Vocab size说明/Note英文平均tokens量/Avg tokens(English)中文平均tokens量/Avg tokens(Chinesse)代码平均tokens量/Avg tokens(code)
GPT250527bpe171717642323
LLaMA32000sp(bpe)180512571970
Aquila100000bpe15754771679
Baichuan164000bpe15754771679
Baichuan2125696bpe///
ChatGLM264794bpe///
XVERSE-65B100534bpe///

可以看到,在主流知名的国产大模型中,除了Baichuan2外,XVERSE-65B的词汇表大小是最大的。在大语言模型中,词汇表的大小从某种程度上来说代表了大语言模型的某些能力。因为词汇表越大,大语言模型能够理解的语言就越多、风格就可能越多样,在文本生成和理解方面会有更多的优势。因此,可以期待XVERSE-65B模型的能力。

另一个值得注意的是XVERSE-65B使用了FlashAttention2技术。FlashAttention是一种优化的注意力算法,可以降低大模型的内存占用,提高运行速度。FlashAttention2是2023年7月才发布的新技术,它比FlashAttenion第一代快2倍,显卡的吞吐量利用率达到理论算力的73%。是很新的技术,在XVERSE-65B中也有运用,因此,其速度方面也是可以期待的。

XVERSE-65B的评价结果

除了上面提到的模型训练细节外,官方也发布了XVERSE-65B在各种评测榜单的详细结果。DataLearnerAI也在大模型综合评测排行中更新了,按照MMLU评分排序得到如下结果:

数据来源:https://www.datalearner.com/ai-models/llm-evaluation

可以看到,按照MMLU评分排序,XVERSE-65B得分70.8,与GPT-3.5持平,并且接近昨天才宣布的马斯克的大模型Grok-1的水平。MMLU主要是评估大模型语言理解方面的能力,是英文数据集,这里可以看到XVERSE-65B的表现很好。

而在数学推理的评测GSM8K的得分中,XVERSE-65B得分60.3,也是超过了GPT-3.5,接近Grok-1(不过需要注意的是上图不是按照GSM8K排序的,ChatGLM3-6B、Qwen-14B的GSM8K的评分分别是72.3和61.3,是比XVERSE-65B高的,按照GSM8K排序后,XVERSE-65B排第六)。

代码得分中,XVERSE-65B得分26.5,比较一般

总的来说,XVERSE-65B在文本理解和数学推理上表现良好,但是代码能力一般。另外,XVERSE-65B的评测结果官方公布的是比较详细的,这一点也比不少开源模型做的好。

XVERSE-65B的开源对比

这也是XVERSE-65B最大的亮点。XVERSE-65B开源协议是Apache2.0,完全可以免费商用的大模型

此前,国产开源大模型中,参数规模最大的是北京智源人工智能研究院(BAAI)的Aquila2-34B,而此次开源的XVERSE-65B直接将国产开源大模型的参数推高一个台阶,应该是截止目前为止参数规模最大的开源大模型,基本追平国外MetaAI开源的LLaMA系列的70B的规模。不过,LLaMA2-70B模型的中文能力很差。

模型名称参数规模中文支持DataLearenr模型信息卡地址
ChatGLM3-6B60亿支持https://www.datalearner.com/ai-models/pretrained-models/ChatGLM3-6B
Qwen-14B140亿支持https://www.datalearner.com/ai-models/pretrained-models/Qwen-14B
LLaMA2-70B700亿不支持https://www.datalearner.com/ai-models/pretrained-models/llama-2-70b
XVERSE-65B650亿支持https://www.datalearner.com/ai-models/pretrained-models/XVERSE-65B

关于XVERSER-65B的开源地址和其它信息参考DataLearner模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/XVERSE-65B


完整介绍: https://www.datalearner.com/blog/1051699254277228 

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

XVERSE-65B所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

XVERSE-65B相关的任务
问答系统

问答系统

Question Answering

35个资源