XGen-7B - XGen-7B

模型详细情况和参数

XGen-7B

模型全称
XGen-7B
模型简称
XGen-7B
模型类型
编程大模型
发布日期
2023-06-29
预训练文件大小
27GB
是否支持中文(中文优化)
最高支持的上下文长度
8K
模型参数数量(亿)
70.0
模型代码开源协议
Apache 2.0
预训练结果开源商用情况
Apache 2.0 - 免费商用授权
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
...
XGen 7B
查看详情
发布机构

XGen-7B 简介

Salesforce是全球最大的CRM企业,但是在开源大模型领域,它也是一个不可忽视的力量。今天,Salesforce宣布开源全新的XGen-7B模型,是一个同时在文本理解和代码补全任务上都表现很好的模型,在MMLU任务和代码生成任务上都表现十分优秀。最重要的是,它的2个基座模型XGen-7B-4K-Base和XGen-7B-8K-Base都是完全开源可商用的大模型。


XGen 7B模型简介


尽管当前已经有很多开源的大语言模型,但是大多数模型的上下文输入的长度都不超过2k,这对于文本摘要、代码补全等任务来说都是不够的。更长的模型意味着更低的训练效率和更长的推理时间。


而最近的研究也表明,在预算有限的情况下,基于较小的模型在更多的数据上训练其实是一个非常有效的方法。为此Salesforce选择训练70以参数规模的模型,并最终训练出XGen 7B系列大模型。


相比其他的开源大语言模型,XGen 7B系列最大的优点是在最多超过1.5万亿的tokens上做了训练,并最高支持8K的上下文输入,在Google云上用TPU-v4训练1万亿tokens的模型仅需要1.5万美元。这意味这单个XGen 7B模型的训练成本也就在2万美元多一点。而这个模型的效果确实开源领域同等规模模型中最好的之一。


XGen 7B模型的训练细节


XGen 7B模型包含3个版本,分别是XGen-7B-4K-base、XGen-7B-8K-base和XGen-7B-8K-inst。第一个模型是在8000亿tokens上新能力,输入序列长度为2k,然后继续以4k输入长度继续训练了4000亿tokens的数据。


接下来,基于XGen-7B-4K-base进行初始化,在3000亿tokens数据上进行输入序列长度为8k的训练,得到XGen-7B-8K-base模型。


最后,以第二阶段的模型为基础,在开源的指令数据集,如databricks-dolly-15k, oasst1, Baize 和 GPT-related等进行指令微调,得到7B-8K-inst模型。


需要注意的是,这三个模型中XGen-7B-4K-base、XGen-7B-8K-base完全开源可商用,而最后一个模型XGen-7B-8K-inst则仅限于科研使用。


XGen 7B模型的效果

XGen 7B模型最让人惊讶的是它在文本理解和代码补全方面都有很好的表现。这在开源模型中很少见。


在MMLU的5-shot和0-shot2个评测中,XGen-7b模型的加权平均得分为36.3和32.1,超过LLaMA-7b、Falcon-7b、MPT-7b等著名模型。


在常识推理和问答领域,XGen-7b也是表现很好,基本与LLaMA-7b不相上下。尤其是在TruthfulQA任务中远超其它开源模型。


最后,最难得的是XGen-7b模型在代码补全领域也很强大。在HumanEval的代码补全评测中,XGen-7b得分14.2,仅仅比MPT-7b的15.9略低,远超LLaMA-7b的10.38。而很多知名的开源模型,如Falcon-7b则是根本无法生成有意义的代码得分为0。

最终,在长序列任务中,XGen 7b表现也很好,尤其是XGen-7B-8K-inst模型,在文本摘要中得分远超其它模型!


XGen 7B模型信息卡地址:https://www.datalearner.com/ai-models/foundation-models/XGen-7B


欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

XGen-7B所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

XGen-7B相关的任务
代码补全

代码补全

Code Completion

35个资源