XGen-7B
XGen-7B is an AI model published by Salesforce, released on 2023-06-29, for 编程大模型, with 70.0B parameters, and 8K tokens context length, requiring about 27GB storage, under the Apache 2.0 license.
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
Salesforce是全球最大的CRM企业,但是在开源大模型领域,它也是一个不可忽视的力量。今天,Salesforce宣布开源全新的XGen-7B模型,是一个同时在文本理解和代码补全任务上都表现很好的模型,在MMLU任务和代码生成任务上都表现十分优秀。最重要的是,它的2个基座模型XGen-7B-4K-Base和XGen-7B-8K-Base都是完全开源可商用的大模型。
尽管当前已经有很多开源的大语言模型,但是大多数模型的上下文输入的长度都不超过2k,这对于文本摘要、代码补全等任务来说都是不够的。更长的模型意味着更低的训练效率和更长的推理时间。
而最近的研究也表明,在预算有限的情况下,基于较小的模型在更多的数据上训练其实是一个非常有效的方法。为此Salesforce选择训练70以参数规模的模型,并最终训练出XGen 7B系列大模型。
相比其他的开源大语言模型,XGen 7B系列最大的优点是在最多超过1.5万亿的tokens上做了训练,并最高支持8K的上下文输入,在Google云上用TPU-v4训练1万亿tokens的模型仅需要1.5万美元。这意味这单个XGen 7B模型的训练成本也就在2万美元多一点。而这个模型的效果确实开源领域同等规模模型中最好的之一。
XGen 7B模型包含3个版本,分别是XGen-7B-4K-base、XGen-7B-8K-base和XGen-7B-8K-inst。第一个模型是在8000亿tokens上新能力,输入序列长度为2k,然后继续以4k输入长度继续训练了4000亿tokens的数据。
接下来,基于XGen-7B-4K-base进行初始化,在3000亿tokens数据上进行输入序列长度为8k的训练,得到XGen-7B-8K-base模型。
最后,以第二阶段的模型为基础,在开源的指令数据集,如databricks-dolly-15k, oasst1, Baize 和 GPT-related等进行指令微调,得到7B-8K-inst模型。
需要注意的是,这三个模型中XGen-7B-4K-base、XGen-7B-8K-base完全开源可商用,而最后一个模型XGen-7B-8K-inst则仅限于科研使用。
XGen 7B模型最让人惊讶的是它在文本理解和代码补全方面都有很好的表现。这在开源模型中很少见。
在MMLU的5-shot和0-shot2个评测中,XGen-7b模型的加权平均得分为36.3和32.1,超过LLaMA-7b、Falcon-7b、MPT-7b等著名模型。
在常识推理和问答领域,XGen-7b也是表现很好,基本与LLaMA-7b不相上下。尤其是在TruthfulQA任务中远超其它开源模型。
最后,最难得的是XGen-7b模型在代码补全领域也很强大。在HumanEval的代码补全评测中,XGen-7b得分14.2,仅仅比MPT-7b的15.9略低,远超LLaMA-7b的10.38。而很多知名的开源模型,如Falcon-7b则是根本无法生成有意义的代码得分为0。
最终,在长序列任务中,XGen 7b表现也很好,尤其是XGen-7B-8K-inst模型,在文本摘要中得分远超其它模型!
XGen 7B模型信息卡地址:https://www.datalearner.com/ai-models/foundation-models/XGen-7B
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
