Model Overview

Salesforce是全球最大的CRM企业，但是在开源大模型领域，它也是一个不可忽视的力量。今天，Salesforce宣布开源全新的XGen-7B模型，是一个同时在文本理解和代码补全任务上都表现很好的模型，在MMLU任务和代码生成任务上都表现十分优秀。最重要的是，它的2个基座模型XGen-7B-4K-Base和XGen-7B-8K-Base都是完全开源可商用的大模型。

XGen 7B模型简介

尽管当前已经有很多开源的大语言模型，但是大多数模型的上下文输入的长度都不超过2k，这对于文本摘要、代码补全等任务来说都是不够的。更长的模型意味着更低的训练效率和更长的推理时间。

而最近的研究也表明，在预算有限的情况下，基于较小的模型在更多的数据上训练其实是一个非常有效的方法。为此Salesforce选择训练70以参数规模的模型，并最终训练出XGen 7B系列大模型。

相比其他的开源大语言模型，XGen 7B系列最大的优点是在最多超过1.5万亿的tokens上做了训练，并最高支持8K的上下文输入，在Google云上用TPU-v4训练1万亿tokens的模型仅需要1.5万美元。这意味这单个XGen 7B模型的训练成本也就在2万美元多一点。而这个模型的效果确实开源领域同等规模模型中最好的之一。

XGen 7B模型的训练细节

XGen 7B模型包含3个版本，分别是XGen-7B-4K-base、XGen-7B-8K-base和XGen-7B-8K-inst。第一个模型是在8000亿tokens上新能力，输入序列长度为2k，然后继续以4k输入长度继续训练了4000亿tokens的数据。

接下来，基于XGen-7B-4K-base进行初始化，在3000亿tokens数据上进行输入序列长度为8k的训练，得到XGen-7B-8K-base模型。

最后，以第二阶段的模型为基础，在开源的指令数据集，如databricks-dolly-15k, oasst1, Baize 和 GPT-related等进行指令微调，得到7B-8K-inst模型。

需要注意的是，这三个模型中XGen-7B-4K-base、XGen-7B-8K-base完全开源可商用，而最后一个模型XGen-7B-8K-inst则仅限于科研使用。

XGen 7B模型的效果

XGen 7B模型最让人惊讶的是它在文本理解和代码补全方面都有很好的表现。这在开源模型中很少见。

在MMLU的5-shot和0-shot2个评测中，XGen-7b模型的加权平均得分为36.3和32.1，超过LLaMA-7b、Falcon-7b、MPT-7b等著名模型。

在常识推理和问答领域，XGen-7b也是表现很好，基本与LLaMA-7b不相上下。尤其是在TruthfulQA任务中远超其它开源模型。

最后，最难得的是XGen-7b模型在代码补全领域也很强大。在HumanEval的代码补全评测中，XGen-7b得分14.2，仅仅比MPT-7b的15.9略低，远超LLaMA-7b的10.38。而很多知名的开源模型，如Falcon-7b则是根本无法生成有意义的代码得分为0。

最终，在长序列任务中，XGen 7b表现也很好，尤其是XGen-7B-8K-inst模型，在文本摘要中得分远超其它模型！

XGen 7B模型信息卡地址：https://www.datalearner.com/ai-models/foundation-models/XGen-7B

XGen-7B

Model basics

Open source & experience

Official resources

API details

Benchmark Results

Publisher

Model Overview

XGen 7B模型简介

XGen 7B模型的训练细节

XGen 7B模型的效果

Foundation model

DataLearner 官方微信