文本理解与代码补全都很强！Salesforce开源支持8K上下文输入的大语言模型XGen-7B！

Salesforce是全球最大的CRM企业，但是在开源大模型领域，它也是一个不可忽视的力量。今天，Salesforce宣布开源全新的XGen-7B模型，是一个同时在文本理解和代码补全任务上都表现很好的模型，在MMLU任务和代码生成任务上都表现十分优秀。最重要的是，它的2个基座模型XGen-7B-4K-Base和XGen-7B-8K-Base都是完全开源可商用的大模型。

XGen 7B模型简介

尽管当前已经有很多开源的大语言模型，但是大多数模型的上下文输入的长度都不超过2k，这对于文本摘要、代码补全等任务来说都是不够的。更长的模型意味着更低的训练效率和更长的推理时间。

而最近的研究也表明，在预算有限的情况下，基于较小的模型在更多的数据上训练其实是一个非常有效的方法。为此Salesforce选择训练70以参数规模的模型，并最终训练出XGen 7B系列大模型。

相比其他的开源大语言模型，XGen 7B系列最大的优点是在最多超过1.5万亿的tokens上做了训练，并最高支持8K的上下文输入，在Google云上用TPU-v4训练1万亿tokens的模型仅需要1.5万美元。这意味这单个XGen 7B模型的训练成本也就在2万美元多一点。而这个模型的效果确实开源领域同等规模模型中最好的之一。

文本理解与代码补全都很强！Salesforce开源支持8K上下文输入的大语言模型XGen-7B！

XGen 7B模型简介

DataLearner 官方微信

XGen 7B模型的训练细节

XGen 7B模型的效果

热门博客