文本理解与代码补全都很强!Salesforce开源支持8K上下文输入的大语言模型XGen-7B!
Salesforce是全球最大的CRM企业,但是在开源大模型领域,它也是一个不可忽视的力量。今天,Salesforce宣布开源全新的XGen-7B模型,是一个同时在文本理解和代码补全任务上都表现很好的模型,在MMLU任务和代码生成任务上都表现十分优秀。最重要的是,它的2个基座模型XGen-7B-4K-Base和XGen-7B-8K-Base都是完全开源可商用的大模型。

XGen 7B模型简介
尽管当前已经有很多开源的大语言模型,但是大多数模型的上下文输入的长度都不超过2k,这对于文本摘要、代码补全等任务来说都是不够的。更长的模型意味着更低的训练效率和更长的推理时间。
而最近的研究也表明,在预算有限的情况下,基于较小的模型在更多的数据上训练其实是一个非常有效的方法。为此Salesforce选择训练70以参数规模的模型,并最终训练出XGen 7B系列大模型。
相比其他的开源大语言模型,XGen 7B系列最大的优点是在最多超过1.5万亿的tokens上做了训练,并最高支持8K的上下文输入,在Google云上用TPU-v4训练1万亿tokens的模型仅需要1.5万美元。这意味这单个XGen 7B模型的训练成本也就在2万美元多一点。而这个模型的效果确实开源领域同等规模模型中最好的之一。

