截至目前最强的70亿参数大语言模型:开源可商用的RedPajam 7B完全版发布!
RedPajama模型是TOGETHER发布的一个开源可商用的大模型。2023年6月6日,TOGETHER在官方宣布该模型完成训练,经过测试,该模型目前超过所有7B规模的大模型,比LLaMA-7B和Falcon-7B的效果还要好!

TOGETHER公司是一家由豪华管理团队组成的创业公司,由苹果公司前高管、斯坦福大学教授等一起创办。其目标是提供大型生成式模型的基础设施。
RedPajama是一个开源大模型项目,有TOGETHER联合多家公司发起。目前包括一个开源的数据集,有1.2万亿tokens,严格按照LLaMA模型论文中的方法收集。另外,还包括2个开源大模型,一个是RedPajama 3B,于5月5日宣布训练结束,可以在RTX 2070上使用。另一个模型就是本文提到的RedPajama 7B,在昨天宣布完成训练,效果超越目前所有同等规模的模型。
RedPajama 3B模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/RedPajama-INCITE-3B
一、RedPajama数据集简介
4月17日,TOGETHER发布了RedPajama项目,被大众所熟知。该项目希望建立一个开源的大语言模型,其第一步是重现LLaMA论文中提到的高质量预训练数据集。他们认为,高质量的大规模预训练数据集是大模型训练必要条件。而MetaAI开源的LLaMA模型可以理解为开源最强大模型。但是,他们仅仅开源了预训练结果,且不允许商用。而RedPajama则根据MetaAI的论文自己收集了这样的一个数据集。
因此,他们开源了1.2万亿tokens的RedPajama数据集。这是一个5TB大小的数据集,按照LLaMA论文描述的内容收集。目前已经被下载了几千次,而且用于超过100个模型的训练。
二、RedPajama 7B模型简介
4月23日,也就是RedPajama数据集发布1周后,TOGETHER宣布他们基于这个1.2万亿tokens的数据集正在训练一个叫RedPajama-7B模型,完成了40%的训练,但是效果已经超越Pythia-7B。这证明了大规模高质量预训练数据集的价值。


