截至目前最强的70亿参数大语言模型：开源可商用的RedPajam 7B完全版发布！

RedPajama模型是TOGETHER发布的一个开源可商用的大模型。2023年6月6日，TOGETHER在官方宣布该模型完成训练，经过测试，该模型目前超过所有7B规模的大模型，比LLaMA-7B和Falcon-7B的效果还要好！

TOGETHER公司是一家由豪华管理团队组成的创业公司，由苹果公司前高管、斯坦福大学教授等一起创办。其目标是提供大型生成式模型的基础设施。

RedPajama是一个开源大模型项目，有TOGETHER联合多家公司发起。目前包括一个开源的数据集，有1.2万亿tokens，严格按照LLaMA模型论文中的方法收集。另外，还包括2个开源大模型，一个是RedPajama 3B，于5月5日宣布训练结束，可以在RTX 2070上使用。另一个模型就是本文提到的RedPajama 7B，在昨天宣布完成训练，效果超越目前所有同等规模的模型。

RedPajama 3B模型信息卡：https://www.datalearner.com/ai-models/pretrained-models/RedPajama-INCITE-3B

一、RedPajama数据集简介

4月17日，TOGETHER发布了RedPajama项目，被大众所熟知。该项目希望建立一个开源的大语言模型，其第一步是重现LLaMA论文中提到的高质量预训练数据集。他们认为，高质量的大规模预训练数据集是大模型训练必要条件。而MetaAI开源的LLaMA模型可以理解为开源最强大模型。但是，他们仅仅开源了预训练结果，且不允许商用。而RedPajama则根据MetaAI的论文自己收集了这样的一个数据集。

因此，他们开源了1.2万亿tokens的RedPajama数据集。这是一个5TB大小的数据集，按照LLaMA论文描述的内容收集。目前已经被下载了几千次，而且用于超过100个模型的训练。

二、RedPajama 7B模型简介

4月23日，也就是RedPajama数据集发布1周后，TOGETHER宣布他们基于这个1.2万亿tokens的数据集正在训练一个叫RedPajama-7B模型，完成了40%的训练，但是效果已经超越Pythia-7B。这证明了大规模高质量预训练数据集的价值。

5月5日，RedPajama-7B模型的训练过程进行到80%，但是效果出乎意料，因此TOGETHER发布了0.1版本的RedPajama 7B，包含3个版本：基础大模型、基于chat微调的以及基于指令微调的。

| RedPajama-7B v0.1版本 | 预训练下载链接 | | ------------ | ------------ | ------------ | | RedPajama-INCITE-Base-7B-v0.1 | https://huggingface.co/togethercomputer/RedPajama-INCITE-Base-7B-v0.1 | | RedPajama-INCITE-Chat-7B-v0.1 | https://huggingface.co/togethercomputer/RedPajama-INCITE-Chat-7B-v0.1 | | RedPajama-INCITE-Instruct-7B-v0.1 | https://huggingface.co/togethercomputer/RedPajama-INCITE-Instruct-7B-v0.1 |

这里的Base模型是基础大语言模型，采用Pythia模型一样的架构，但是基于RedPajama数据集训练，而Chat则是基于Base模型训练进行指令微调的结果（基于Dolly2和OASST微调），Chat版本模型已经可以在OpenChatKit使用。Instruct则是基于Base模型针对few-shot prompts微调的结果。在很多NLP任务中微调（来自P3和Natural Instruction）。

今天，TOGETHER宣布RedPajama 7B完成所有训练。完整版本的3个RedPajama模型全部开源：

| RedPajama-7B v1.0版本 | 预训练下载链接 | | ------------ | ------------ | ------------ | | RedPajama-INCITE-7B-Base | https://huggingface.co/togethercomputer/RedPajama-INCITE-7B-Base | | RedPajama-INCITE-Chat-7B | https://huggingface.co/togethercomputer/RedPajama-INCITE-7B-Chat | | RedPajama-INCITE-Instruct-7B | https://huggingface.co/togethercomputer/RedPajama-INCITE-7B-Instruct |

上述模型均使用Apache2.0开源协议，完全开源可商用！

三、RedPajama 7B模型的效果

TOGETHER在HELM任务上做了评估。使用的是RedPajama-INCITE-Instruct-7B，从结果看，HELM平均得分上，RedPajama 7B Instruct0.492，超过LLaMA 7B的0.472和前段时间最强开源模型Falcon 7B的0.407。

RedPajama第二代模型即将登场

除了上述RedPajama 7B模型的开源外，官方还宣布了RedPajama V2版本的消息。RedPajama 2将在2-3万亿tokens数据集上训练。主要有以下规划：

准备基于DoReMi这样的技术自动学习不同数据的混合。
引入Pile v1（来自Eleuther.ai）和Pile v2（CrperAI）等数据集，提高训练数据多样性
处理更多的CommonCrawl数据集
使用更好的数据去重复策略
引入至少1500亿tokens的代码数据集。

而根据官方的描述RedPajama 2将继续开源！

RedPajama背后的INCITE超级计算机资助

RedPajama项目背后离不开美国国家科学基金会的一个INCITE项目，它通过资助申请者的DOE超级计算机使用时间来降低大家对超大规模计算资源的使用门槛。RedPajama总共使用了3072个V100的GPU进行训练。

可以看到，超级计算机的项目资助对于促进这样的大模型训练来说很重要。目前不知道国内是否有这样的资源可以供大家申请使用。如果有，这也许也会推动国内大模型的发展！

一、RedPajama数据集简介

二、RedPajama 7B模型简介

三、RedPajama 7B模型的效果

RedPajama第二代模型即将登场

RedPajama背后的INCITE超级计算机资助

DataLearner WeChat