返回大模型技术资讯

大模型训练的新里程碑:RedPajama-V2数据集的发布

2023-10-31大模型训练RedPajama-V2数据集语言模型

简介

随着大模型训练的不断发展,数据集的规模和质量成为了制约模型性能的关键因素。最近,我们发布了一个全新的版本的RedPajama数据集,这是一个包含30万亿个过滤和去重标记的数据集,覆盖了5种语言,并提供了40多个预计算的数据质量注释,可用于进一步的过滤和权重分配。

RedPajama-V2数据集

RedPajama-V2数据集是一个包含30万亿个过滤和去重标记的数据集,覆盖了5种语言,包括英语、法语、西班牙语、德语和意大利语。这个数据集是从84个CommonCrawl数据转储中获取的,这是我们目前所知道的,专为LLM(大语言模型)训练发布的最大的公开数据集。

更令人兴奋的是,我们还包含了40多个预计算的质量注释,允许社区进一步过滤和权重数据。具体来说,这个版本包括:

  • 从84个CommonCrawl数据转储中获取的超过1000亿个文本文档,包含了100多万亿原始标记;
  • 针对去重后的30万亿标记子集预计算的40多个最常用的质量注释;
  • 五种语言:英语、法语、西班牙语、德语和意大利语。

所有的数据处理脚本都是开源的,可以在GitHub上找到,所有的数据都可以在HuggingFace上获取。

为什么选择RedPajama-V2数据集,以及如何使用它?

像Llama、Mistral、Falcon、MPT和RedPajama这样的最先进的开源LLM都依赖于大量的高质量数据进行训练。例如,Llama 2就是在2.4万亿个精心策划的标记上进行训练的。最突出的数据源是CommonCrawl公开提供的数据转储。然而,这些数据是粗糙的,不适合直接用于LLM训练,因为在将HTML转换为纯文本的过程中会产生一些人为的错误,源数据的质量普遍较低,而且网页内容的分布也存在偏见。获取合适的数据集和数据混合是一项痛苦的工作,任何LLM开发者都必须经历处理和过滤这些粗糙数据的繁琐、耗时、耗能和昂贵的步骤。

RedPajama-V2数据集的目标是为社区减轻这个负担,提供一个网络数据池,作为提取高质量LLM训练数据集的基础,也是进行LLM训练数据深入研究的基础。它提供了我们所知道的最完整的CommonCrawl覆盖(处理了84个数据转储)。更重要的是,我们提供了40多个质量注释——这是不同机器学习分类器对数据质量的结果,可以用于模糊去重,或者使用一些启发式方法,如“不包含字母字符的单词的比例”。

数据处理步骤

RedPajama-V2主要关注CommonCrawl。其他数据源,如维基百科,可以在RedPajama-V1中找到。我们也鼓励你使用Stack(由BigScience提供)来丰富你的代码数据,以及s2orc(由AI2提供)来丰富你的科学文章数据。RedPajama-V2是从公开可用的网络数据构建的,包括CommonCrawl提供的84个数据转储。这个数据集的核心组成部分是源数据(纯文本)、40多个质量注释和去重集群。

数据集统计

RedPajama-v2处理了84个CommonCrawl数据转储,包含了1130亿份五种语言(英语、德语、法语、西班牙语和意大利语)的文档。我们保留了结果数据的尾部分区,包含了大约800亿份文档,我们也计算了头部和中部分区(去重前和去重后)的文档数量和标记数量。有趣的是,尽管这减少了标记数量的60%,但文档数量却减少了更多的71%,表明尾部文档通常较短。

分区 文档数量 估计的标记数量
头部 + 中部 + 尾部 113.3B 123.7T
头部 + 中部 32.8B 50.7T
头部 + 中部(去重后) 20.8B 30.4T

我们使用布隆过滤器进一步对头部+中部文档进行去重,这导致数据集大小大约减少了40%。

结论

RedPajama-V2数据集的发布,为大模型训练提供了更大规模、更高质量的数据,这将有助于推动大模型训练的进一步发展。我们期待社区的反馈,也期待继续丰富我们当前的注释池。

大模型训练的新里程碑:RedPajama-V2数据集的发布 | DataLearnerAI