大模型训练的新里程碑：RedPajama-V2数据集的发布

<h1 id="h1--redpajama-v2-"><a name="大模型训练的新里程碑：RedPajama-V2数据集的发布" class="reference-link"></a><span class="header-link octicon octicon-link"></span>大模型训练的新里程碑：RedPajama-V2数据集的发布</h1><h2 id="h2-u7B80u4ECB"><a name="简介" class="reference-link"></a><span class="header-link octicon octicon-link"></span>简介</h2><p>随着大模型训练的不断发展，数据集的规模和质量成为了制约模型性能的关键因素。最近，我们发布了一个全新的版本的RedPajama数据集，这是一个包含30万亿个过滤和去重标记的数据集，覆盖了5种语言，并提供了40多个预计算的数据质量注释，可用于进一步的过滤和权重分配。</p>
<h2 id="h2-redpajama-v2-"><a name="RedPajama-V2数据集" class="reference-link"></a><span class="header-link octicon octicon-link"></span>RedPajama-V2数据集</h2><p>RedPajama-V2数据集是一个包含30万亿个过滤和去重标记的数据集，覆盖了5种语言，包括英语、法语、西班牙语、德语和意大利语。这个数据集是从84个CommonCrawl数据转储中获取的，这是我们目前所知道的，专为LLM（大语言模型）训练发布的最大的公开数据集。</p>
<p>更令人兴奋的是，我们还包含了40多个预计算的质量注释，允许社区进一步过滤和权重数据。具体来说，这个版本包括：</p>
<ul>
<li>从84个CommonCrawl数据转储中获取的超过1000亿个文本文档，包含了100多万亿原始标记；</li><li>针对去重后的30万亿标记子集预计算的40多个最常用的质量注释；</li><li>五种语言：英语、法语、西班牙语、德语和意大利语。</li></ul>
<p>所有的数据处理脚本都是开源的，可以在GitHub上找到，所有的数据都可以在HuggingFace上获取。</p>
<h2 id="h2--redpajama-v2-"><a name="为什么选择RedPajama-V2数据集，以及如何使用它？" class="reference-link"></a><span class="header-link octicon octicon-link"></span>为什么选择RedPajama-V2数据集，以及如何使用它？</h2><p>像Llama、Mistral、Falcon、MPT和RedPajama这样的最先进的开源LLM都依赖于大量的高质量数据进行训练。例如，Llama 2就是在2.4万亿个精心策划的标记上进行训练的。最突出的数据源是CommonCrawl公开提供的数据转储。然而，这些数据是粗糙的，不适合直接用于LLM训练，因为在将HTML转换为纯文本的过程中会产生一些人为的错误，源数据的质量普遍较低，而且网页内容的分布也存在偏见。获取合适的数据集和数据混合是一项痛苦的工作，任何LLM开发者都必须经历处理和过滤这些粗糙数据的繁琐、耗时、耗能和昂贵的步骤。</p>
<p>RedPajama-V2数据集的目标是为社区减轻这个负担，提供一个网络数据池，作为提取高质量LLM训练数据集的基础，也是进行LLM训练数据深入研究的基础。它提供了我们所知道的最完整的CommonCrawl覆盖（处理了84个数据转储）。更重要的是，我们提供了40多个质量注释——这是不同机器学习分类器对数据质量的结果，可以用于模糊去重，或者使用一些启发式方法，如“不包含字母字符的单词的比例”。</p>
<h2 id="h2-u6570u636Eu5904u7406u6B65u9AA4"><a name="数据处理步骤" class="reference-link"></a><span class="header-link octicon octicon-link"></span>数据处理步骤</h2><p>RedPajama-V2主要关注CommonCrawl。其他数据源，如维基百科，可以在RedPajama-V1中找到。我们也鼓励你使用Stack（由BigScience提供）来丰富你的代码数据，以及s2orc（由AI2提供）来丰富你的科学文章数据。RedPajama-V2是从公开可用的网络数据构建的，包括CommonCrawl提供的84个数据转储。这个数据集的核心组成部分是源数据（纯文本）、40多个质量注释和去重集群。</p>
<h2 id="h2-u6570u636Eu96C6u7EDFu8BA1"><a name="数据集统计" class="reference-link"></a><span class="header-link octicon octicon-link"></span>数据集统计</h2><p>RedPajama-v2处理了84个CommonCrawl数据转储，包含了1130亿份五种语言（英语、德语、法语、西班牙语和意大利语）的文档。我们保留了结果数据的尾部分区，包含了大约800亿份文档，我们也计算了头部和中部分区（去重前和去重后）的文档数量和标记数量。有趣的是，尽管这减少了标记数量的60%，但文档数量却减少了更多的71%，表明尾部文档通常较短。</p>
<table>
<thead>
<tr>
<th>分区</th>
<th>文档数量</th>
<th>估计的标记数量</th>
</tr>
</thead>
<tbody>
<tr>
<td>头部 + 中部 + 尾部</td>
<td>113.3B</td>
<td>123.7T</td>
</tr>
<tr>
<td>头部 + 中部</td>
<td>32.8B</td>
<td>50.7T</td>
</tr>
<tr>
<td>头部 + 中部（去重后）</td>
<td>20.8B</td>
<td>30.4T</td>
</tr>
</tbody>
</table>
<p>我们使用布隆过滤器进一步对头部+中部文档进行去重，这导致数据集大小大约减少了40%。</p>
<h2 id="h2-u7ED3u8BBA"><a name="结论" class="reference-link"></a><span class="header-link octicon octicon-link"></span>结论</h2><p>RedPajama-V2数据集的发布，为大模型训练提供了更大规模、更高质量的数据，这将有助于推动大模型训练的进一步发展。我们期待社区的反馈，也期待继续丰富我们当前的注释池。</p>

大模型训练的新里程碑：RedPajama-V2数据集的发布

欢迎大家关注DataLearner官方微信，接受最新的AI技术推送

相关博客

最热博客