标签:大模型训练,RedPajama-V2,数据集,语言模型 时间:2023-10-31T20:24:17
随着大模型训练的不断发展,数据集的规模和质量成为了制约模型性能的关键因素。最近,我们发布了一个全新的版本的RedPajama数据集,这是一个包含30万亿个过滤和去重标记的数据集,覆盖了5种语言,并提供了40多个预计算的数据质量注释,可用于进一步的过滤和权重分配。
RedPajama-V2数据集是一个包含30万亿个过滤和去重标记的数据集,覆盖了5种语言,包括英语、法语、西班牙语、德语和意大利语。这个数据集是从84个CommonCrawl数据转储中获取的,这是我们目前所知道的,专为LLM(大语言模型)训练发布的最大的公开数据集。
更令人兴奋的是,我们还包含了40多个预计算的质量注释,允许社区进一步过滤和权重数据。具体来说,这个版本包括:
所有的数据处理脚本都是开源的,可以在GitHub上找到,所有的数据都可以在HuggingFace上获取。
像Llama、Mistral、Falcon、MPT和RedPajama这样的最先进的开源LLM都依赖于大量的高质量数据进行训练。例如,Llama 2就是在2.4万亿个精心策划的标记上进行训练的。最突出的数据源是CommonCrawl公开提供的数据转储。然而,这些数据是粗糙的,不适合直接用于LLM训练,因为在将HTML转换为纯文本的过程中会产生一些人为的错误,源数据的质量普遍较低,而且网页内容的分布也存在偏见。获取合适的数据集和数据混合是一项痛苦的工作,任何LLM开发者都必须经历处理和过滤这些粗糙数据的繁琐、耗时、耗能和昂贵的步骤。
RedPajama-V2数据集的目标是为社区减轻这个负担,提供一个网络数据池,作为提取高质量LLM训练数据集的基础,也是进行LLM训练数据深入研究的基础。它提供了我们所知道的最完整的CommonCrawl覆盖(处理了84个数据转储)。更重要的是,我们提供了40多个质量注释——这是不同机器学习分类器对数据质量的结果,可以用于模糊去重,或者使用一些启发式方法,如“不包含字母字符的单词的比例”。
RedPajama-V2主要关注CommonCrawl。其他数据源,如维基百科,可以在RedPajama-V1中找到。我们也鼓励你使用Stack(由BigScience提供)来丰富你的代码数据,以及s2orc(由AI2提供)来丰富你的科学文章数据。RedPajama-V2是从公开可用的网络数据构建的,包括CommonCrawl提供的84个数据转储。这个数据集的核心组成部分是源数据(纯文本)、40多个质量注释和去重集群。
RedPajama-v2处理了84个CommonCrawl数据转储,包含了1130亿份五种语言(英语、德语、法语、西班牙语和意大利语)的文档。我们保留了结果数据的尾部分区,包含了大约800亿份文档,我们也计算了头部和中部分区(去重前和去重后)的文档数量和标记数量。有趣的是,尽管这减少了标记数量的60%,但文档数量却减少了更多的71%,表明尾部文档通常较短。
我们使用布隆过滤器进一步对头部+中部文档进行去重,这导致数据集大小大约减少了40%。
RedPajama-V2数据集的发布,为大模型训练提供了更大规模、更高质量的数据,这将有助于推动大模型训练的进一步发展。我们期待社区的反馈,也期待继续丰富我们当前的注释池。
为什么大语言模型的训练和推理要求比较高的精度,如FP32、FP16?浮点运算的精度概念详解
突破英特尔CPU+英伟达GPU的大模型训练硬件组合:苹果与AMD都有新进展!
SlimPajama:CerebrasAI开源最新可商用的高质量大语言模型训练数据集,含6270亿个tokens!
实际案例说明AI时代大语言模型三种微调技术的区别——Prompt-Tuning、Instruction-Tuning和Chain-of-Thought
Google发布迄今为止公开可用的最大的多语言网络数据集MADLAD-400,覆盖419种语言
MetaAI开源高质量高精度标注的图像数据集FACET:3.2万张图片、5万个主题,平均图像解析度达到1500×2000
AI2发布全新的大语言模型预训练数据集:包含3万亿tokens的大规模文本数据集AI2 Dolma,开源免费商用数据集~
Saleforce发布最新的开源语言-视觉处理深度学习库LAVIS
重磅数据集公布!LAION-400-Million Open Dataset免费的4亿条图像-文本对数据( LAION-400M:English (image, text) pairs)
重磅数据集分享:大规模多模态语料库之悟道数据集(WuDaoCorpora 2.0)
OpenAI第二代DALL·E发布,可以使用自然语言创造和编辑图片的模型
Google最新超大模型Pathways:一个会讲笑话的6400亿参数的语言模型
大型语言模型的新扩展规律(DeepMind新论文)——Training Compute-Optimal Large Language Models
如何产生一个好的词向量?【How to Generate a Good Word Embedding】
词嵌入(词向量/词表示)模型简介
Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
回归模型中的交互项简介(Interactions in Regression)
贝塔分布(Beta Distribution)简介及其应用
矩母函数简介(Moment-generating function)
普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
使用R语言进行K-means聚类并分析结果
深度学习技巧之Early Stopping(早停法)
H5文件简介和使用
手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署
Wishart分布简介