GPT-NeoX

GPT-NeoX 预训练模型详情

模型全称

GPT-NeoX

发布组织

发布日期

2022-04-00

预训练文件大小

268G

模型参数数量(亿)

200

发布论文

GPT-NeoX-20B: An Open-Source Autoregressive Language Model

GPT-NeoX 简介

我们介绍GPT-NeoX-20B,这是一个在Pile上训练的200亿个参数的自回归语言模型,其权重将通过允许性许可向公众免费开放。据我们所知,这是在提交时拥有公开权重的最大的密集自回归模型。在这项工作中,我们描述了model{}的架构和训练,并评估了它在一系列语言理解、数学和基于知识的任务上的表现。我们发现,GPT-NeoX-20B是一个特别强大的几枪推理器,在评估五枪时,其性能的提升远远超过了类似规模的GPT-3和FairSeq模型。我们将训练和评估代码以及模型权重开源到这个https URL。 这个资源库记录了EleutherAI在GPU上训练大规模语言模型的工作进展。我们目前的框架是基于英伟达的Megatron语言模型,并通过DeepSpeed的技术以及一些新的优化进行了增强。 我们的目标是使这个 repo 成为一个集中的、可访问的地方,以收集训练大规模自回归语言模型的技术,并加速对大规模训练的研究。此外,我们希望在此过程中训练并开源一个175B参数的GPT-3复制。然而,请注意,这是一个研究性的代码库,主要是为性能而非易用性而设计。我们努力使它在可行的情况下易于使用,但如果在readme中有任何不清楚的地方,或者你认为你发现了一个bug,请开一个问题。 如果你对贡献感兴趣,请加入我们的Discord,并前往#gpt-neox频道。我们正在与云计算供应商CoreWeave合作进行训练,并希望在我们进展到175B参数时发布较小模型的权重。 对于那些寻找以TPU为中心的代码库的人,我们推荐Mesh Transformer JAX。

GPT-NeoX所属的领域
GPT-NeoX相关的任务