GPT-J-6B

GPT-J 6B基本信息

模型发布时间: 2021-06-04

模型发布机构: EleutherAI

模型所属类型: 自然语言处理

模型官方地址:

GPT-J 6B大模型详细介绍

GPT-J 6B是一个由EleutherAI研究小组创建的开源自回归语言模型。它是OpenAI的GPT-3的最先进替代品之一,在各种自然语言任务(如聊天、摘要和问答等)方面表现良好。"GPT-J"指的是模型类别,而"6B"表示可训练参数的数量为60亿。


GPT-J 6B是一个transformer结构的模型,使用了Ben Wang的Mesh Transformer JAX训练。


GPT-J 6B模型的具体信息如下:

超参数项参数值
参数数量(nparameters6053381344
层数(nlayers28
模型维度(dmodel4096
前馈网络维度(dff,feedforward dimension16384
heads数量(nheads16
head维度(dhead256
nctx2048
词汇数量(nvocab50257()
位置编码(Positional Encoding)Rotary Position Embedding(RoPE)
RoPE维度(RoPE Dimensions)64


欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
datalearner-wechat
基于GPT-J 6B微调的模型列表