GP

GPT-J 6B

基础大模型

GPT-J 6B

发布时间: 2021-06-04

模型参数(Parameters)
60.0
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

2K tokens

最长输出结果
暂无数据
模型类型

基础大模型

发布时间

2021-06-04

模型预文件大小

24.2GB

开源和体验地址

代码开源状态
预训练权重开源
Apache 2.0 - 免费商用授权
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
暂无官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

GPT-J 6B模型在各大评测榜单的评分

发布机构

模型介绍

GPT-J 6B仅支持英文。


GPT-J 6B是一个由EleutherAI研究小组创建的开源自回归语言模型。它是OpenAI的GPT-3的最先进替代品之一,在各种自然语言任务(如聊天、摘要和问答等)方面表现良好。"GPT-J"指的是模型类别,而"6B"表示可训练参数的数量为60亿。


GPT-J 6B是一个transformer结构的模型,使用了Ben Wang的Mesh Transformer JAX训练。


GPT-J 6B模型的具体信息如下:

超参数项参数值
参数数量(nparameters6053381344
层数(nlayers28
模型维度(dmodel4096
前馈网络维度(dff,feedforward dimension16384
heads数量(nheads16
head维度(dhead256
nctx2048
词汇数量(nvocab50257()
位置编码(Positional Encoding)Rotary Position Embedding(RoPE)
RoPE维度(RoPE Dimensions)64

注意:GPT-J 6B模型使用了一个包含50257个单词的分词词汇表进行训练,使用与GPT-2/GPT-3相同的BPE集合。不过,虽然矩阵大小50400,但是GPT-3的tokenizer只使用了500257条记录。


GPT-J 6B模型由28层组成,模型维度为4096,前馈维度为16384。模型维度被分成16个头,每个头的维度为256。旋转位置嵌入(RoPE)应用于每个头的64个维度。该模型使用了一个包含50257个单词的分词词汇表进行训练,使用与GPT-2/GPT-3相同的BPE集合。


GPT-J 6B的训练数据是Pile(Pile介绍: https://www.datalearner.com/ai-dataset/pile 



训练过程
该模型在 TPU v3-256 pod 上进行了383,500步的训练,训练了4020亿个令牌。它作为自回归语言模型进行训练,使用交叉熵损失来最大化预测下一个令牌的正确性的可能性。


预期用途和限制
GPT-J 学习了英语语言的内部表示,可用于提取下游任务中有用的特征。但是,该模型最擅长的是预训练生成提示文本,这也是它的预训练目标。


使用方式

可以使用 AutoModelForCausalLM 功能轻松加载此模型:



from transformers import AutoTokenizer, AutoModelForCausalLMtokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-j-6B")model = AutoModelForCausalLM.from_pretrained("EleutherAI/gpt-j-6B")

其中,tokenizer 负责将输入的文本转换为模型可以理解的输入,而 model 则负责进行文本生成。


Foundation Model

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat