GPT-J 6B

Name: GPT-J 6B
Availability: InStock
Author: EleutherAI

基础大模型

GPT-J 6B

Release date: 2021-06-04更新于: 2025-07-02 21:47:09708

Live demoGitHub Hugging Face Compare

Parameters

60.0亿

Context length

Chinese support

Not supported

Reasoning ability

GPT-J 6B is an AI model published by EleutherAI, released on 2021-06-04, for 基础大模型, with 60.0B parameters, and 2K tokens context length, requiring about 24.2GB storage, under the Apache 2.0 license.

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

GPT-J 6B

Model basics

Reasoning traces

Not supported

Thinking modes

Thinking modes not supported

Context length

2K tokens

Max output length

No data

Model type

基础大模型

Release date

2021-06-04

Model file size

24.2GB

MoE architecture

Yes

Total params / Active params

60.0B / No data

Knowledge cutoff

No data

GPT-J 6B

Open source & experience

Code license

Apache 2.0

Weights license

Apache 2.0- 免费商用授权

GitHub repo

https://github.com/kingoflolz/mesh-transformer-jax/#gpt-j-6b

Hugging Face

https://huggingface.co/EleutherAI/gpt-j-6b

Live demo

No live demo

GPT-J 6B

Official resources

Paper

No paper available

DataLearnerAI blog

No blog post yet

GPT-J 6B

API details

API speed

No data

No public API pricing yet.

GPT-J 6B

Benchmark Results

No benchmark data to show.

GPT-J 6B

Publisher

EleutherAI

View publisher details

GPT-J 6B

Model Overview

GPT-J 6B仅支持英文。

GPT-J 6B是一个由EleutherAI研究小组创建的开源自回归语言模型。它是OpenAI的GPT-3的最先进替代品之一，在各种自然语言任务（如聊天、摘要和问答等）方面表现良好。"GPT-J"指的是模型类别，而"6B"表示可训练参数的数量为60亿。

GPT-J 6B是一个transformer结构的模型，使用了Ben Wang的Mesh Transformer JAX训练。

GPT-J 6B模型的具体信息如下：

超参数项	参数值
参数数量（n_parameters）	6053381344
层数（n_layers）	28
模型维度（d_model）	4096
前馈网络维度（d_ff，feedforward dimension）	16384
heads数量（n_heads）	16
head维度（d_head）	256
nctx	2048
词汇数量（n_vocab）	50257（）
位置编码（Positional Encoding）	Rotary Position Embedding（RoPE）
RoPE维度（RoPE Dimensions）	64

注意：GPT-J 6B模型使用了一个包含50257个单词的分词词汇表进行训练，使用与GPT-2/GPT-3相同的BPE集合。不过，虽然矩阵大小50400，但是GPT-3的tokenizer只使用了500257条记录。

GPT-J 6B模型由28层组成，模型维度为4096，前馈维度为16384。模型维度被分成16个头，每个头的维度为256。旋转位置嵌入（RoPE）应用于每个头的64个维度。该模型使用了一个包含50257个单词的分词词汇表进行训练，使用与GPT-2/GPT-3相同的BPE集合。

GPT-J 6B的训练数据是Pile（Pile介绍： https://www.datalearner.com/ai-dataset/pile ）

训练过程
该模型在 TPU v3-256 pod 上进行了383,500步的训练，训练了4020亿个令牌。它作为自回归语言模型进行训练，使用交叉熵损失来最大化预测下一个令牌的正确性的可能性。

预期用途和限制
GPT-J 学习了英语语言的内部表示，可用于提取下游任务中有用的特征。但是，该模型最擅长的是预训练生成提示文本，这也是它的预训练目标。

使用方式

可以使用 AutoModelForCausalLM 功能轻松加载此模型：

from transformers import AutoTokenizer, AutoModelForCausalLMtokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-j-6B")model = AutoModelForCausalLM.from_pretrained("EleutherAI/gpt-j-6B")

其中，tokenizer 负责将输入的文本转换为模型可以理解的输入，而 model 则负责进行文本生成。

Foundation model

GPT-J

View details

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

超参数项

参数值

参数数量（n_parameters）

6053381344

层数（n_layers）

模型维度（d_model）

4096

前馈网络维度（d_ff，feedforward dimension）

16384

heads数量（n_heads）

head维度（d_head）

256

nctx

2048

词汇数量（n_vocab）

50257（）

位置编码（Positional Encoding）

Rotary Position Embedding（RoPE）

RoPE维度（RoPE Dimensions）