GPT-3 - Generative Pre-trained Transformer 3

模型详细情况和参数

GPT-3

模型全称
Generative Pre-trained Transformer 3
模型简称
GPT-3
模型类型
基础大模型
发布日期
2020-05-28
预训练文件大小
未知
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
1750
代码是否开源
不开源
预训练结果是否开源
不开源
预训练结果商用授权情况
不开源
模型GitHub链接
暂无
模型HuggingFace链接
暂无
发布论文名(官方博客名)
Language Models are Few-Shot Learners
论文地址(官方博客地址)
https://arxiv.org/abs/2005.14165
基础模型
发布机构

Generative Pre-trained Transformer 3 简介

GPT-3是OpenAI发布的迄今为止最强大的大语言预训练模型之一。GPT-3是OpenAI的第三代自回归语言模型。相比较GPT-2,GPT-3模型参数大了2个量级,达到了1750个参数。

由于GPT-3太过强大,OpenAI认为可能会出现利用这个模型实施各种“不好”的事情行为。因此他们并没有公开这个模型,这也与他们建立之初作为一个非盈利的开放AI研究机构相违背。起初,这种行为遭到了大量的批评。但是,现在发现这个模型的确可能会导致很多坏事情,而且各大企业也都不再开放这种模型,因此,批评声音逐渐减弱了。

GPT-3模型的训练来自大量的互联网无标注数据。根据维基百科的介绍,其权重占比如下:


数据集token数量训练mix的权重
Common Crawl4100亿60%
WebText2190亿22%
Books1120亿8%
Books2550亿8%
Wikipedia30亿3%


由于GPT-3的训练数据包罗万象,它不需要进一步训练不同的语言任务。

GPT-3模型本身可以做很多事情,OpenAI也基于这个模型在不同领域做了微调,产生了很多领域内的应用,包括代码生成、图像生成等。

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

GPT-3所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

GPT-3相关的任务