自然语言处理中常见的字节编码对(Byte-Pair Encoding,BPE)简介
字节对编码(Byte Pair Encoder,BPE),又叫digram coding,是一种在自然语言处理领域经常使用的数据压缩算法。在GPT系列模型中都有用到。主要是将数据中最常连续出现的字节(bytes)替换成数据中没有出现的字节的方法。该算法首先由Philip Gage在1994年提出。在这篇博客中我们将简单介绍一下这个方法。
基于子词的标记化
标记化(tokenizer)是将自然语言转变成标记的过程,它将文本转换为模型可以处理的数据。模型只能处理数字,因此标记化(Tokenizer)需要将我们的文本输入转换为数字数据。
