BookCorpus

BookCorpus是由多伦多大学的Yukun Zhu等人在2015年提出的一个关于书籍的数据集。该数据集主要是由尚未出版的作者写的免费书籍。该数据集的主要统计结果如下:


统计项统计项(英文)统计结果
书籍数量# of books11038
语句数量# of sentences74004228
单词数量# of words984846357
独立单词数(词汇)# of unique words1316420
平均每个语句的单词数量mean # of words per sentence13
每个语句的单词中位数median # of words per sentence11


作者收集的书籍中的每一本书都至少包含2万个单词,防止过短的内容产生噪音影响。BookCorpus被大量用来训练自然语言模型的embedding结果。

该数据集首次在论文Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books中提出(arXiv地址: https://arxiv.org/abs/1506.06724 )

发布者:多伦多大学

发布时间:

官方网址:https://huggingface.co/datasets/bookcorpus

数据记录总数:11038

数据集大小:5.8GB

BookCorpus
BookCorpus所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

BookCorpus相关的任务
-1

-1

35个资源