CC-Stories

CC-Stories(又称STORIES),最早是由谷歌研究人员在论文A Simple Method for Commonsense Reasoning中发布。这篇论文主要的目标是解决常识推理问题(Commonsense Reasoning)。作者根据之前论文的做法(在评估阶段观察问题,然后从knowledge bases收集相关数据),在Commonsense Reasoning Tasks中构建了一个个性化的文本语料库,即STORIES。

该数据集是谷歌自己构建的一个个性化数据集,并没有公布。但是论文中描述了数据集的收集方式:从CommonCrawl数据集中聚合文档,选择的条件是与Commonsense Reasoning Tasks中问题重复n-grams的结果。每个文档在计算重合的n-grams时候都采用加权求和的方式进行。最终,选择前0.1%的结果作为数据集,形成STORIES。将这个数据集命名为 "STORIES"的原因是大多数的组成文件都是以故事的形式出现的,有一长串连贯的事件。STORIES现在习惯性被叫成CC-Stories(CC就是CommonCrawl)的意思。

CC-Stories最终产生了月100万个文档,最高的得分月0.08,相比较理论最高1.0的得分依然是比较低的。

尽管原始的CC-Stories数据集不再提供,但是也有人基于这个筛选规则,开源了一个CC-Stories的数据集,下载地址: https://huggingface.co/datasets/spacemanidol/cc-stories 

发布者:Google

发布时间:

官方网址:https://paperswithcode.com/dataset/cc-stories

数据记录总数:2105303

数据集大小:855MB

CC-Stories
CC-Stories所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

CC-Stories相关的任务
常识推理

常识推理

Commonsense Reasoning

35个资源