CC-Stories数据集及其基准测试结果

CC-Stories

CC-Stories（又称STORIES），最早是由谷歌研究人员在论文A Simple Method for Commonsense Reasoning中发布。这篇论文主要的目标是解决常识推理问题（Commonsense Reasoning）。作者根据之前论文的做法（在评估阶段观察问题，然后从knowledge bases收集相关数据），在Commonsense Reasoning Tasks中构建了一个个性化的文本语料库，即STORIES。

该数据集是谷歌自己构建的一个个性化数据集，并没有公布。但是论文中描述了数据集的收集方式：从CommonCrawl数据集中聚合文档，选择的条件是与Commonsense Reasoning Tasks中问题重复n-grams的结果。每个文档在计算重合的n-grams时候都采用加权求和的方式进行。最终，选择前0.1%的结果作为数据集，形成STORIES。将这个数据集命名为 "STORIES"的原因是大多数的组成文件都是以故事的形式出现的，有一长串连贯的事件。STORIES现在习惯性被叫成CC-Stories（CC就是CommonCrawl）的意思。

CC-Stories最终产生了月100万个文档，最高的得分月0.08，相比较理论最高1.0的得分依然是比较低的。

尽管原始的CC-Stories数据集不再提供，但是也有人基于这个筛选规则，开源了一个CC-Stories的数据集，下载地址： https://huggingface.co/datasets/spacemanidol/cc-stories

发布者：Google

发布时间：

官方网址：https://paperswithcode.com/dataset/cc-stories

数据记录总数：2105303

数据集大小：855MB

CC-Stories

CC-Stories所属的领域

CC-Stories相关的任务