人工智能(AI)领域的数据集及其简介

ImageNet

ImageNet项目是一个大型视觉数据库,旨在用于视觉对象识别软件的研究。该项目对1400多万张图片进行了手工注释,以表明图片中的物体是什么,在至少100万张图片中,还提供了边界框。ImageNet包含2万多个类别,一个典型的类别,如 "气球 "或 "草莓",由几百张图片组成。第三方图片URL的注释数据库可以直接从ImageNet免费获得,尽管实际的图片不属于ImageNet。自2010年以来,ImageNet项目每年都会举办一次软件竞赛,即ImageNet大规模视觉识别挑战赛(ILSVRC),软件程序在竞赛中对物体和场景进行正确分类和检测。该挑战赛使用了一个由1000个不重叠的类组成的 "修剪 "列表。

该数据集直接促进了计算机视觉模型的对比基准,在图像分类和语义分割方面都有大量的模型进行了相关的测试。

——来自维基百科


官方网址: https://www.image-net.org/ 

数据集地址: https://www.kaggle.com/competitions/imagenet-object-localization-challenge/overview 

PapersWithCode地址: https://paperswithcode.com/dataset/imagenet 

The Habitat-Matterport 3D Semantics Dataset(HM3D-Sem)

Habitat-Matterport三维语义数据集(HM3D-Semantics v0.1)是有史以来最大的三维室内空间语义标注数据集。HM3D-Semantics v0.1包含对Habitat-Matterport 3D数据集中120个高分辨率3D场景的密集语义注释。HM3D场景有1700多个原始物体名称的注释,它们被映射到40个Matterport类别。平均而言,HM3D-Semantics v0.1中的每个场景由114个类别的646个物体组成。这个数据集是由大约30位注释者花费了12000多个小时的人力进行注释和验证的结果。


HM3D-Semantics v0.1是免费的,可用于学术、非商业研究。研究人员可以将其与FAIR的人居环境模拟器一起使用,以大规模地训练有形的代理,如家用机器人和人工智能助手,以完成语义导航任务。

Open Images V7

Open Images是由谷歌发布的一个开源图片数据集,在2022年10月份发布了最新的V7版本。这个版本的数据集包含了900多万张图片,都有类别标记。其中190多万张图片有非常精细的标注:bounding boxes, object segmentations, visual relationships, localized narratives, point-level labels, and image-level labels. 

具体来说,这份数据集包括:

600个类上的15,851,536个boxes

对350个类进行2,785,498个实例分割

3,284,280个关于1,466个关系的关系注释

675,155个本地化的叙述

对5,827个类的66,391,027个point级别注释

对20,638个类别的61,404,966个图像级标签

扩展数据中 - 478,000张众包图像,包含6,000多个类别


本数据集的特点如下:

  • 它包含了190万张图片上600个物体类别的16M个边界框,使其成为现有最大的物体位置注释数据集。这些方框主要是由专业注释者手工绘制的,以确保准确性和一致性。这些图像非常多样化,通常包含有多个物体的复杂场景(平均每张图像8.3个)。
  • 开放图像还提供了视觉关系注释,表明特定关系的物体对(如 "弹吉他的女人"、"桌上的啤酒")、物体属性(如 "桌子是木制的")和人类行为(如 "女人在跳跃")。它总共有来自1,466个不同关系三元组的330个注释。
  • 在V5中,我们为350个类中的280万个对象实例添加了分割掩码。分割掩码标志着物体的轮廓,它以更高的细节水平来描述其空间范围。
  • 在V6中,我们增加了675k个本地化叙述:对图像的多模态描述,包括同步的语音、文字和在被描述物体上的鼠标痕迹。(请注意,我们最初在V6中只在培训中推出了本地化的叙述,但从2020年7月起,我们也有验证和测试的内容)。
  • 在V7中,我们在140万张图片上增加了6640万个点级标签,覆盖了5827个类别。这些标签提供了稀疏的像素级定位,适用于零/少量照片的语义分割训练和评估。
  • 最后,该数据集被添加了6140万个图像级别的标签,涵盖20638个类别。


MS COCO - Common Objects in Contenxt

COCO全称是Common Objects in Contenxt,由微软研究院和几位高校老师合作发布的图像数据集。最早的版本是2015年发布,2107年发布了新的版本。

各个版本的记录数如下:

年份(年)数据集类型记录数(万张)大小(GB)
2014训练集8.313
2014验证集4.16
2014测试集4.16
2015测试集8.112
2017训练集11.818
2017验证集0.51
2017测试集4.16
2017未标注数据12.319

COCO数据集十分著名,也和历年的学术会议挑战赛有关。不同年份的数据集也被用来测试不同任务。这些数据支持的任务包括图像检测(Detection)、图像描述(Captioning)、关键点(keypoint)、具有特定尺寸和形状的物体(COCO Stuff )、全景分割(Panoptic Segmentation)等。

这份数据的标注也很详细。具体来说:

  • 150万个对象实例
  • 80个对象类别
  • 91个特定尺寸和形状的类别
  • 每个图片包含5个描述
  • 25万个带关键点的人物

需要注意的是:

  1. 部分图片没有标注;
  2. COCO 2014和2017数据集使用相同的图像集,但训练集、验证集和测试集的划分不同;
  3. 测试拆分没有任何标注,只有图像;
  4. 数据集总共定义了91个类,但只使用了80个类;
  5. 全景注释定义了200个类,但只使用133个。

官方下载地址: https://cocodataset.org/#download 

GitHub地址: https://github.com/cocodataset/cocodataset.github.io 

PapersWithCode地址: https://deepai.org/dataset/coco 

DS-1000

DS-1000是由香港大学、北京大学等高校老师联合发布的一个代码生成领域的基准数据集。包含了1000个问题和答案,这些问题来自StackOverflow上451个问题。涵盖了7个Python领域库的相关问题和答案(如NumPy、Pandas等)。这些问题和答案花费了1200多个expert小时进行整理。具体来说,这些问题和答案:

  • 基于StackOverflow平台选择和重写
  • 对问题做了干扰防止出现潜在的记忆问题
  • 对于每一个问题都实现了一个个性化的评估指标

这些工作都是十分耗费人力的工作。五位作者花费了大约1200个小时完成的。

DS-1000数据的样例,对于每一个问题,都包含了"[insert]"标记,任务就是把代码插入的insert位置。数据集包含了评估答案的评估指标。

对于来自StackOverflow的问题,作者为它们配备了prompts、测试用例和评估函数,并将它们称为Origin。为了防止模型简单地回忆预训练期间看到的解决方案,作者以两种方式扰动问题:表面扰动和语义扰动。为了使DS-1000更具挑战性,作者还引入了困难重写。其中152个问题做了surface perturbations,235个问题做了semantic perturbations,162个问题做了difficult rewrites。

涉及的7个Python库如下:

  • NumPy
  • SciPy
  • Pandas
  • TensorFlow
  • PyTorch
  • Scikit-learn
  • Matplotlib


具体的数据集目录如下:

ds1000_data
├── Numpy
    ├── Completion
    └── Insertion
        ├──q0
            ├── .cfg
            ├── ans
            ├── input
            ├── prompt.txt
            ├── code_context.txt
            ├── reference_code.txt
            ├── test_code.py
            └── test_generate_pickle.py
├── Pandas
├── Pytorch
├── Scipy
├── Sklearn
├── Tensorflow
├── Matplotlib

以NumPy文件夹为例,里面包含Completion与Insertion两个prompts格式,这两个文件夹内容完全一样,只是prompts不同(一些代码情景和代码引用也有一点差异)。针对每一个文件及下的文件解释如下:

.cfg:问题的元数据信息

ans和input:是输入和解决对象的pickles文件

prompt.txt:是官方推荐的用来查询大模型答案的prompt

code_context.txt:是用于评估的可执行代码context

reference_code.txt:是the ground truth solution code

test_code.py:测试代码

test_generate_pickle.py:用于生成input里面pickles文件的脚本


数据集下载地址: https://github.com/HKUNLP/DS-1000/raw/main/ds1000_data.zip

论文地址: https://arxiv.org/abs/2211.11501 

GitHub地址: https://github.com/HKUNLP/DS-1000 

官方网站: https://ds1000-code-gen.github.io/ 

PapersWithCode地址: https://paperswithcode.com/paper/ds-1000-a-natural-and-reliable-benchmark-for 

WuDaoCorpora 2.0

WuDaoCorpora 2.0是由北京智源人工智能研究院发布的多模态数据集。根据官网的介绍,WuDaoCorpora 2.0由全球最大的纯文本数据集、全球最大的多模态数据集和全球最大的中文对话数据集三部分构成,分别致力于构建微缩中文世界、打破图文模态壁垒、浓缩对话核心规律,从而形成多维度世界顶级数据库,促进中国的通用人工智能发展。

WuDaoCorpora 2.0数据集包含文本数据集、图文数据集和对话数据集三个。不过可惜的是,WuDaoCorpora 2.0数据集只开源文本数据集中的200GB,其它数据均不对外开放!

WuDaoCorpora 2.0文本数据集

采用20多种规则从100TB原始网页数据中清洗得出最终数据集,注重隐私数据信息的去除,源头上避免GPT-3存在的隐私泄露风险;包含教育、科技等50+个行业数据标签,可以支持多领域预训练模型的训练。WuDaoCorpora 2.0的文本数据集原始大小为3TB,但是开源给业界使用的仅200GB。数据格式为json,其包含的字段如下:

字段名含义
id数据在该json文件中的id
uniqueKey这条数据的唯一识别码
titleUkey该标题的唯一识别码
dataType数据类型
title数据标题
content正文

WuDaoCorpora 2.0图文数据集

数据集精选高质量6.5亿图文对,数据总量达到93TB。 数据标签包括科技、人物、艺术等60+种类别。采用全面的数据清洗规则,去除涉恐涉暴等隐私敏感信息,保证数据集质量;融合中西方数据源,帮助模型解决文化壁垒带来的数据偏置问题。

WuDaoCorpora 2.0对话数据集

是目前体量最大的中文对话数据集。采用严格的逻辑清洗规则,对敏感数据进行过滤,从9TB原始数据筛选得到181GB高质量数据。可支撑智能助手、虚拟亲友等方面的下游应用,同时为开放型对话领域研究提供基础数据支撑。

BookCorpus

BookCorpus是由多伦多大学的Yukun Zhu等人在2015年提出的一个关于书籍的数据集。该数据集主要是由尚未出版的作者写的免费书籍。该数据集的主要统计结果如下:


统计项统计项(英文)统计结果
书籍数量# of books11038
语句数量# of sentences74004228
单词数量# of words984846357
独立单词数(词汇)# of unique words1316420
平均每个语句的单词数量mean # of words per sentence13
每个语句的单词中位数median # of words per sentence11


作者收集的书籍中的每一本书都至少包含2万个单词,防止过短的内容产生噪音影响。BookCorpus被大量用来训练自然语言模型的embedding结果。

该数据集首次在论文Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books中提出(arXiv地址: https://arxiv.org/abs/1506.06724 )

CC-Stories

CC-Stories(又称STORIES),最早是由谷歌研究人员在论文A Simple Method for Commonsense Reasoning中发布。这篇论文主要的目标是解决常识推理问题(Commonsense Reasoning)。作者根据之前论文的做法(在评估阶段观察问题,然后从knowledge bases收集相关数据),在Commonsense Reasoning Tasks中构建了一个个性化的文本语料库,即STORIES。

该数据集是谷歌自己构建的一个个性化数据集,并没有公布。但是论文中描述了数据集的收集方式:从CommonCrawl数据集中聚合文档,选择的条件是与Commonsense Reasoning Tasks中问题重复n-grams的结果。每个文档在计算重合的n-grams时候都采用加权求和的方式进行。最终,选择前0.1%的结果作为数据集,形成STORIES。将这个数据集命名为 "STORIES"的原因是大多数的组成文件都是以故事的形式出现的,有一长串连贯的事件。STORIES现在习惯性被叫成CC-Stories(CC就是CommonCrawl)的意思。

CC-Stories最终产生了月100万个文档,最高的得分月0.08,相比较理论最高1.0的得分依然是比较低的。

尽管原始的CC-Stories数据集不再提供,但是也有人基于这个筛选规则,开源了一个CC-Stories的数据集,下载地址: https://huggingface.co/datasets/spacemanidol/cc-stories 

DiffusionDB

DiffusionDB是全网第一个公开的大规模文本生成图像模板数据集(Text-to-Image Prompt)。它包含1400万个基于Stable Diffusion生成的图像。这些图像的参数设定由真实的用户设定prompts和超参数产生。

DiffusionDB目前是公开可获取的数据,它可以帮助我们完成多项任务,包括理解模板和生成模型之间的相互作用、检测deepfakes以及设计人类-人工智能交互工具以帮助用户更容易使用这些模型等。

注意,本数据集中大部分语言都是英语,不过也包含西班牙语、中文和俄语。

DiffusionDB具体信息

根据需要,DiffusionDB提供两个版本的数据集,分别是DiffusionDB 2M和DiffusionDB Large

数据集名称图像数量不同prompts数量大小
DiffusionDB 2M200万150万1.6TB
DiffusionDB Large1400万180万6.5TB

这两个数据集的差别如下:

  1. 两个子集的不同的prompts数量相似,但DiffusionDB Large的图片要多得多。DiffusionDB Large是DiffusionDB 2M的一个超集。
  2. DiffusionDB 2M中的图片是以png格式存储的;DiffusionDB Large中的图片使用的是无损的webp格式。

作者使用模块化的文件结构来分发DiffusionDB。DiffusionDB 2M中的200万张图片被分成2000个文件夹,其中每个文件夹包含1000张图片和一个JSON文件,该文件将这1000张图片与它们的提示和超参数联系起来。同样地,DiffusionDB Large中的1400万张图像被分成14000个文件夹。

数据集文件结构如下:

# DiffusionDB 2M
./
├── images
│   ├── part-000001
│   │   ├── 3bfcd9cf-26ea-4303-bbe1-b095853f5360.png
│   │   ├── 5f47c66c-51d4-4f2c-a872-a68518f44adb.png
│   │   ├── 66b428b9-55dc-4907-b116-55aaa887de30.png
│   │   ├── [...]
│   │   └── part-000001.json
│   ├── part-000002
│   ├── part-000003
│   ├── [...]
│   └── part-002000
└── metadata.parquet
# DiffusionDB Large
./
├── diffusiondb-large-part-1
│   ├── part-000001
│   │   ├── 0a8dc864-1616-4961-ac18-3fcdf76d3b08.webp
│   │   ├── 0a25cacb-5d91-4f27-b18a-bd423762f811.webp
│   │   ├── 0a52d584-4211-43a0-99ef-f5640ee2fc8c.webp
│   │   ├── [...]
│   │   └── part-000001.json
│   ├── part-000002
│   ├── part-000003
│   ├── [...]
│   └── part-010000
├── diffusiondb-large-part-2
│   ├── part-010001
│   │   ├── 0a68f671-3776-424c-91b6-c09a0dd6fc2d.webp
│   │   ├── 0a0756e9-1249-4fe2-a21a-12c43656c7a3.webp
│   │   ├── 0aa48f3d-f2d9-40a8-a800-c2c651ebba06.webp
│   │   ├── [...]
│   │   └── part-000001.json
│   ├── part-010002
│   ├── part-010003
│   ├── [...]
│   └── part-014000
└── metadata-large.parquet

数据集样例

例如,下面是f3501e05-aef7-4225-a9e9-f516527408ac.png的图片和它在part-000001.json中的键值对。

{
  "f3501e05-aef7-4225-a9e9-f516527408ac.png": {
    "p": "geodesic landscape, john chamberlain, christopher balaskas, tadao ando, 4 k, ",
    "se": 38753269,
    "c": 12.0,
    "st": 50,
    "sa": "k_lms"
  },
}

上述具体字段含义如下:

  1. key:唯一的图像名称
  2. p: 模板(Prompt)
  3. se: 随机种子
  4. c: CFG规模(指导规模)
  5. st: 步数(Steps)
  6. sa: 采样器(Sampler)

DiffusionDB数据集的下载和使用

DiffusionDB在HuggingFace上开源托管: https://huggingface.co/datasets/poloclub/diffusiondb 

相关的代码在GitHub上: https://github.com/poloclub/diffusiondb 

论文地址: DiffusionDB: A Large-scale Prompt Gallery Dataset for Text-to-Image Generative Models 

DiffusionDB的下载使用方式有两个,一个是使用HuggingFace的官方脚本:

import numpy as np
from datasets import load_dataset

# Load the dataset with the `large_random_1k` subset
dataset = load_dataset('poloclub/diffusiondb', 'large_random_1k')

第二个方法是使用PoloClub下载脚本:

脚本地址: https://github.com/poloclub/diffusiondb/blob/main/scripts/download.py 

使用这个脚本运行即可。

DiffusionDB数据集的开源协议

DiffusionDB数据集以CC0 1.0许可协议提供。该资源库中的Python代码在MIT许可下提供。因此,使用基本没有限制(CC0 1.0是非常自由的开源协议: https://creativecommons.org/publicdomain/zero/1.0/  没有版权要求,MIT也是类似!)


DiffusionDB的引用

@article{wangDiffusionDBLargescalePrompt2022,
  title = {{{DiffusionDB}}: {{A}} Large-Scale Prompt Gallery Dataset for Text-to-Image Generative Models},
  author = {Wang, Zijie J. and Montoya, Evan and Munechika, David and Yang, Haoyang and Hoover, Benjamin and Chau, Duen Horng},
  year = {2022},
  journal = {arXiv:2210.14896 [cs]},
  url = {https://arxiv.org/abs/2210.14896}
}