人工智能(AI)领域的数据集及其简介

ImageNet

ImageNet项目是一个大型视觉数据库,旨在用于视觉对象识别软件的研究。该项目对1400多万张图片进行了手工注释,以表明图片中的物体是什么,在至少100万张图片中,还提供了边界框。ImageNet包含2万多个类别,一个典型的类别,如 "气球 "或 "草莓",由几百张图片组成。第三方图片URL的注释数据库可以直接从ImageNet免费获得,尽管实际的图片不属于ImageNet。自2010年以来,ImageNet项目每年都会举办一次软件竞赛,即ImageNet大规模视觉识别挑战赛(ILSVRC),软件程序在竞赛中对物体和场景进行正确分类和检测。该挑战赛使用了一个由1000个不重叠的类组成的 "修剪 "列表。

该数据集直接促进了计算机视觉模型的对比基准,在图像分类和语义分割方面都有大量的模型进行了相关的测试。

——来自维基百科


官方网址: https://www.image-net.org/ 

数据集地址: https://www.kaggle.com/competitions/imagenet-object-localization-challenge/overview 

PapersWithCode地址: https://paperswithcode.com/dataset/imagenet 

The Habitat-Matterport 3D Semantics Dataset(HM3D-Sem)

Habitat-Matterport三维语义数据集(HM3D-Semantics v0.1)是有史以来最大的三维室内空间语义标注数据集。HM3D-Semantics v0.1包含对Habitat-Matterport 3D数据集中120个高分辨率3D场景的密集语义注释。HM3D场景有1700多个原始物体名称的注释,它们被映射到40个Matterport类别。平均而言,HM3D-Semantics v0.1中的每个场景由114个类别的646个物体组成。这个数据集是由大约30位注释者花费了12000多个小时的人力进行注释和验证的结果。


HM3D-Semantics v0.1是免费的,可用于学术、非商业研究。研究人员可以将其与FAIR的人居环境模拟器一起使用,以大规模地训练有形的代理,如家用机器人和人工智能助手,以完成语义导航任务。

Open Images V7

Open Images是由谷歌发布的一个开源图片数据集,在2022年10月份发布了最新的V7版本。这个版本的数据集包含了900多万张图片,都有类别标记。其中190多万张图片有非常精细的标注:bounding boxes, object segmentations, visual relationships, localized narratives, point-level labels, and image-level labels. 

具体来说,这份数据集包括:

600个类上的15,851,536个boxes

对350个类进行2,785,498个实例分割

3,284,280个关于1,466个关系的关系注释

675,155个本地化的叙述

对5,827个类的66,391,027个point级别注释

对20,638个类别的61,404,966个图像级标签

扩展数据中 - 478,000张众包图像,包含6,000多个类别


本数据集的特点如下:

  • 它包含了190万张图片上600个物体类别的16M个边界框,使其成为现有最大的物体位置注释数据集。这些方框主要是由专业注释者手工绘制的,以确保准确性和一致性。这些图像非常多样化,通常包含有多个物体的复杂场景(平均每张图像8.3个)。
  • 开放图像还提供了视觉关系注释,表明特定关系的物体对(如 "弹吉他的女人"、"桌上的啤酒")、物体属性(如 "桌子是木制的")和人类行为(如 "女人在跳跃")。它总共有来自1,466个不同关系三元组的330个注释。
  • 在V5中,我们为350个类中的280万个对象实例添加了分割掩码。分割掩码标志着物体的轮廓,它以更高的细节水平来描述其空间范围。
  • 在V6中,我们增加了675k个本地化叙述:对图像的多模态描述,包括同步的语音、文字和在被描述物体上的鼠标痕迹。(请注意,我们最初在V6中只在培训中推出了本地化的叙述,但从2020年7月起,我们也有验证和测试的内容)。
  • 在V7中,我们在140万张图片上增加了6640万个点级标签,覆盖了5827个类别。这些标签提供了稀疏的像素级定位,适用于零/少量照片的语义分割训练和评估。
  • 最后,该数据集被添加了6140万个图像级别的标签,涵盖20638个类别。


MS COCO - Common Objects in Contenxt

COCO全称是Common Objects in Contenxt,由微软研究院和几位高校老师合作发布的图像数据集。最早的版本是2015年发布,2107年发布了新的版本。

各个版本的记录数如下:

年份(年)数据集类型记录数(万张)大小(GB)
2014训练集8.313
2014验证集4.16
2014测试集4.16
2015测试集8.112
2017训练集11.818
2017验证集0.51
2017测试集4.16
2017未标注数据12.319

COCO数据集十分著名,也和历年的学术会议挑战赛有关。不同年份的数据集也被用来测试不同任务。这些数据支持的任务包括图像检测(Detection)、图像描述(Captioning)、关键点(keypoint)、具有特定尺寸和形状的物体(COCO Stuff )、全景分割(Panoptic Segmentation)等。

这份数据的标注也很详细。具体来说:

  • 150万个对象实例
  • 80个对象类别
  • 91个特定尺寸和形状的类别
  • 每个图片包含5个描述
  • 25万个带关键点的人物

需要注意的是:

  1. 部分图片没有标注;
  2. COCO 2014和2017数据集使用相同的图像集,但训练集、验证集和测试集的划分不同;
  3. 测试拆分没有任何标注,只有图像;
  4. 数据集总共定义了91个类,但只使用了80个类;
  5. 全景注释定义了200个类,但只使用133个。

官方下载地址: https://cocodataset.org/#download 

GitHub地址: https://github.com/cocodataset/cocodataset.github.io 

PapersWithCode地址: https://deepai.org/dataset/coco 

DS-1000

DS-1000是由香港大学、北京大学等高校老师联合发布的一个代码生成领域的基准数据集。包含了1000个问题和答案,这些问题来自StackOverflow上451个问题。涵盖了7个Python领域库的相关问题和答案(如NumPy、Pandas等)。这些问题和答案花费了1200多个expert小时进行整理。具体来说,这些问题和答案:

  • 基于StackOverflow平台选择和重写
  • 对问题做了干扰防止出现潜在的记忆问题
  • 对于每一个问题都实现了一个个性化的评估指标

这些工作都是十分耗费人力的工作。五位作者花费了大约1200个小时完成的。

DS-1000数据的样例,对于每一个问题,都包含了"[insert]"标记,任务就是把代码插入的insert位置。数据集包含了评估答案的评估指标。

对于来自StackOverflow的问题,作者为它们配备了prompts、测试用例和评估函数,并将它们称为Origin。为了防止模型简单地回忆预训练期间看到的解决方案,作者以两种方式扰动问题:表面扰动和语义扰动。为了使DS-1000更具挑战性,作者还引入了困难重写。其中152个问题做了surface perturbations,235个问题做了semantic perturbations,162个问题做了difficult rewrites。

涉及的7个Python库如下:

  • NumPy
  • SciPy
  • Pandas
  • TensorFlow
  • PyTorch
  • Scikit-learn
  • Matplotlib


具体的数据集目录如下:

ds1000_data
├── Numpy
    ├── Completion
    └── Insertion
        ├──q0
            ├── .cfg
            ├── ans
            ├── input
            ├── prompt.txt
            ├── code_context.txt
            ├── reference_code.txt
            ├── test_code.py
            └── test_generate_pickle.py
├── Pandas
├── Pytorch
├── Scipy
├── Sklearn
├── Tensorflow
├── Matplotlib

以NumPy文件夹为例,里面包含Completion与Insertion两个prompts格式,这两个文件夹内容完全一样,只是prompts不同(一些代码情景和代码引用也有一点差异)。针对每一个文件及下的文件解释如下:

.cfg:问题的元数据信息

ans和input:是输入和解决对象的pickles文件

prompt.txt:是官方推荐的用来查询大模型答案的prompt

code_context.txt:是用于评估的可执行代码context

reference_code.txt:是the ground truth solution code

test_code.py:测试代码

test_generate_pickle.py:用于生成input里面pickles文件的脚本


数据集下载地址: https://github.com/HKUNLP/DS-1000/raw/main/ds1000_data.zip

论文地址: https://arxiv.org/abs/2211.11501 

GitHub地址: https://github.com/HKUNLP/DS-1000 

官方网站: https://ds1000-code-gen.github.io/ 

PapersWithCode地址: https://paperswithcode.com/paper/ds-1000-a-natural-and-reliable-benchmark-for 

WuDaoCorpora 2.0

WuDaoCorpora 2.0是由北京智源人工智能研究院发布的多模态数据集。根据官网的介绍,WuDaoCorpora 2.0由全球最大的纯文本数据集、全球最大的多模态数据集和全球最大的中文对话数据集三部分构成,分别致力于构建微缩中文世界、打破图文模态壁垒、浓缩对话核心规律,从而形成多维度世界顶级数据库,促进中国的通用人工智能发展。

WuDaoCorpora 2.0数据集包含文本数据集、图文数据集和对话数据集三个。不过可惜的是,WuDaoCorpora 2.0数据集只开源文本数据集中的200GB,其它数据均不对外开放!

WuDaoCorpora 2.0文本数据集

采用20多种规则从100TB原始网页数据中清洗得出最终数据集,注重隐私数据信息的去除,源头上避免GPT-3存在的隐私泄露风险;包含教育、科技等50+个行业数据标签,可以支持多领域预训练模型的训练。WuDaoCorpora 2.0的文本数据集原始大小为3TB,但是开源给业界使用的仅200GB。数据格式为json,其包含的字段如下:

字段名含义
id数据在该json文件中的id
uniqueKey这条数据的唯一识别码
titleUkey该标题的唯一识别码
dataType数据类型
title数据标题
content正文

WuDaoCorpora 2.0图文数据集

数据集精选高质量6.5亿图文对,数据总量达到93TB。 数据标签包括科技、人物、艺术等60+种类别。采用全面的数据清洗规则,去除涉恐涉暴等隐私敏感信息,保证数据集质量;融合中西方数据源,帮助模型解决文化壁垒带来的数据偏置问题。

WuDaoCorpora 2.0对话数据集

是目前体量最大的中文对话数据集。采用严格的逻辑清洗规则,对敏感数据进行过滤,从9TB原始数据筛选得到181GB高质量数据。可支撑智能助手、虚拟亲友等方面的下游应用,同时为开放型对话领域研究提供基础数据支撑。

BookCorpus

BookCorpus是由多伦多大学的Yukun Zhu等人在2015年提出的一个关于书籍的数据集。该数据集主要是由尚未出版的作者写的免费书籍。该数据集的主要统计结果如下:


统计项统计项(英文)统计结果
书籍数量# of books11038
语句数量# of sentences74004228
单词数量# of words984846357
独立单词数(词汇)# of unique words1316420
平均每个语句的单词数量mean # of words per sentence13
每个语句的单词中位数median # of words per sentence11


作者收集的书籍中的每一本书都至少包含2万个单词,防止过短的内容产生噪音影响。BookCorpus被大量用来训练自然语言模型的embedding结果。

该数据集首次在论文Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books中提出(arXiv地址: https://arxiv.org/abs/1506.06724 )

CC-Stories

CC-Stories(又称STORIES),最早是由谷歌研究人员在论文A Simple Method for Commonsense Reasoning中发布。这篇论文主要的目标是解决常识推理问题(Commonsense Reasoning)。作者根据之前论文的做法(在评估阶段观察问题,然后从knowledge bases收集相关数据),在Commonsense Reasoning Tasks中构建了一个个性化的文本语料库,即STORIES。

该数据集是谷歌自己构建的一个个性化数据集,并没有公布。但是论文中描述了数据集的收集方式:从CommonCrawl数据集中聚合文档,选择的条件是与Commonsense Reasoning Tasks中问题重复n-grams的结果。每个文档在计算重合的n-grams时候都采用加权求和的方式进行。最终,选择前0.1%的结果作为数据集,形成STORIES。将这个数据集命名为 "STORIES"的原因是大多数的组成文件都是以故事的形式出现的,有一长串连贯的事件。STORIES现在习惯性被叫成CC-Stories(CC就是CommonCrawl)的意思。

CC-Stories最终产生了月100万个文档,最高的得分月0.08,相比较理论最高1.0的得分依然是比较低的。

尽管原始的CC-Stories数据集不再提供,但是也有人基于这个筛选规则,开源了一个CC-Stories的数据集,下载地址: https://huggingface.co/datasets/spacemanidol/cc-stories 

DiffusionDB

DiffusionDB是全网第一个公开的大规模文本生成图像模板数据集(Text-to-Image Prompt)。它包含1400万个基于Stable Diffusion生成的图像。这些图像的参数设定由真实的用户设定prompts和超参数产生。

DiffusionDB目前是公开可获取的数据,它可以帮助我们完成多项任务,包括理解模板和生成模型之间的相互作用、检测deepfakes以及设计人类-人工智能交互工具以帮助用户更容易使用这些模型等。

注意,本数据集中大部分语言都是英语,不过也包含西班牙语、中文和俄语。

DiffusionDB具体信息

根据需要,DiffusionDB提供两个版本的数据集,分别是DiffusionDB 2M和DiffusionDB Large

数据集名称图像数量不同prompts数量大小
DiffusionDB 2M200万150万1.6TB
DiffusionDB Large1400万180万6.5TB

这两个数据集的差别如下:

  1. 两个子集的不同的prompts数量相似,但DiffusionDB Large的图片要多得多。DiffusionDB Large是DiffusionDB 2M的一个超集。
  2. DiffusionDB 2M中的图片是以png格式存储的;DiffusionDB Large中的图片使用的是无损的webp格式。

作者使用模块化的文件结构来分发DiffusionDB。DiffusionDB 2M中的200万张图片被分成2000个文件夹,其中每个文件夹包含1000张图片和一个JSON文件,该文件将这1000张图片与它们的提示和超参数联系起来。同样地,DiffusionDB Large中的1400万张图像被分成14000个文件夹。

数据集文件结构如下:

# DiffusionDB 2M
./
├── images
│   ├── part-000001
│   │   ├── 3bfcd9cf-26ea-4303-bbe1-b095853f5360.png
│   │   ├── 5f47c66c-51d4-4f2c-a872-a68518f44adb.png
│   │   ├── 66b428b9-55dc-4907-b116-55aaa887de30.png
│   │   ├── [...]
│   │   └── part-000001.json
│   ├── part-000002
│   ├── part-000003
│   ├── [...]
│   └── part-002000
└── metadata.parquet
# DiffusionDB Large
./
├── diffusiondb-large-part-1
│   ├── part-000001
│   │   ├── 0a8dc864-1616-4961-ac18-3fcdf76d3b08.webp
│   │   ├── 0a25cacb-5d91-4f27-b18a-bd423762f811.webp
│   │   ├── 0a52d584-4211-43a0-99ef-f5640ee2fc8c.webp
│   │   ├── [...]
│   │   └── part-000001.json
│   ├── part-000002
│   ├── part-000003
│   ├── [...]
│   └── part-010000
├── diffusiondb-large-part-2
│   ├── part-010001
│   │   ├── 0a68f671-3776-424c-91b6-c09a0dd6fc2d.webp
│   │   ├── 0a0756e9-1249-4fe2-a21a-12c43656c7a3.webp
│   │   ├── 0aa48f3d-f2d9-40a8-a800-c2c651ebba06.webp
│   │   ├── [...]
│   │   └── part-000001.json
│   ├── part-010002
│   ├── part-010003
│   ├── [...]
│   └── part-014000
└── metadata-large.parquet

数据集样例

例如,下面是f3501e05-aef7-4225-a9e9-f516527408ac.png的图片和它在part-000001.json中的键值对。

{
  "f3501e05-aef7-4225-a9e9-f516527408ac.png": {
    "p": "geodesic landscape, john chamberlain, christopher balaskas, tadao ando, 4 k, ",
    "se": 38753269,
    "c": 12.0,
    "st": 50,
    "sa": "k_lms"
  },
}

上述具体字段含义如下:

  1. key:唯一的图像名称
  2. p: 模板(Prompt)
  3. se: 随机种子
  4. c: CFG规模(指导规模)
  5. st: 步数(Steps)
  6. sa: 采样器(Sampler)

DiffusionDB数据集的下载和使用

DiffusionDB在HuggingFace上开源托管: https://huggingface.co/datasets/poloclub/diffusiondb 

相关的代码在GitHub上: https://github.com/poloclub/diffusiondb 

论文地址: DiffusionDB: A Large-scale Prompt Gallery Dataset for Text-to-Image Generative Models 

DiffusionDB的下载使用方式有两个,一个是使用HuggingFace的官方脚本:

import numpy as np
from datasets import load_dataset

# Load the dataset with the `large_random_1k` subset
dataset = load_dataset('poloclub/diffusiondb', 'large_random_1k')

第二个方法是使用PoloClub下载脚本:

脚本地址: https://github.com/poloclub/diffusiondb/blob/main/scripts/download.py 

使用这个脚本运行即可。

DiffusionDB数据集的开源协议

DiffusionDB数据集以CC0 1.0许可协议提供。该资源库中的Python代码在MIT许可下提供。因此,使用基本没有限制(CC0 1.0是非常自由的开源协议: https://creativecommons.org/publicdomain/zero/1.0/  没有版权要求,MIT也是类似!)


DiffusionDB的引用

@article{wangDiffusionDBLargescalePrompt2022,
  title = {{{DiffusionDB}}: {{A}} Large-Scale Prompt Gallery Dataset for Text-to-Image Generative Models},
  author = {Wang, Zijie J. and Montoya, Evan and Munechika, David and Yang, Haoyang and Hoover, Benjamin and Chau, Duen Horng},
  year = {2022},
  journal = {arXiv:2210.14896 [cs]},
  url = {https://arxiv.org/abs/2210.14896}
}


SlimPajama

SlimPajama是一个开源的大模型训练数据集。

书生·万卷 1.0

书生·万卷 1.0是由上海人工智能实验室发布的一个开源大规模数据集,包含三个部分:纯文本格式数据集、文本-图像对数据集和视频数据集。


大模型训练所需要的中文数据集很匮乏

随着近年来GPT-3、ChatGPT等大模型的兴起,高质量的数据集在模型训练中扮演着越来越重要的角色。但是当前领先的预训练模型使用的数据集细节往往不公开,开源数据的匮乏制约着研究社区的进一步发展。特别是大规模中文数据集十分缺乏,对中文大模型以及业界模型的中文支持都有很大的影响。此次,上海人工智能实验室发布的这个数据集包含了丰富的中文,对于大模型的中文能力提升十分有价值。

为此,上海人工智能实验室近日开源发布了大规模多语言多模态数据集书生·万卷 1.0。


书生·万卷 1.0数据集详细介绍

该数据集包含三个部分:纯文本数据集、文本图像对数据集和纯视频数据集。分别介绍如下:


书生·万卷 1.0文本数据集介绍

书生·万卷 1.0文本数据集包含6亿份文档,来源于网络和书籍等。具体来说,所包含的数据集领域如下:


来源具体内容数据集规模
英文互联网数据来源于Common Crawl的网页数据3.83亿个文件,542.51GB
中文互联网数据来源于网络上的各种网页、文档等2.2亿个文件,466.54GB
中文法律数据来源于法律法规、判决文书等法律领域数据800万个文件,37.89GB
中文新闻数据来源于各大新闻媒体的新闻报道700万个文件,21.53GB
中文考试数据来源于各类考试的题目、试卷等400万个文件,18.46GB
中文专利数据来源于专利文献数据库100万个文件,4.62GB
中文教材数据来源于各学科教材45.4万个文件,2.38GB
中文维基百科来源于中文维基百科9.2万个文件,0.11GB

可以看到,数据集十分丰富。根据介绍,书生·万卷 1.0文本数据集中中文数据占比35.1%,约2.2亿个文件,466.54GB。英文数据集占比61.4%,共3.83亿个文件,542.51GB。可以说应该是目前开源领域包含最多的中文数据集了!


书生·万卷 1.0文本-图像对数据集介绍

书生·万卷 1.0文本-图像对数据集包含2200多万个文本-图像对数据,数据量超过200GB(不含图像文件)。其中主要来源如下:

来源占比数据量
英文维基百科37.7%900万对
中文权威媒体新闻5.3%200万对
中文自媒体新闻53.4%1000万对
中文维基百科3.6%88.2万对

可以看到,这里的中文数据占比达到了62.3%!十分丰富!


书生·万卷 1.0视频数据集介绍

书生·万卷 1.0视频数据集式包含1000多个视频文件,来源中国媒体集团(CMG)和上海媒体集团(SMG)的节目。


书生·万卷 1.0数据集总结

  1. 文本数据包括超过6亿个文档,数据量超过1TB。图像文本数据经处理形成超过2200万个文档,数据量超过200GB。视频数据包含超过1000个视频,数据量超过900GB。
  2. 数据收集和处理过程中,采用了算法和人工验证相结合的方式,确保数据安全、高质量以及价值取向。
  3. 提供了统一的JSON格式处理,数据集下载工具及支持文档,方便用户快速应用大模型训练。
  4. 该数据集中的预训练数据显著提升了训练模型的知识内涵、逻辑推理和泛化能力。
  5. 数据集的开放发布有助于自然语言处理和计算机视觉等领域的模型训练和算法研究,尤其是需要多模态理解和生成的任务。
  6. 本数据集填补了公开源大规模多模态预训练数据集的空白,有助于推动相关领域技术的进一步发展。


最后,书生·万卷 1.0数据集的开源协议是 CC BY 4.0 ,是知识共享组织制定的一个开源协议,它允许用户可以自由地共享、修改和商业使用受该协议保护的内容,只要遵守署名要求即可。

下载地址: https://opendatalab.org.cn/WanJuan1.0 

FACET

FACET是一个全面的基准数据集,旨在衡量或评估受保护群体的人工智能和机器学习视觉模型的稳健性和算法公平性。