DiffusionDB数据集及其基准测试结果

DiffusionDB

DiffusionDB是全网第一个公开的大规模文本生成图像模板数据集（Text-to-Image Prompt）。它包含1400万个基于Stable Diffusion生成的图像。这些图像的参数设定由真实的用户设定prompts和超参数产生。

DiffusionDB目前是公开可获取的数据，它可以帮助我们完成多项任务，包括理解模板和生成模型之间的相互作用、检测deepfakes以及设计人类-人工智能交互工具以帮助用户更容易使用这些模型等。

注意，本数据集中大部分语言都是英语，不过也包含西班牙语、中文和俄语。

DiffusionDB具体信息

根据需要，DiffusionDB提供两个版本的数据集，分别是DiffusionDB 2M和DiffusionDB Large：

数据集名称	图像数量	不同prompts数量	大小
DiffusionDB 2M	200万	150万	1.6TB
DiffusionDB Large	1400万	180万	6.5TB

这两个数据集的差别如下：

两个子集的不同的prompts数量相似，但DiffusionDB Large的图片要多得多。DiffusionDB Large是DiffusionDB 2M的一个超集。
DiffusionDB 2M中的图片是以png格式存储的；DiffusionDB Large中的图片使用的是无损的webp格式。

作者使用模块化的文件结构来分发DiffusionDB。DiffusionDB 2M中的200万张图片被分成2000个文件夹，其中每个文件夹包含1000张图片和一个JSON文件，该文件将这1000张图片与它们的提示和超参数联系起来。同样地，DiffusionDB Large中的1400万张图像被分成14000个文件夹。

数据集文件结构如下：

# DiffusionDB 2M
./
├── images
│   ├── part-000001
│   │   ├── 3bfcd9cf-26ea-4303-bbe1-b095853f5360.png
│   │   ├── 5f47c66c-51d4-4f2c-a872-a68518f44adb.png
│   │   ├── 66b428b9-55dc-4907-b116-55aaa887de30.png
│   │   ├── [...]
│   │   └── part-000001.json
│   ├── part-000002
│   ├── part-000003
│   ├── [...]
│   └── part-002000
└── metadata.parquet

# DiffusionDB Large
./
├── diffusiondb-large-part-1
│   ├── part-000001
│   │   ├── 0a8dc864-1616-4961-ac18-3fcdf76d3b08.webp
│   │   ├── 0a25cacb-5d91-4f27-b18a-bd423762f811.webp
│   │   ├── 0a52d584-4211-43a0-99ef-f5640ee2fc8c.webp
│   │   ├── [...]
│   │   └── part-000001.json
│   ├── part-000002
│   ├── part-000003
│   ├── [...]
│   └── part-010000
├── diffusiondb-large-part-2
│   ├── part-010001
│   │   ├── 0a68f671-3776-424c-91b6-c09a0dd6fc2d.webp
│   │   ├── 0a0756e9-1249-4fe2-a21a-12c43656c7a3.webp
│   │   ├── 0aa48f3d-f2d9-40a8-a800-c2c651ebba06.webp
│   │   ├── [...]
│   │   └── part-000001.json
│   ├── part-010002
│   ├── part-010003
│   ├── [...]
│   └── part-014000
└── metadata-large.parquet

数据集样例

例如，下面是f3501e05-aef7-4225-a9e9-f516527408ac.png的图片和它在part-000001.json中的键值对。

{
  "f3501e05-aef7-4225-a9e9-f516527408ac.png": {
    "p": "geodesic landscape, john chamberlain, christopher balaskas, tadao ando, 4 k, ",
    "se": 38753269,
    "c": 12.0,
    "st": 50,
    "sa": "k_lms"
  },
}

上述具体字段含义如下：

key：唯一的图像名称
p: 模板（Prompt）
se: 随机种子
c: CFG规模（指导规模）
st: 步数（Steps）
sa: 采样器（Sampler）

DiffusionDB数据集的下载和使用

DiffusionDB在HuggingFace上开源托管： https://huggingface.co/datasets/poloclub/diffusiondb

相关的代码在GitHub上： https://github.com/poloclub/diffusiondb

论文地址： DiffusionDB: A Large-scale Prompt Gallery Dataset for Text-to-Image Generative Models

DiffusionDB的下载使用方式有两个，一个是使用HuggingFace的官方脚本：

import numpy as np
from datasets import load_dataset

# Load the dataset with the `large_random_1k` subset
dataset = load_dataset('poloclub/diffusiondb', 'large_random_1k')

第二个方法是使用PoloClub下载脚本：

脚本地址： https://github.com/poloclub/diffusiondb/blob/main/scripts/download.py

使用这个脚本运行即可。

DiffusionDB数据集的开源协议

DiffusionDB数据集以CC0 1.0许可协议提供。该资源库中的Python代码在MIT许可下提供。因此，使用基本没有限制（CC0 1.0是非常自由的开源协议： https://creativecommons.org/publicdomain/zero/1.0/ 没有版权要求，MIT也是类似！）

DiffusionDB的引用

@article{wangDiffusionDBLargescalePrompt2022,
  title = {{{DiffusionDB}}: {{A}} Large-Scale Prompt Gallery Dataset for Text-to-Image Generative Models},
  author = {Wang, Zijie J. and Montoya, Evan and Munechika, David and Yang, Haoyang and Hoover, Benjamin and Chau, Duen Horng},
  year = {2022},
  journal = {arXiv:2210.14896 [cs]},
  url = {https://arxiv.org/abs/2210.14896}
}

发布者：Jay Wang

发布时间：2022-10-27

官方网址：https://poloclub.github.io/diffusiondb/

数据记录总数：14000000

数据集大小：8.1TB

DiffusionDB

DiffusionDB所属的领域

DiffusionDB相关的任务