DiffusionDB

DiffusionDB是全网第一个公开的大规模文本生成图像模板数据集(Text-to-Image Prompt)。它包含1400万个基于Stable Diffusion生成的图像。这些图像的参数设定由真实的用户设定prompts和超参数产生。

DiffusionDB目前是公开可获取的数据,它可以帮助我们完成多项任务,包括理解模板和生成模型之间的相互作用、检测deepfakes以及设计人类-人工智能交互工具以帮助用户更容易使用这些模型等。

注意,本数据集中大部分语言都是英语,不过也包含西班牙语、中文和俄语。

DiffusionDB具体信息

根据需要,DiffusionDB提供两个版本的数据集,分别是DiffusionDB 2M和DiffusionDB Large

数据集名称图像数量不同prompts数量大小
DiffusionDB 2M200万150万1.6TB
DiffusionDB Large1400万180万6.5TB

这两个数据集的差别如下:

  1. 两个子集的不同的prompts数量相似,但DiffusionDB Large的图片要多得多。DiffusionDB Large是DiffusionDB 2M的一个超集。
  2. DiffusionDB 2M中的图片是以png格式存储的;DiffusionDB Large中的图片使用的是无损的webp格式。

作者使用模块化的文件结构来分发DiffusionDB。DiffusionDB 2M中的200万张图片被分成2000个文件夹,其中每个文件夹包含1000张图片和一个JSON文件,该文件将这1000张图片与它们的提示和超参数联系起来。同样地,DiffusionDB Large中的1400万张图像被分成14000个文件夹。

数据集文件结构如下:

# DiffusionDB 2M
./
├── images
│   ├── part-000001
│   │   ├── 3bfcd9cf-26ea-4303-bbe1-b095853f5360.png
│   │   ├── 5f47c66c-51d4-4f2c-a872-a68518f44adb.png
│   │   ├── 66b428b9-55dc-4907-b116-55aaa887de30.png
│   │   ├── [...]
│   │   └── part-000001.json
│   ├── part-000002
│   ├── part-000003
│   ├── [...]
│   └── part-002000
└── metadata.parquet
# DiffusionDB Large
./
├── diffusiondb-large-part-1
│   ├── part-000001
│   │   ├── 0a8dc864-1616-4961-ac18-3fcdf76d3b08.webp
│   │   ├── 0a25cacb-5d91-4f27-b18a-bd423762f811.webp
│   │   ├── 0a52d584-4211-43a0-99ef-f5640ee2fc8c.webp
│   │   ├── [...]
│   │   └── part-000001.json
│   ├── part-000002
│   ├── part-000003
│   ├── [...]
│   └── part-010000
├── diffusiondb-large-part-2
│   ├── part-010001
│   │   ├── 0a68f671-3776-424c-91b6-c09a0dd6fc2d.webp
│   │   ├── 0a0756e9-1249-4fe2-a21a-12c43656c7a3.webp
│   │   ├── 0aa48f3d-f2d9-40a8-a800-c2c651ebba06.webp
│   │   ├── [...]
│   │   └── part-000001.json
│   ├── part-010002
│   ├── part-010003
│   ├── [...]
│   └── part-014000
└── metadata-large.parquet

数据集样例

例如,下面是f3501e05-aef7-4225-a9e9-f516527408ac.png的图片和它在part-000001.json中的键值对。

{
  "f3501e05-aef7-4225-a9e9-f516527408ac.png": {
    "p": "geodesic landscape, john chamberlain, christopher balaskas, tadao ando, 4 k, ",
    "se": 38753269,
    "c": 12.0,
    "st": 50,
    "sa": "k_lms"
  },
}

上述具体字段含义如下:

  1. key:唯一的图像名称
  2. p: 模板(Prompt)
  3. se: 随机种子
  4. c: CFG规模(指导规模)
  5. st: 步数(Steps)
  6. sa: 采样器(Sampler)

DiffusionDB数据集的下载和使用

DiffusionDB在HuggingFace上开源托管: https://huggingface.co/datasets/poloclub/diffusiondb 

相关的代码在GitHub上: https://github.com/poloclub/diffusiondb 

论文地址: DiffusionDB: A Large-scale Prompt Gallery Dataset for Text-to-Image Generative Models 

DiffusionDB的下载使用方式有两个,一个是使用HuggingFace的官方脚本:

import numpy as np
from datasets import load_dataset

# Load the dataset with the `large_random_1k` subset
dataset = load_dataset('poloclub/diffusiondb', 'large_random_1k')

第二个方法是使用PoloClub下载脚本:

脚本地址: https://github.com/poloclub/diffusiondb/blob/main/scripts/download.py 

使用这个脚本运行即可。

DiffusionDB数据集的开源协议

DiffusionDB数据集以CC0 1.0许可协议提供。该资源库中的Python代码在MIT许可下提供。因此,使用基本没有限制(CC0 1.0是非常自由的开源协议: https://creativecommons.org/publicdomain/zero/1.0/  没有版权要求,MIT也是类似!)


DiffusionDB的引用

@article{wangDiffusionDBLargescalePrompt2022,
  title = {{{DiffusionDB}}: {{A}} Large-Scale Prompt Gallery Dataset for Text-to-Image Generative Models},
  author = {Wang, Zijie J. and Montoya, Evan and Munechika, David and Yang, Haoyang and Hoover, Benjamin and Chau, Duen Horng},
  year = {2022},
  journal = {arXiv:2210.14896 [cs]},
  url = {https://arxiv.org/abs/2210.14896}
}


发布者:Jay Wang

发布时间:2022-10-27

官方网址:https://poloclub.github.io/diffusiondb/

数据记录总数:14000000

数据集大小:8.1TB

DiffusionDB
DiffusionDB所属的领域
多模态学习

多模态学习

Multimodal Learning

35个资源

DiffusionDB相关的任务
文本生成图片

文本生成图片

Text to Image

35个资源