ImageNet项目是一个大型视觉数据库,旨在用于视觉对象识别软件的研究。该项目对1400多万张图片进行了手工注释,以表明图片中的物体是什么,在至少100万张图片中,还提供了边界框。ImageNet包含2万多个类别,一个典型的类别,如 "气球 "或 "草莓",由几百张图片组成。第三方图片URL的注释数据库可以直接从ImageNet免费获得,尽管实际的图片不属于ImageNet。自2010年以来,ImageNet项目每年都会举办一次软件竞赛,即ImageNet大规模视觉识别挑战赛(ILSVRC),软件程序在竞赛中对物体和场景进行正确分类和检测。该挑战赛使用了一个由1000个不重叠的类组成的 "修剪 "列表。
该数据集直接促进了计算机视觉模型的对比基准,在图像分类和语义分割方面都有大量的模型进行了相关的测试。
——来自维基百科
官方网址: https://www.image-net.org/
数据集地址: https://www.kaggle.com/competitions/imagenet-object-localization-challenge/overview
PapersWithCode地址: https://paperswithcode.com/dataset/imagenet
Habitat-Matterport三维语义数据集(HM3D-Semantics v0.1)是有史以来最大的三维室内空间语义标注数据集。HM3D-Semantics v0.1包含对Habitat-Matterport 3D数据集中120个高分辨率3D场景的密集语义注释。HM3D场景有1700多个原始物体名称的注释,它们被映射到40个Matterport类别。平均而言,HM3D-Semantics v0.1中的每个场景由114个类别的646个物体组成。这个数据集是由大约30位注释者花费了12000多个小时的人力进行注释和验证的结果。
HM3D-Semantics v0.1是免费的,可用于学术、非商业研究。研究人员可以将其与FAIR的人居环境模拟器一起使用,以大规模地训练有形的代理,如家用机器人和人工智能助手,以完成语义导航任务。
Open Images是由谷歌发布的一个开源图片数据集,在2022年10月份发布了最新的V7版本。这个版本的数据集包含了900多万张图片,都有类别标记。其中190多万张图片有非常精细的标注:bounding boxes, object segmentations, visual relationships, localized narratives, point-level labels, and image-level labels.
具体来说,这份数据集包括:
600个类上的15,851,536个boxes
对350个类进行2,785,498个实例分割
3,284,280个关于1,466个关系的关系注释
675,155个本地化的叙述
对5,827个类的66,391,027个point级别注释
对20,638个类别的61,404,966个图像级标签
扩展数据中 - 478,000张众包图像,包含6,000多个类别
本数据集的特点如下:
COCO全称是Common Objects in Contenxt,由微软研究院和几位高校老师合作发布的图像数据集。最早的版本是2015年发布,2107年发布了新的版本。
各个版本的记录数如下:
年份(年) | 数据集类型 | 记录数(万张) | 大小(GB) |
---|---|---|---|
2014 | 训练集 | 8.3 | 13 |
2014 | 验证集 | 4.1 | 6 |
2014 | 测试集 | 4.1 | 6 |
2015 | 测试集 | 8.1 | 12 |
2017 | 训练集 | 11.8 | 18 |
2017 | 验证集 | 0.5 | 1 |
2017 | 测试集 | 4.1 | 6 |
2017 | 未标注数据 | 12.3 | 19 |
COCO数据集十分著名,也和历年的学术会议挑战赛有关。不同年份的数据集也被用来测试不同任务。这些数据支持的任务包括图像检测(Detection)、图像描述(Captioning)、关键点(keypoint)、具有特定尺寸和形状的物体(COCO Stuff )、全景分割(Panoptic Segmentation)等。
这份数据的标注也很详细。具体来说:
需要注意的是:
官方下载地址: https://cocodataset.org/#download
GitHub地址: https://github.com/cocodataset/cocodataset.github.io
PapersWithCode地址: https://deepai.org/dataset/coco
DS-1000是由香港大学、北京大学等高校老师联合发布的一个代码生成领域的基准数据集。包含了1000个问题和答案,这些问题来自StackOverflow上451个问题。涵盖了7个Python领域库的相关问题和答案(如NumPy、Pandas等)。这些问题和答案花费了1200多个expert小时进行整理。具体来说,这些问题和答案:
这些工作都是十分耗费人力的工作。五位作者花费了大约1200个小时完成的。
DS-1000数据的样例,对于每一个问题,都包含了"[insert]"标记,任务就是把代码插入的insert位置。数据集包含了评估答案的评估指标。
对于来自StackOverflow的问题,作者为它们配备了prompts、测试用例和评估函数,并将它们称为Origin。为了防止模型简单地回忆预训练期间看到的解决方案,作者以两种方式扰动问题:表面扰动和语义扰动。为了使DS-1000更具挑战性,作者还引入了困难重写。其中152个问题做了surface perturbations,235个问题做了semantic perturbations,162个问题做了difficult rewrites。
涉及的7个Python库如下:
具体的数据集目录如下:
ds1000_data
├── Numpy
├── Completion
└── Insertion
├──q0
├── .cfg
├── ans
├── input
├── prompt.txt
├── code_context.txt
├── reference_code.txt
├── test_code.py
└── test_generate_pickle.py
├── Pandas
├── Pytorch
├── Scipy
├── Sklearn
├── Tensorflow
├── Matplotlib
以NumPy文件夹为例,里面包含Completion与Insertion两个prompts格式,这两个文件夹内容完全一样,只是prompts不同(一些代码情景和代码引用也有一点差异)。针对每一个文件及下的文件解释如下:
.cfg
:问题的元数据信息
ans和input
:是输入和解决对象的pickles文件
prompt.txt
:是官方推荐的用来查询大模型答案的prompt
code_context.txt
:是用于评估的可执行代码context
reference_code.txt
:是the ground truth solution code
test_code.py
:测试代码
test_generate_pickle.py
:用于生成input里面pickles文件的脚本
数据集下载地址: https://github.com/HKUNLP/DS-1000/raw/main/ds1000_data.zip
论文地址: https://arxiv.org/abs/2211.11501
GitHub地址: https://github.com/HKUNLP/DS-1000
官方网站: https://ds1000-code-gen.github.io/
PapersWithCode地址: https://paperswithcode.com/paper/ds-1000-a-natural-and-reliable-benchmark-for
WuDaoCorpora 2.0是由北京智源人工智能研究院发布的多模态数据集。根据官网的介绍,WuDaoCorpora 2.0由全球最大的纯文本数据集、全球最大的多模态数据集和全球最大的中文对话数据集三部分构成,分别致力于构建微缩中文世界、打破图文模态壁垒、浓缩对话核心规律,从而形成多维度世界顶级数据库,促进中国的通用人工智能发展。
WuDaoCorpora 2.0数据集包含文本数据集、图文数据集和对话数据集三个。不过可惜的是,WuDaoCorpora 2.0数据集只开源文本数据集中的200GB,其它数据均不对外开放!
WuDaoCorpora 2.0文本数据集
采用20多种规则从100TB原始网页数据中清洗得出最终数据集,注重隐私数据信息的去除,源头上避免GPT-3存在的隐私泄露风险;包含教育、科技等50+个行业数据标签,可以支持多领域预训练模型的训练。WuDaoCorpora 2.0的文本数据集原始大小为3TB,但是开源给业界使用的仅200GB。数据格式为json,其包含的字段如下:
字段名 | 含义 |
---|---|
id | 数据在该json文件中的id |
uniqueKey | 这条数据的唯一识别码 |
titleUkey | 该标题的唯一识别码 |
dataType | 数据类型 |
title | 数据标题 |
content | 正文 |
WuDaoCorpora 2.0图文数据集
数据集精选高质量6.5亿图文对,数据总量达到93TB。 数据标签包括科技、人物、艺术等60+种类别。采用全面的数据清洗规则,去除涉恐涉暴等隐私敏感信息,保证数据集质量;融合中西方数据源,帮助模型解决文化壁垒带来的数据偏置问题。
WuDaoCorpora 2.0对话数据集
是目前体量最大的中文对话数据集。采用严格的逻辑清洗规则,对敏感数据进行过滤,从9TB原始数据筛选得到181GB高质量数据。可支撑智能助手、虚拟亲友等方面的下游应用,同时为开放型对话领域研究提供基础数据支撑。
BookCorpus是由多伦多大学的Yukun Zhu等人在2015年提出的一个关于书籍的数据集。该数据集主要是由尚未出版的作者写的免费书籍。该数据集的主要统计结果如下:
统计项 | 统计项(英文) | 统计结果 |
---|---|---|
书籍数量 | # of books | 11038 |
语句数量 | # of sentences | 74004228 |
单词数量 | # of words | 984846357 |
独立单词数(词汇) | # of unique words | 1316420 |
平均每个语句的单词数量 | mean # of words per sentence | 13 |
每个语句的单词中位数 | median # of words per sentence | 11 |
作者收集的书籍中的每一本书都至少包含2万个单词,防止过短的内容产生噪音影响。BookCorpus被大量用来训练自然语言模型的embedding结果。
该数据集首次在论文Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books中提出(arXiv地址: https://arxiv.org/abs/1506.06724 )
CC-Stories(又称STORIES),最早是由谷歌研究人员在论文A Simple Method for Commonsense Reasoning中发布。这篇论文主要的目标是解决常识推理问题(Commonsense Reasoning)。作者根据之前论文的做法(在评估阶段观察问题,然后从knowledge bases收集相关数据),在Commonsense Reasoning Tasks中构建了一个个性化的文本语料库,即STORIES。
该数据集是谷歌自己构建的一个个性化数据集,并没有公布。但是论文中描述了数据集的收集方式:从CommonCrawl数据集中聚合文档,选择的条件是与Commonsense Reasoning Tasks中问题重复n-grams的结果。每个文档在计算重合的n-grams时候都采用加权求和的方式进行。最终,选择前0.1%的结果作为数据集,形成STORIES。将这个数据集命名为 "STORIES"的原因是大多数的组成文件都是以故事的形式出现的,有一长串连贯的事件。STORIES现在习惯性被叫成CC-Stories(CC就是CommonCrawl)的意思。
CC-Stories最终产生了月100万个文档,最高的得分月0.08,相比较理论最高1.0的得分依然是比较低的。
尽管原始的CC-Stories数据集不再提供,但是也有人基于这个筛选规则,开源了一个CC-Stories的数据集,下载地址: https://huggingface.co/datasets/spacemanidol/cc-stories
DiffusionDB是全网第一个公开的大规模文本生成图像模板数据集(Text-to-Image Prompt)。它包含1400万个基于Stable Diffusion生成的图像。这些图像的参数设定由真实的用户设定prompts和超参数产生。
DiffusionDB目前是公开可获取的数据,它可以帮助我们完成多项任务,包括理解模板和生成模型之间的相互作用、检测deepfakes以及设计人类-人工智能交互工具以帮助用户更容易使用这些模型等。
注意,本数据集中大部分语言都是英语,不过也包含西班牙语、中文和俄语。
DiffusionDB具体信息
根据需要,DiffusionDB提供两个版本的数据集,分别是DiffusionDB 2M和DiffusionDB Large:
数据集名称 | 图像数量 | 不同prompts数量 | 大小 |
---|---|---|---|
DiffusionDB 2M | 200万 | 150万 | 1.6TB |
DiffusionDB Large | 1400万 | 180万 | 6.5TB |
这两个数据集的差别如下:
作者使用模块化的文件结构来分发DiffusionDB。DiffusionDB 2M中的200万张图片被分成2000个文件夹,其中每个文件夹包含1000张图片和一个JSON文件,该文件将这1000张图片与它们的提示和超参数联系起来。同样地,DiffusionDB Large中的1400万张图像被分成14000个文件夹。
数据集文件结构如下:
# DiffusionDB 2M
./
├── images
│ ├── part-000001
│ │ ├── 3bfcd9cf-26ea-4303-bbe1-b095853f5360.png
│ │ ├── 5f47c66c-51d4-4f2c-a872-a68518f44adb.png
│ │ ├── 66b428b9-55dc-4907-b116-55aaa887de30.png
│ │ ├── [...]
│ │ └── part-000001.json
│ ├── part-000002
│ ├── part-000003
│ ├── [...]
│ └── part-002000
└── metadata.parquet
# DiffusionDB Large
./
├── diffusiondb-large-part-1
│ ├── part-000001
│ │ ├── 0a8dc864-1616-4961-ac18-3fcdf76d3b08.webp
│ │ ├── 0a25cacb-5d91-4f27-b18a-bd423762f811.webp
│ │ ├── 0a52d584-4211-43a0-99ef-f5640ee2fc8c.webp
│ │ ├── [...]
│ │ └── part-000001.json
│ ├── part-000002
│ ├── part-000003
│ ├── [...]
│ └── part-010000
├── diffusiondb-large-part-2
│ ├── part-010001
│ │ ├── 0a68f671-3776-424c-91b6-c09a0dd6fc2d.webp
│ │ ├── 0a0756e9-1249-4fe2-a21a-12c43656c7a3.webp
│ │ ├── 0aa48f3d-f2d9-40a8-a800-c2c651ebba06.webp
│ │ ├── [...]
│ │ └── part-000001.json
│ ├── part-010002
│ ├── part-010003
│ ├── [...]
│ └── part-014000
└── metadata-large.parquet
数据集样例
例如,下面是f3501e05-aef7-4225-a9e9-f516527408ac.png的图片和它在part-000001.json中的键值对。
{
"f3501e05-aef7-4225-a9e9-f516527408ac.png": {
"p": "geodesic landscape, john chamberlain, christopher balaskas, tadao ando, 4 k, ",
"se": 38753269,
"c": 12.0,
"st": 50,
"sa": "k_lms"
},
}
上述具体字段含义如下:
DiffusionDB数据集的下载和使用
DiffusionDB在HuggingFace上开源托管: https://huggingface.co/datasets/poloclub/diffusiondb
相关的代码在GitHub上: https://github.com/poloclub/diffusiondb
论文地址: DiffusionDB: A Large-scale Prompt Gallery Dataset for Text-to-Image Generative Models
DiffusionDB的下载使用方式有两个,一个是使用HuggingFace的官方脚本:
import numpy as np
from datasets import load_dataset
# Load the dataset with the `large_random_1k` subset
dataset = load_dataset('poloclub/diffusiondb', 'large_random_1k')
第二个方法是使用PoloClub下载脚本:
脚本地址: https://github.com/poloclub/diffusiondb/blob/main/scripts/download.py
使用这个脚本运行即可。
DiffusionDB数据集的开源协议
DiffusionDB数据集以CC0 1.0许可协议提供。该资源库中的Python代码在MIT许可下提供。因此,使用基本没有限制(CC0 1.0是非常自由的开源协议: https://creativecommons.org/publicdomain/zero/1.0/ 没有版权要求,MIT也是类似!)
DiffusionDB的引用
@article{wangDiffusionDBLargescalePrompt2022,
title = {{{DiffusionDB}}: {{A}} Large-Scale Prompt Gallery Dataset for Text-to-Image Generative Models},
author = {Wang, Zijie J. and Montoya, Evan and Munechika, David and Yang, Haoyang and Hoover, Benjamin and Chau, Duen Horng},
year = {2022},
journal = {arXiv:2210.14896 [cs]},
url = {https://arxiv.org/abs/2210.14896}
}
书生·万卷 1.0是由上海人工智能实验室发布的一个开源大规模数据集,包含三个部分:纯文本格式数据集、文本-图像对数据集和视频数据集。
随着近年来GPT-3、ChatGPT等大模型的兴起,高质量的数据集在模型训练中扮演着越来越重要的角色。但是当前领先的预训练模型使用的数据集细节往往不公开,开源数据的匮乏制约着研究社区的进一步发展。特别是大规模中文数据集十分缺乏,对中文大模型以及业界模型的中文支持都有很大的影响。此次,上海人工智能实验室发布的这个数据集包含了丰富的中文,对于大模型的中文能力提升十分有价值。
为此,上海人工智能实验室近日开源发布了大规模多语言多模态数据集书生·万卷 1.0。
该数据集包含三个部分:纯文本数据集、文本图像对数据集和纯视频数据集。分别介绍如下:
书生·万卷 1.0文本数据集包含6亿份文档,来源于网络和书籍等。具体来说,所包含的数据集领域如下:
来源 | 具体内容 | 数据集规模 |
---|---|---|
英文互联网数据 | 来源于Common Crawl的网页数据 | 3.83亿个文件,542.51GB |
中文互联网数据 | 来源于网络上的各种网页、文档等 | 2.2亿个文件,466.54GB |
中文法律数据 | 来源于法律法规、判决文书等法律领域数据 | 800万个文件,37.89GB |
中文新闻数据 | 来源于各大新闻媒体的新闻报道 | 700万个文件,21.53GB |
中文考试数据 | 来源于各类考试的题目、试卷等 | 400万个文件,18.46GB |
中文专利数据 | 来源于专利文献数据库 | 100万个文件,4.62GB |
中文教材数据 | 来源于各学科教材 | 45.4万个文件,2.38GB |
中文维基百科 | 来源于中文维基百科 | 9.2万个文件,0.11GB |
可以看到,数据集十分丰富。根据介绍,书生·万卷 1.0文本数据集中中文数据占比35.1%,约2.2亿个文件,466.54GB。英文数据集占比61.4%,共3.83亿个文件,542.51GB。可以说应该是目前开源领域包含最多的中文数据集了!
书生·万卷 1.0文本-图像对数据集包含2200多万个文本-图像对数据,数据量超过200GB(不含图像文件)。其中主要来源如下:
来源 | 占比 | 数据量 |
---|---|---|
英文维基百科 | 37.7% | 900万对 |
中文权威媒体新闻 | 5.3% | 200万对 |
中文自媒体新闻 | 53.4% | 1000万对 |
中文维基百科 | 3.6% | 88.2万对 |
可以看到,这里的中文数据占比达到了62.3%!十分丰富!
书生·万卷 1.0视频数据集式包含1000多个视频文件,来源中国媒体集团(CMG)和上海媒体集团(SMG)的节目。
最后,书生·万卷 1.0数据集的开源协议是 CC BY 4.0 ,是知识共享组织制定的一个开源协议,它允许用户可以自由地共享、修改和商业使用受该协议保护的内容,只要遵守署名要求即可。