MetaAI开源高质量高精度标注的图像数据集FACET:3.2万张图片、5万个主题,平均图像解析度达到1500×2000

标签:#FACET##图像数据集##数据集# 时间:2023/09/01 08:13:08 作者:小木

MetaAI在2023年8月31日开源了一个全新的图像数据集,FACET(FAirness in Computer Vision EvaluaTion),FACET数据集包含32,000张图片和50,000人,这些图片由专家进行了详细的标注,包括人口统计属性(如感知性别表达和感知年龄组)和其他物理属性(如感知肤色和发型)。这样的设计使得研究人员可以更全面、更深入地评估模型在不同人群中的表现,从而更准确地识别和解决模型的不公平性问题。


为什么要发布FACET数据集

FACET数据集是一个图像数据集,包含了3.2万张高精度的图像,最大的特点是包含图像相关的人员信息,如涉及到的人员的人口统计学信息、相关类别信息等。

在人工智能和机器学习的快速发展中,计算机视觉模型已经在各种应用场景中取得了显著的成功。然而,这些模型在不同人群和任务中的表现可能存在差异,这些差异通常与人们的人口统计特征有关。为了解决这一问题,MetaAI发布了FACET(FAirness in Computer Vision EvaluaTion)。

FACET数据集的具体信息

FACET数据包含3.2万张高精度、多样化的图像数据集,每一张图像都有与人员相关的详细标注,包括13个人员属性和52个人员类别信息。FACET数据集具体信息如下:

属性 详细信息
发布日期 2023年8月31日
目的 评估AI和机器学习视觉模型的健壮性和算法公平性
数据类型 图片
用途 仅用于研究目的
图片数量 32,000张
主题数量 50,000个
平均图片分辨率 1500×2000像素
人口统计属性 感知肤色、感知年龄组、感知性别表达等
其他属性 头发颜色、类型、面部毛发;配饰如头巾、口罩、帽子
人相关类别 篮球运动员、医生等
许可 仅用于评估目的,非商业和研究基础
数据来源 SA-1B的子集,由专家注释员收集
地理分布 未知
标签验证方法 由人类验证

具体来说,该数据集的评估标注包含图像每个人的Bounding boxes、52个人员相关的类别,以及来自SA-1B里面的6.9万个人物、服饰和头发相关的标签。具体来说如下:

分组 具体标签 包含的数量
人口统计属性 感知肤色 50,000
感知年龄组 50,000
感知性别表达 50,000
其他属性 头发颜色 50,000
头发类型 50,000
面部毛发 50,000
头巾 50,000
口罩 50,000
帽子 50,000
纹身 50,000
人相关类别 篮球运动员 不详
医生 不详

FACET相关资源

FACET具体资源如下。

FACET数据集的论文:https://ai.meta.com/research/publications/facet-fairness-in-computer-vision-evaluation-benchmark/
FACET数据集的下载和申请地址:https://ai.meta.com/datasets/facet-downloads/
FACET数据集的介绍:https://ai.meta.com/datasets/facet/

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送