MetaAI开源高质量高精度标注的图像数据集FACET:3.2万张图片、5万个主题,平均图像解析度达到1500×2000
MetaAI在2023年8月31日开源了一个全新的图像数据集,FACET(FAirness in Computer Vision EvaluaTion),FACET数据集包含32,000张图片和50,000人,这些图片由专家进行了详细的标注,包括人口统计属性(如感知性别表达和感知年龄组)和其他物理属性(如感知肤色和发型)。这样的设计使得研究人员可以更全面、更深入地评估模型在不同人群中的表现,从而更准确地识别和解决模型的不公平性问题。

为什么要发布FACET数据集
FACET数据集是一个图像数据集,包含了3.2万张高精度的图像,最大的特点是包含图像相关的人员信息,如涉及到的人员的人口统计学信息、相关类别信息等。
在人工智能和机器学习的快速发展中,计算机视觉模型已经在各种应用场景中取得了显著的成功。然而,这些模型在不同人群和任务中的表现可能存在差异,这些差异通常与人们的人口统计特征有关。为了解决这一问题,MetaAI发布了FACET(FAirness in Computer Vision EvaluaTion)。
FACET数据集的具体信息
FACET数据包含3.2万张高精度、多样化的图像数据集,每一张图像都有与人员相关的详细标注,包括13个人员属性和52个人员类别信息。FACET数据集具体信息如下:
属性 | 详细信息 |
---|---|
发布日期 | 2023年8月31日 |
目的 | 评估AI和机器学习视觉模型的健壮性和算法公平性 |
数据类型 | 图片 |
用途 | 仅用于研究目的 |
图片数量 | 32,000张 |
主题数量 | 50,000个 |
平均图片分辨率 | 1500×2000像素 |
人口统计属性 | 感知肤色、感知年龄组、感知性别表达等 |
其他属性 | 头发颜色、类型、面部毛发;配饰如头巾、口罩、帽子 |
人相关类别 | 篮球运动员、医生等 |
许可 | 仅用于评估目的,非商业和研究基础 |
数据来源 | SA-1B的子集,由专家注释员收集 |
地理分布 | 未知 |
标签验证方法 | 由人类验证 |
具体来说,该数据集的评估标注包含图像每个人的Bounding boxes、52个人员相关的类别,以及来自SA-1B里面的6.9万个人物、服饰和头发相关的标签。具体来说如下:
分组 | 具体标签 | 包含的数量 |
---|---|---|
人口统计属性 | 感知肤色 | 50,000 |
感知年龄组 | 50,000 | |
感知性别表达 | 50,000 | |
其他属性 | 头发颜色 | 50,000 |
头发类型 | 50,000 | |
面部毛发 | 50,000 | |
头巾 | 50,000 | |
口罩 | 50,000 | |
帽子 | 50,000 | |
纹身 | 50,000 | |
人相关类别 | 篮球运动员 | 不详 |
医生 | 不详 |
FACET相关资源
FACET具体资源如下。
FACET数据集的论文:https://ai.meta.com/research/publications/facet-fairness-in-computer-vision-evaluation-benchmark/
FACET数据集的下载和申请地址:https://ai.meta.com/datasets/facet-downloads/
FACET数据集的介绍:https://ai.meta.com/datasets/facet/
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
