MetaAI开源高质量高精度标注的图像数据集FACET:3.2万张图片、5万个主题,平均图像解析度达到1500×2000

821 阅读

MetaAI在2023年8月31日开源了一个全新的图像数据集,FACET(FAirness in Computer Vision EvaluaTion),FACET数据集包含32,000张图片和50,000人,这些图片由专家进行了详细的标注,包括人口统计属性(如感知性别表达和感知年龄组)和其他物理属性(如感知肤色和发型)。这样的设计使得研究人员可以更全面、更深入地评估模型在不同人群中的表现,从而更准确地识别和解决模型的不公平性问题。

为什么要发布FACET数据集

FACET数据集是一个图像数据集,包含了3.2万张高精度的图像,最大的特点是包含图像相关的人员信息,如涉及到的人员的人口统计学信息、相关类别信息等。

在人工智能和机器学习的快速发展中,计算机视觉模型已经在各种应用场景中取得了显著的成功。然而,这些模型在不同人群和任务中的表现可能存在差异,这些差异通常与人们的人口统计特征有关。为了解决这一问题,MetaAI发布了FACET(FAirness in Computer Vision EvaluaTion)。

FACET数据集的具体信息

FACET数据包含3.2万张高精度、多样化的图像数据集,每一张图像都有与人员相关的详细标注,包括13个人员属性和52个人员类别信息。FACET数据集具体信息如下:

属性详细信息
发布日期2023年8月31日
目的评估AI和机器学习视觉模型的健壮性和算法公平性
数据类型图片
用途仅用于研究目的
图片数量32,000张
主题数量50,000个
平均图片分辨率1500×2000像素
人口统计属性感知肤色、感知年龄组、感知性别表达等
其他属性头发颜色、类型、面部毛发;配饰如头巾、口罩、帽子
人相关类别篮球运动员、医生等
许可仅用于评估目的,非商业和研究基础
数据来源SA-1B的子集,由专家注释员收集
地理分布未知
标签验证方法由人类验证

具体来说,该数据集的评估标注包含图像每个人的Bounding boxes、52个人员相关的类别,以及来自SA-1B里面的6.9万个人物、服饰和头发相关的标签。具体来说如下:

分组具体标签包含的数量
人口统计属性感知肤色50,000
感知年龄组50,000
感知性别表达50,000
其他属性头发颜色50,000
头发类型50,000
面部毛发50,000
头巾50,000
口罩50,000
帽子50,000
纹身50,000
人相关类别篮球运动员不详
医生不详

FACET相关资源

FACET具体资源如下。

FACET数据集的论文:https://ai.meta.com/research/publications/facet-fairness-in-computer-vision-evaluation-benchmark/ FACET数据集的下载和申请地址:https://ai.meta.com/datasets/facet-downloads/ FACET数据集的介绍:https://ai.meta.com/datasets/facet/

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码