QUICK REVIEW

[论文解读] Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy

Kaiyu Yang, Klint Qinami|arXiv (Cornell University)|Dec 16, 2019

Misinformation and Its Impacts参考文献 73被引用 24

一句话总结

本文识别并解决了ImageNet人物子树中的三个偏见根源：停滞的WordNet概念、非视觉同义词集以及图像表示不平衡。通过过滤掉冒犯性及不可图像化的同义词集，并利用众包图像可表征性与人口统计学标注来平衡剩余数据分布，作者构建了一个更公平、更具代表性的ImageNet子集，以供下游视觉模型使用。

ABSTRACT

Computer vision technology is being used by many but remains representative of only a few. People have reported misbehavior of computer vision models, including offensive prediction results and lower performance for underrepresented groups. Current computer vision models are typically developed using datasets consisting of manually annotated images or videos; the data and label distributions in these datasets are critical to the models' behavior. In this paper, we examine ImageNet, a large-scale ontology of images that has spurred the development of many modern computer vision methods. We consider three key factors within the "person" subtree of ImageNet that may lead to problematic behavior in downstream computer vision technology: (1) the stagnant concept vocabulary of WordNet, (2) the attempt at exhaustive illustration of all categories with images, and (3) the inequality of representation in the images within concepts. We seek to illuminate the root causes of these concerns and take the first steps to mitigate them constructively.

研究动机与目标

调查ImageNet人物子树中的系统性偏见，这些偏见可能导致现实应用中模型行为不公。
分析偏见的三个根源：停滞的WordNet概念词汇、非视觉同义词集以及不同人口群体间图像表示的不均衡。
提出一种建设性、数据驱动的方法，以过滤和重新平衡人物子树，提升公平性与代表性。
为未来研究提供一个公开可获取、经整理的ImageNet子集，其人口统计学与图像可表征性标注得到改进。

提出的方法

使用内部标注将1,593个同义词集分类为冒犯性，1,239个分类为安全且可图像化，基于简单界面以避免众包噪声。
采用动态评分算法估算图像可表征性分数：持续收集评分，直到连续三个新评分落在先前评分均值±标准差范围内。
通过排除在标准试题（5个可图像化、1个不可图像化）上均方根误差≥2.0的工作者，实施质量控制。
对每个同义词集的多个工作者评分取平均，以计算稳定的图像可表征性分数，算法通过收集更多评分来适应模糊概念。
通过专用界面利用众包收集人口统计学标注（种族、性别、年龄），以评估表示不平衡情况。
过滤掉冒犯性及不可图像化的同义词集，并通过优先考虑多样化和代表性图像分布来平衡剩余数据集。

实验结果

研究问题

RQ1停滞的WordNet概念与非视觉同义词集如何导致ImageNet人物子树中的偏见？
RQ2在种族、性别和年龄等受保护属性上，人物子树中的图像表示在多大程度上存在不平衡？
RQ3系统性过滤与平衡过程能否提升大规模视觉数据集的公平性与代表性？
RQ4图像可表征性与冒犯性标注对最终数据子集的质量与可用性有何影响？
RQ5动态、自适应的评分收集如何提升图像可表征性等主观标注的可靠性？

主要发现

作者在人物子树中识别出1,593个冒犯性同义词集和1,239个安全且可图像化的同义词集，构成了过滤后更公平数据集的基础。
图像可表征性评分的平均每个同义词集为8.8次，72%的同义词集不超过10次评分，表明动态算法收敛效率高。
质量控制机制成功过滤了高误差工作者（RMSE ≥ 2.0），提升了图像可表征性标注的可靠性。
最终数据集包含一个经整理、平衡的ImageNet人物子树子集，其人口统计学与图像可表征性标注得到改进。
本研究表明，大规模数据集中的偏见不仅源于数据不平衡，也源于本体论本身的概念与词汇局限。
所提出的方法实现了一种系统性、可扩展的数据集整理方式，可应用于其他视觉数据集以提升公平性与代表性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。