QUICK REVIEW

[论文解读] Balanced Datasets Are Not Enough: Estimating and Mitigating Gender Bias in Deep Image Representations

Tianlu Wang, Jieyu Zhao|arXiv (Cornell University)|Nov 20, 2018

Adversarial Robustness in Machine Learning参考文献 48被引用 31

一句话总结

本文引入数据集泄漏和模型泄漏作为新型度量指标，用于量化视觉识别模型中的性别偏见。结果表明，即使数据集平衡，深度模型仍会显著放大性别偏见。为此，本文提出一种对抗性去偏方法，从中间特征表示中移除与性别相关的信息，使偏见降低53%–67%，同时仅造成1.2–2.2的F1分数下降，保持了较高的准确率。

ABSTRACT

In this work, we present a framework to measure and mitigate intrinsic biases with respect to protected variables --such as gender-- in visual recognition tasks. We show that trained models significantly amplify the association of target labels with gender beyond what one would expect from biased datasets. Surprisingly, we show that even when datasets are balanced such that each label co-occurs equally with each gender, learned models amplify the association between labels and gender, as much as if data had not been balanced! To mitigate this, we adopt an adversarial approach to remove unwanted features corresponding to protected variables from intermediate representations in a deep neural network -- and provide a detailed analysis of its effectiveness. Experiments on two datasets: the COCO dataset (objects), and the imSitu dataset (actions), show reductions in gender bias amplification while maintaining most of the accuracy of the original models.

研究动机与目标

测量并量化视觉表征中超出训练数据中存在的性别偏见放大现象。
探究当每个性别与每个类别标签的共现频率相等时，即数据集平衡时，是否能消除训练模型中的性别偏见。
开发一种方法，从中间特征表示中移除与性别相关的信息，且不依赖真实分割或掩码标注。
评估在不同去偏策略下，模型准确率与偏见降低之间的权衡。
证明即使模型未被显式训练为预测性别，也会因未标注的虚假相关性而放大偏见。

提出的方法

引入‘数据集泄漏’作为通过分类器从真实标签中预测性别的可预测性，以及‘模型泄漏’作为从模型预测中预测性别的可预测性；当模型泄漏超过数据集泄漏时即发生偏见放大。
采用双流分类器结构：一者用于从标签中估计性别（数据集泄漏），另一者用于从模型输出中估计性别（模型泄漏），偏见放大发生在模型泄漏超过数据集泄漏时。
通过对抗性训练从中间卷积层（如conv4、conv5）中移除与性别相关特征，方法为训练性别预测器使其失效，同时保留与任务相关的特征。
采用基于U-Net的自编码器在图像空间中可视化并应用去性别化操作，选择性地遮蔽性别线索（如人脸、服装），同时保留物体和动作识别信号。
使用多目标损失函数进行模型训练：主任务采用标准交叉熵损失，同时加入对抗性损失以最小化中间特征中性别可预测性。
将该方法与强基线方法进行比较：使用真实分割掩码的遮蔽、模糊处理、噪声注入以及随机预测值置换。

实验结果

研究问题

RQ1当训练数据在性别与标签组合上完全平衡时，性别偏见放大是否仍然存在？
RQ2与真实标签相比，从模型预测中能在多大程度上推断出性别（模型泄漏）？这反映了何种偏见放大的含义？
RQ3对抗性去偏方法是否能有效降低模型泄漏，同时不牺牲模型准确率？
RQ4与使用特权信息（如分割掩码）或随机噪声的基线方法相比，该方法在偏见-准确率权衡上的表现如何？
RQ5该方法是否对特定物体或动作类别造成性能的显著损害？

主要发现

即使在数据集完全平衡（即每个性别与每个标签共现频率相等）的情况下，模型仍会显著放大性别偏见，模型泄漏远超数据集泄漏。
在COCO数据集上，所提出的对抗性去偏方法使模型泄漏降低53%，偏见放大程度降低53%，F1分数仅下降1.21点。
在imSitu数据集上，该方法使模型泄漏降低67%，偏见放大程度降低67%，F1分数仅下降2.26点。
对抗性方法在偏见降低与准确率之间实现了最佳权衡，优于噪声注入、模糊处理和基于分割的遮蔽方法。
去偏后，无任何单一物体或动词类别性能显著下降，表现为性能变化图中F1分数变化与y=x直线高度一致。
定性结果表明，该方法仅选择性地遮蔽与性别相关的信息（如人脸、服装），同时保留物体和动作识别所需的信息，而不会像全图遮蔽那样影响整体表征。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。