QUICK REVIEW

[论文解读] FairFace: Face Attribute Dataset for Balanced Race, Gender, and Age

Kimmo Kärkkäinen, Jungseock Joo|arXiv (Cornell University)|Aug 14, 2019

Face recognition and analysis参考文献 66被引用 141

一句话总结

FairFace 引入了一个大规模的野外人脸属性数据集，包含平衡的 7 个种族类别，旨在提升属性分类在跨种族和性别的泛化性与公平性。使用 FairFace 训练的模型在新数据集上对不同人口群体的准确率更加平衡。

ABSTRACT

Existing public face datasets are strongly biased toward Caucasian faces, and other races (e.g., Latino) are significantly underrepresented. This can lead to inconsistent model accuracy, limit the applicability of face analytic systems to non-White race groups, and adversely affect research findings based on such skewed data. To mitigate the race bias in these datasets, we construct a novel face image dataset, containing 108,501 images, with an emphasis of balanced race composition in the dataset. We define 7 race groups: White, Black, Indian, East Asian, Southeast Asian, Middle East, and Latino. Images were collected from the YFCC-100M Flickr dataset and labeled with race, gender, and age groups. Evaluations were performed on existing face attribute datasets as well as novel image datasets to measure generalization performance. We find that the model trained from our dataset is substantially more accurate on novel datasets and the accuracy is consistent between race and gender groups.

研究动机与目标

突出现有公开人脸数据集中对白人脸的偏向及其对公平性和泛化性的影响。
提出一个覆盖七个种族群体的大规模、平衡数据集，以缓解模型训练中的种族偏见。
证明在未见数据上实现更好的泛化和跨种族与性别的平衡准确性。
提供对数据集多样性和跨数据集性能的实证分析，以支持公平分类器的开发。

提出的方法

从 YFCC-100M 及其他来源构建一个规模庞大的野外人脸数据集（108,501 张图像），包含七个种族类别：White、Black、Indian、East Asian、Southeast Asian、Middle East 和 Latino。
使用 Amazon Mechanical Turk 将每张人脸标注为种族、性别和年龄组，并通过共识验证以及后续基于模型的改进进行细化。
使用 FairFace 数据训练基于 ResNet-34 的属性分类器，并在 UTKFace、LFWA+ 和 CelebA 上进行评估，以评估跨数据集的泛化能力。
通过衡量不同种族和性别群体之间的准确率一致性并计算各人口群体之间的最大准确率差异来评估公平性。
在三个新颖的非 FairFace 数据集上测试泛化能力（Geo-tagged Twitter countries、media photographs、protest dataset），以证明鲁棒性改善。

实验结果

研究问题

RQ1一个在野外、种族平衡的人脸属性数据集能否提高种族、性别和年龄分类的跨数据集泛化能力？
RQ2与现有数据集相比，在 FairFace 上进行训练是否能降低不同种族和性别群体之间的准确率差异？
RQ3FairFace 如何对来自不同来源和地理区域的未见数据进行泛化？
RQ4数据集平衡对人脸属性任务中人口统计子群体表现的影响是什么？

主要发现

在新颖数据集上，基于 FairFace 训练的模型总体准确性高于在 UTKFace、LFWA+ 或 CelebA 上训练的模型。
FairFace 在 White 与非 White 群体之间的性别准确率更平衡，且最大准确率差距显著低于其他数据集。
在测试的子群体中，FairFace 显示出一致的性能，并在非 White 人种（如 Black、Indian、Middle East、Latino）上相较基线具有改进的泛化。
即使是较小的 FairFace 子集（9k、18k），在外部数据集上也优于较大的基线数据集，表明数据集平衡性（而不仅是规模）推动泛化。
t-SNE 可视化和成对距离分析表明，FairFace 覆盖的嵌入空间比竞争数据集更为多样且分布广泛。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。