Skip to main content
QUICK REVIEW

[論文レビュー] FairFace: Face Attribute Dataset for Balanced Race, Gender, and Age

Kimmo Kärkkäinen, Jungseock Joo|arXiv (Cornell University)|Aug 14, 2019
Face recognition and analysis参考文献 66被引用数 141
ひとこと要約

FairFaceは、属性分類の一般化と人種・性別における公正性を向上させるために、7つの人種カテゴリーを均衡させた大規模な野外データセットを導入します。FairFaceで訓練されたモデルは、未知データセットにおいて人口統計グループ間でより均衡した精度を示します。

ABSTRACT

Existing public face datasets are strongly biased toward Caucasian faces, and other races (e.g., Latino) are significantly underrepresented. This can lead to inconsistent model accuracy, limit the applicability of face analytic systems to non-White race groups, and adversely affect research findings based on such skewed data. To mitigate the race bias in these datasets, we construct a novel face image dataset, containing 108,501 images, with an emphasis of balanced race composition in the dataset. We define 7 race groups: White, Black, Indian, East Asian, Southeast Asian, Middle East, and Latino. Images were collected from the YFCC-100M Flickr dataset and labeled with race, gender, and age groups. Evaluations were performed on existing face attribute datasets as well as novel image datasets to measure generalization performance. We find that the model trained from our dataset is substantially more accurate on novel datasets and the accuracy is consistent between race and gender groups.

研究の動機と目的

  • 既存の公開顔データセットにおけるWhite顔(白人顔)への偏りと、それが公正性と一般化に及ぼす影響を強調する。
  • モデル訓練における人種バイアスを緩和するため、7つの人種グループをカバーする大規模で均衡の取れたデータセットを提案する。
  • 未知データに対して、一般化の改善と人種・性別間の均衡した精度を示す。
  • データセットの多様性とデータセット間の性能について実証的分析を提供し、公正な分類器の開発を支援する。

提案手法

  • YFCC-100M および他のソースから、White, Black, Indian, East Asian, Southeast Asian, Middle East, and Latino の7つの人種カテゴリーを含む、108,501枚の大規模な野外顔データセットを構築する。
  • 各顔を人種・性別・年齢層で注釈し、Amazon Mechanical Turkを用いてコンセンサス検証とその後のモデルベースの精査を行う。
  • FairFaceデータを用いてResNet-34ベースの属性分類器を訓練し、クロスデータセット一般化を評価するためUTKFace、LFWA+、CelebAで評価する。
  • 人種・性別グループ間の精度の一貫性を測定し、公平性を評価し、人口統計グループ間の最大精度格差を算出する。
  • 新規の3つの非FairFaceデータセット(Geo-tagged Twitter countries、media photographs、protest dataset)で一般化をテストし、堅牢性の向上を示す。

実験結果

リサーチクエスチョン

  • RQ1人種的に均衡の取れた野外の顔属性データセットは、人種・性別・年齢分類のデータセット間の一般化を改善できるか?
  • RQ2FairFaceでの訓練は、既存データセットと比較して人種・性別グループ間の精度格差を減らすか?
  • RQ3FairFaceは、異なるソースや地理的地域の未知データにどのように一般化するか?
  • RQ4顔属性タスクにおけるデータセットのバランスが、人口統計的サブグループの性能に与える影響は何か?

主な発見

  • FairFaceで訓練されたモデルは、UTKFace、LFWA+、CelebAで訓練されたモデルよりも新規データセットでの総合精度が高い。
  • FairFaceはWhiteと非Whiteグループ間で性別の精度がより均衡しており、他のデータセットよりも最大精度格差が大幅に小さい。
  • 検証されたサブグループ全体で、FairFaceは一貫した性能と非White人種(例: Black, Indian, Middle East, Latino)に対する一般化の改善を、ベースラインと比較して示している。
  • 小規模なFairFaceサブセット(9k、18k)でさえ外部データセット上でより大きなベースラインを上回り、一般化はデータセットのバランスがサイズだけでなく、バランスによっても推進されることを示している。
  • t-SNE可視化とペア距離分析は、FairFaceが競合データセットよりも多様で分散した埋め込み空間をカバーしていることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。