QUICK REVIEW

[논문 리뷰] FairFace: Face Attribute Dataset for Balanced Race, Gender, and Age

Kimmo Kärkkäinen, Jungseock Joo|arXiv (Cornell University)|2019. 08. 14.

Face recognition and analysis참고 문헌 66인용 수 141

한 줄 요약

FairFace는 일반화 및 인종·성별 공정성을 개선하기 위해 대규모의 현장(face-in-the-wild) 속성 데이터셋을 7개 인종 범주로 균형 있게 제공하여 일반화와 공정성을 향상시킵니다. FairFace에서 학습된 모델은 신규 데이터셋에서 인구통계학적 그룹 간 정확도가 보다 균형적으로 나타납니다.

ABSTRACT

Existing public face datasets are strongly biased toward Caucasian faces, and other races (e.g., Latino) are significantly underrepresented. This can lead to inconsistent model accuracy, limit the applicability of face analytic systems to non-White race groups, and adversely affect research findings based on such skewed data. To mitigate the race bias in these datasets, we construct a novel face image dataset, containing 108,501 images, with an emphasis of balanced race composition in the dataset. We define 7 race groups: White, Black, Indian, East Asian, Southeast Asian, Middle East, and Latino. Images were collected from the YFCC-100M Flickr dataset and labeled with race, gender, and age groups. Evaluations were performed on existing face attribute datasets as well as novel image datasets to measure generalization performance. We find that the model trained from our dataset is substantially more accurate on novel datasets and the accuracy is consistent between race and gender groups.

연구 동기 및 목표

기존 공개 얼굴 데이터셋에서 White 얼굴에 대한 편향과 그것이 공정성과 일반화에 미치는 영향을 강조한다.
모델 학습의 인종 편향을 완화하기 위해 7개 인종 그룹을 다루는 대규모의 균형 데이터셋을 제안한다.
새로운 데이터에서 일반화 및 인종과 성별 간의 균형 잡힌 정확도 향상을 보여준다.
데이터셋 다양성과 교차 데이터셋 성능에 대한 실증 분석을 제공하여 공정한 분류기 개발을 지원한다.

제안 방법

YFCC-100M 및 기타 소스에서 7개 인종 범주(White, Black, Indian, East Asian, Southeast Asian, Middle East, and Latino)를 포함하는 대-scale 현장 얼굴 데이터셋(108,501 이미지)을 구성한다.
소셜 미디어 속 얼굴에 대해 인종, 성별 및 연령대에 대해 아마존 메커니컬 턝(Amazon Mechanical Turk)으로 합의 확인 및 이후 모델 기반의 정제를 통해 주석을 부여한다.
FairFace 데이터를 이용해 ResNet-34 기반 속성 분류기를 학습시키고 cross-dataset 일반화를 평가하기 위해 UTKFace, LFWA+, CelebA를 대상으로 평가한다.
인종 및 성별 그룹 간 정확도 일관성을 측정하고 인구통계학적 그룹 간 최대 정확도 차이를 계산하여 공정성을 평가한다.
세 가지 신규의 비-FairFace 데이터셋(Geo-tagged Twitter countries, media photographs, protest dataset)에서 일반화를 테스트하여 향상된 강건성을 보여준다.

실험 결과

연구 질문

RQ1현장(face-in-the-wild) 속성 데이터셋이 인종, 성별 및 연령 분류를 위한 교차 데이터셋 일반화를 개선할 수 있는가?
RQ2FairFace 학습이 기존 데이터셋에 비해 인종 및 성별 간 정확도 차이를 줄이는가?
RQ3FairFace가 서로 다른 소스 및 지리적 지역의 보지 않은 데이터에 어떻게 일반화되는가?
RQ4데이터셋의 균형이 얼굴 속성 작업의 인구통계학적 하위집합 성능에 어떤 영향을 미치는가?

주요 결과

FairFace로 학습된 모델은 UTKFace, LFWA+, CelebA로 학습된 모델보다 신규 데이터셋에서 더 높은 전체 정확도를 달성한다.
FairFace는 White 및 비 White 그룹 간 성별 정확도 편차를 더 균형 있게 만들고, 다른 데이터셋에 비해 최대 정확도 차이가 현저히 작다.
검증된 하위 그룹 전반에 걸쳐 FairFace는 비 White 인종(예: Black, Indian, Middle East, Latino)에 대해 비교대비 일반화와 일관된 성능을 보인다.
더 작은 FairFace 하위집합(9k, 18k)도 외부 데이터셋에서 더 큰 기준선보다 성능이 우수하여 일반화가 데이터의 크기뿐 아니라 데이터 밸런스에서도 좌우됨을 시사한다.
t-SNE 시각화 및 페어와이즈 거리 분석은 FairFace가 경쟁 데이터셋보다 더 다양하고 확산된 임베딩 공간을 커버한다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.