QUICK REVIEW

[논문 리뷰] Understanding Unequal Gender Classification Accuracy from Face Images

Vidya Muthukumar, Tejaswini Pedapati|arXiv (Cornell University)|2018. 11. 30.

Face recognition and analysis참고 문헌 30인용 수 45

한 줄 요약

본 논문은 피부 타입, 성별, 머리 길이 등 교차적 집단 간에 상용 성별 분류기가 왜 불균형하게 작동하는지 조사하고, 피부 타입의 영향이 미미하며 머리 길이가 주된 원인은 아니고 얼굴 특징과 메이크업이 편향에 기여한다는 것을 안정성 테스트와 대비적 설명을 통해 밝혀낸다.

ABSTRACT

Recent work shows unequal performance of commercial face classification services in the gender classification task across intersectional groups defined by skin type and gender. Accuracy on dark-skinned females is significantly worse than on any other group. In this paper, we conduct several analyses to try to uncover the reason for this gap. The main finding, perhaps surprisingly, is that skin type is not the driver. This conclusion is reached via stability experiments that vary an image's skin type via color-theoretic methods, namely luminance mode-shift and optimal transport. A second suspect, hair length, is also shown not to be the driver via experiments on face images cropped to exclude the hair. Finally, using contrastive post-hoc explanation techniques for neural networks, we bring forth evidence suggesting that differences in lip, eye and cheek structure across ethnicity lead to the differences. Further, lip and eye makeup are seen as strong predictors for a female face, which is a troubling propagation of a gender stereotype.

연구 동기 및 목표

피부 타입만으로 불평등한 성별 분류 정확도를 설명할 수 있는지 평가한다.
얼굴에서 머리 정보를 제외하여 머리 길이의 영향을 평가한다.
성별 분류 결정에 필요한 최소한의 충분한 얼굴 특징을 식별한다.

제안 방법

성별과 피부 타입으로 균형을 이룬 PPB* 데이터셋을 사용하여 피부 타입에 따른 분류기 강인성을 테스트한다.
YCrCb 공간에서 밝기 모드 시프트와 최적 전송(optimal transport)을 이용해 피부 타입 변이 방법을 적용하고 예측의 안정성을 테스트한다.
머리카락 정보를 배제한 얼굴 크롭을 사용하고 성능을 비교하여 머리 길이를 잠재적 혼란변수로 조사한다.
대비적 설명을 활용해 성별 분류를 주도하는 두드러진 얼굴 특징(입술, 눈, 볼; 코, 이마)을 식별한다.
여러 분류기(IBM Watson API, CelebA의 딥 페이스 특징을 이용한 SVM, VGGFace2의 ResNet-50)를 학습·평가해 결과를 교차검증한다.
피부 타입 변화하에서 점수의 안정성을 정량화하기 위해 일표본 t-검정 등의 통계적 검정을 사용해 예측을 분석한다.

실험 결과

연구 질문

RQ1피부 타입만으로 성별 분류 결과에 유의미한 영향을 미치는가?
RQ2머리 길이가 성별 분류의 불균등 정확도에 원인인가?
RQ3성별 예측에 충분한 설명으로 작용하는 얼굴 특징은 무엇이며, 이는 고정관념이나 편향된 신호를 반영하는가?

주요 결과

Classifier	Dark-skinned Female (DF)	Dark-skinned Male (DM)	Light-skinned Female (LF)	Light-skinned Male (LM)
Watson	82.5%	99.3%	98.5%	99.5%
Customized	70.5%	95.7%	86.8%	97.5%

밝기 모드 시프트나 최적 전송을 통한 피부 타입 변동은 분류 점수에 미미한 영향을 미치며, 예측 점수의 변화 대부분이 매우 작다.
흑인 피부의 여성의 경우 밝히면 86.6%(모드시프트) 및 76.6%(OT) 점수 중 대부분이 0.1 이내로 변하지 않으며, 피부 밝은 여성의 경우 어둡게 하면 96.3%(모드시프트) 및 92.1%(OT) 가 0.1 이내로 변하지 않는다.
머리 길이는 흑인 여성에서 정확도 차이에 상관관계가 있다: 짧은 머리 흑인 여성은 75% 정확도, 긴 머리 흑인 여성은 92% 정확도; 전반적으로 긴 머리는 그룹 전체에서 더 높은 정확도와 일치한다.
얼굴만 잘라낸 크롭(헤어 제외)에서도 정확도 차이는 여전하다: 흑인 피부 여성의 정확도가 다른 그룹보다 낮게 나타나며, 평가된 분류기에서 예를 들어 Watson 딥 피처의 SVM에서 66.3% 여성이 흑인, 91.5% 남성이 흑인; 80.6% 여성이 백인, 96.9% 남성이 백인.
대비적 설명은 입술, 볼, 눈(메이크업이 있는 경우가 많음)을 여성 예측의 두드러진 특징으로 밝히고, 코/이마는 남성 예측과 일치한다; 이는 데이터셋에 존재하는 성별화된 얼굴 신호에 의존함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.