QUICK REVIEW

[논문 리뷰] What's in a Name? Reducing Bias in Bios without Access to Protected Attributes

Alexey Romanov, Maria De‐Arteaga|arXiv (Cornell University)|2019. 04. 10.

Ethics in Clinical Research참고 문헌 21인용 수 36

한 줄 요약

논문은 학습 시 두 가지 패널티(CluCL과 CoCL)를 제안하여 분류기가 이름 임베딩과 직업 예측을 연관짓는 것을 억제하고, 배치 시 보호 속성 사용 없이 인종 및 성별 편향을 감소시킵니다.

ABSTRACT

There is a growing body of work that proposes methods for mitigating bias in machine learning systems. These methods typically rely on access to protected attributes such as race, gender, or age. However, this raises two significant challenges: (1) protected attributes may not be available or it may not be legal to use them, and (2) it is often desirable to simultaneously consider multiple protected attributes, as well as their intersections. In the context of mitigating bias in occupation classification, we propose a method for discouraging correlation between the predicted probability of an individual's true occupation and a word embedding of their name. This method leverages the societal biases that are encoded in word embeddings, eliminating the need for access to protected attributes. Crucially, it only requires access to individuals' names at training time and not at deployment time. We evaluate two variations of our proposed method using a large-scale dataset of online biographies. We find that both variations simultaneously reduce race and gender biases, with almost no reduction in the classifier's overall true positive rate.

연구 동기 및 목표

보호 속성 없이 직업 예측에서 편향 감소를 촉진한다.
이름 임베딩에 내재된 사회적 편향을 활용해 학습을 제약한다.
어떤 분류기와도 호환되는 두 가지 손실 기반 패널티(CluCL 및 CoCL)를 도입한다.
최소 TPR 손실로 대규모 BIOS 데이터셋에서의 편향 감소를 시연한다.

제안 방법

이름을 단어 임베딩으로 표현하고 k-means 클러스터링(CluCL)을 적용해 클러스터 간 예측 직업 확률을 정렬한다.
예측 직업 확률과 이름 임베딩 간의 공분산을 최소화하는 Covariance Constrained Loss(CoCL)을 정의한다.
L_total = L + lambda * L_CL로 각 손실을 결합해 패널티 강도를 제어한다.
클래스별(직업별) 계산을 적용해 클러스터 차이 또는 공분산을 계산한 뒤 클래스 간 평균을 낸다.
가중치 조정의 해석성을 위해 단일 층 신경망 분류기를 사용한다.
클래스 불균형으로 가중된 교차 엔트로피를 사용해 평가하고, 균형화된 TPR과 인종/성별 간 차이를 보고한다.

실험 결과

연구 질문

RQ1이름 임베딩이 인종과 성별 편향을 암묵적으로 포착해 직업 예측으로 확산될 수 있는가?
RQ2예측과 이름 임베딩 간의 상관관계를 제약해 보호 속성 없이 편향을 줄일 수 있는가?
RQ3CluCL과 CoCL이 전체 분류기 성능에 큰 영향을 주지 않으면서 인종 및 성별 편향을 줄이는가?
RQ4원본 Bios와 제거된 이름/대명사 버전 등 서로 다른 이름 가용성 데이터셋에서 방법의 성능은 어떠한가? 합성 이름 실험에서의 성능은?
RQ5훈련 시 이름 기반 프록시를 이용해 교차편향 등 다중 편향을 완화할 수 있는가?

주요 결과

CluCL과 CoCL 모두 직업 예측에서 인종 및 성별 편향을 감소시킨다.
Adult 데이터셋에서 lambda=2인 CoCL은 RMS 인종 간 격차를 0.12에서 0.08로, RMS 성별 격차를 0.299에서 0.163으로 감소시키며 균형화된 TPR은 약 0.5% 감소.
Adult 데이터셋에서 lambda=2인 CluCL은 RMS 인종 간 격차를 0.085로, RMS 성별 격차를 0.165로 감소시키며 균형화된 TPR은 약 1.0% 감소.
Bios 데이터셋에서 lambda=2인 CoCL은 RMS 인종 간 격차를 0.046으로, RMS 성별 격차를 0.109(원본)로 감소시키며 균형화된 TPR은 설정에 따라 약 0.0–0.5% 변화.
Bios 제거 데이터셋에서는 두 방법 모두 편향을 여전히 감소시키나 이름/대명사 제거로 인해 그 강도가 약해진다.
람다를 증가시킬수록 편향 감소는 커지나 균형화된 TPR에 영향이 있을 수 있다; lambda≈6 범위에서 상당한 편향 감소와 소폭의 TPR 손실을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.