QUICK REVIEW

[논문 리뷰] Lipstick on a Pig: Debiasing Methods Cover up Systematic Gender Biases in Word Embeddings But do not Remove Them

Hila Gonen, Yoav Goldberg|arXiv (Cornell University)|2019. 03. 09.

Topic Modeling참고 문헌 8인용 수 232

한 줄 요약

본 논문은 널리 사용되는 디바이아이징 방법이 단어 임베딩의 성별 방향을 감소시키지만 근본적인 성별 편향을 제거하지 못하고, 이는 이웃 구조와 단어 간 상대적 유사성에 남아 있음을 보여준다.

ABSTRACT

Word embeddings are widely used in NLP for a vast range of tasks. It was shown that word embeddings derived from text corpora reflect gender biases in society. This phenomenon is pervasive and consistent across different word embedding models, causing serious concern. Several recent works tackle this problem, and propose methods for significantly reducing this gender bias in word embeddings, demonstrating convincing results. However, we argue that this removal is superficial. While the bias is indeed substantially reduced according to the provided bias definition, the actual effect is mostly hiding the bias, not removing it. The gender bias information is still reflected in the distances between "gender-neutralized" words in the debiased embeddings, and can be recovered from them. We present a series of experiments to support this claim, for two debiasing methods. We conclude that existing bias removal techniques are insufficient, and should not be trusted for providing gender-neutral modeling.

연구 동기 및 목표

임베딩에서 성별 프로젝션만을 목표로 하는 디바이아이징 방법의 부적합성을 동기부여하고 정량화한다.
남아 있는 편향이 이웃 구조 및 임베딩의 전역 기하학과 상관관계가 있음을 보여준다.
현재의 디바이아이징 방식이 진정한 성중립 표현을 산출하지 못한다는 근거를 제시한다.

제안 방법

하드 디바이즈드(Bolukbasi et al. 2016b) 및 GN-GloVe(Zhao et al. 2018) 임베딩을 편향된 대응물과 비교한다.
성별 방향(he–she)에 대한 투사를 통해 단어 편향을 정량화한다.
클러스터링, 이웃 분석, WEAT 기반 연관성을 사용하여 잔여 편향을 평가한다.
편향 단어 세트와 디바이즈드 단어 세트에서 성별을 일반화하는 학습된 분류기의 성능을 평가한다.

실험 결과

연구 질문

RQ1디바이징이 성별 방향으로 정의된 단어의 성별 프로젝션을 감소시키는가?
RQ2디바이징 후에도 잔여 편향이 단어 이웃 및 의미 연관성에 반영되는가?
RQ3이웃 분석이나 분류기를 통해 디바이즈드 임베딩에서 암묵적 성별 정보를 회수할 수 있는가?

주요 결과

Hard-Debiased 단어는 성별에 따라 클러스터링되며 92.5% 정확도를 보이는 반면, 편향 버전은 99.9%이다.
GN-GloVe는 85.6%의 클러스터링 정확도를 보이고 편향 버전은 100%이다.
잔여 편향은 최근접 이웃 구조에서 명확하게 드러난다: 디바이징 후에도 단어들이 사회적으로 편향된 용어에 가깝게 남아 있다.
원래 편향과 이웃 기반 편향 간의 상관관계는 디바이징 후에도 유의하게 남는다(Pearson r = 0.686 for Hard-Debiased; r = 0.736 for GN-GloVe).
직업 관련 편향은 디바이징 후에도 원래 편향과 남성 이웃 수와의 강한 관계를 보인다(r = 0.606 for Hard-Debiased; r = 0.792 for GN-GloVe).
Caliskan et al. (2017)의 연관성 테스트는 디바이징 후에도 유의한 효과를 보인다(p-values: Hard-Debiased: 0, 0.00016, 0.0467; GN-GloVe: 7.7e-5, 0.00031, 0.0064).
편향된 단어에서 성별을 예측하도록 학습된 분류기는 디바이징 후 성능이 저하된다(Hard-Debiased 88.88% 대 비편향 98.25%; GN-GloVe 96.53% 대 98.65%).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.