[논문 리뷰] Assessing Social and Intersectional Biases in Contextualized Word Representations
이 논문은 임베딩 연관성 테스트를 맥락 단어 표현으로 확장하고 인종 및 교차성 편향 테스트를 도입하여 최첨단 맥락 단어 모델(예: BERT, GPT-2)의 사회적 및 교차적 편향을 평가한다.
Social bias in machine learning has drawn significant attention, with work ranging from demonstrations of bias in a multitude of applications, curating definitions of fairness for different contexts, to developing algorithms to mitigate bias. In natural language processing, gender bias has been shown to exist in context-free word embeddings. Recently, contextual word representations have outperformed word embeddings in several downstream NLP tasks. These word representations are conditioned on their context within a sentence, and can also be used to encode the entire sentence. In this paper, we analyze the extent to which state-of-the-art models for contextual word representations, such as BERT and GPT-2, encode biases with respect to gender, race, and intersectional identities. Towards this, we propose assessing bias at the contextual word level. This novel approach captures the contextual effects of bias missing in context-free word embeddings, yet avoids confounding effects that underestimate bias at the sentence encoding level. We demonstrate evidence of bias at the corpus level, find varying evidence of bias in embedding association tests, show in particular that racial bias is strongly encoded in contextual word models, and observe that bias effects for intersectional minorities are exacerbated beyond their constituent minority identities. Further, evaluating bias effects at the contextual word level captures biases that are not captured at the sentence level, confirming the need for our novel approach.
연구 동기 및 목표
- 맥락 단어 표현이 학습 말뭉치에 존재하는 사회적 편향을 암호화한다는 것을 입증한다.
- 문장 인코딩에서 맥락 단어 표현으로 편향 분석을 확장하여 맥락 특유의 편향을 포착한다.
- 여러 데이터셋에 걸쳐 최첨단 모델(BERT, GPT-2)의 성별, 인종 및 교차 정체성을 평가한다.
- 인종 및 교차 정체성을 겨냥하는 새로운 임베딩 연관성 테스트를 도입하고 문장 수준 테스트와 결과를 비교한다.
제안 방법
- 풀링된 문장 인코딩 대신 토큰 수준 맥락 단어 임베딩을 사용하여 WEAT/SEAT 프레임워크를 맥락 단어 표현에 적응시킨다.
- 개념 임베딩과 속성 임베딩 간의 코사인 유사도를 이용해 연관 통계를 계산하고 WEAT/SEAT에서처럼 순열 유의성 검정(p-value)을 수행한다.
- 이름 기반 개념 및 속성 쌍(예: pleasant/unpleasant, career/family)을 사용하여 인종 및 교차 정체성 편향에 대해 '+'로 접두된 새로운 테스트를 도입한다.
- 다양한 모델(CBoW/Glove, ELMo, BERT, GPT, GPT-2) 간 및 단어-문장-맥락 단어 인코딩 간의 편향 신호를 비교하여 편향이 어디에서 나타나는지 평가한다.
- 유의한 편향 테스트의 비율을 보고하고 말뭉치 편향이 맥락 표현으로 어떻게 전이되는지 조사한다.
실험 결과
연구 질문
- RQ1맥락 단어 표현이 문장 인코더가 드러내는 것보다 더 많은 성별, 인종 및 교차 편향을 암호화하는가?
- RQ2모델(BERT, GPT-2, GPT, ELMo) 간 및 단어-문장-맥락 단어 인코딩 간 편향이 어떻게 다른가?
- RQ3맥락 단어 모델에서 인종 편향이 성별 편향보다 더 강하게 암호화되는가?
- RQ4맥락 단어 표현으로 평가될 때 교차 정체성(African American female)이 구성 정체성보다 더 강한 편향을 보이는가?
- RQ5맥락 단어 임베딩을 사용한 새로운 인종 및 교차 테스트가 문장 수준 테스트로 포착되지 않은 편향을 드러낼 수 있는가?
주요 결과
- 인종 편향이 맥락 단어 모델에 강하게 인코딩되어 있으며, 종종 성별 편향보다 더 강하다.
- 맥락 단어 표현은 문장 인코딩으로 항상 감지되지 않는 편향을 드러낸다; 유의한 테스트 중 약 37.6%가 두 인코딩 모두에서 편향을 보였고, 36.6%는 맥락 단어(c-word) 인코딩에서만 검출되었다.
- BERT (bbc)는 인종 및 교차 정체성 테스트에서 높은 편향을 보이며; 전반적으로 더 큰 모델이 반드시 감지된 편향을 증가시키지 않으며 더 적은 유의한 연관성을 보일 수 있다.
- 편향은 말뭉치 수준에서 인코딩 수준으로 전이되며, 말뭉치의 성별 편향이 맥락 인코딩에서 고정관념에 유리한 더 높은 연관성을 나타내는 경향과 상관관계가 있다.
- 교차 정체성 편향(African American female)은 구성 요소인 편향보다 크며, 인종 효과가 교차 테스트에서 성별 효과를 지배하는 경우가 많다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.