QUICK REVIEW

[논문 리뷰] Semantics derived automatically from language corpora necessarily contain human biases.

Aylin Caliskan Islam, Joanna J. Bryson|arXiv (Cornell University)|2016. 08. 25.

Psychology of Moral and Emotional Judgment참고 문헌 30인용 수 85

한 줄 요약

이 논문은 웹 텍스트 코퍼스에서 훈련된 단어 임베딩(GloVe 등)이 언어 자체에 내재된 편견 덕분에 인간과 유사한 의미적 편견—인종, 성별, 사회적 역할과 관련된 것들—을 자동으로 학습하고 재현함을 보여준다. 새로운 평가 도구(WEAT 및 WEFAT)를 사용하여, 통계적 기계학습 모델이 설계를 통해가 아니라 편향된 언어에 노출됨으로써 사회적 편견을 물려받음을 입증하였으며, 언어 코퍼스가 역사적·문화적 편견을 담고 있으며 이들이 AI 시스템에 포착됨을 드러냈다.

ABSTRACT

Artificial intelligence and machine learning are in a period of astounding growth. However, there are concerns that these technologies may be used, either with or without intention, to perpetuate the prejudice and unfairness that unfortunately characterizes many human institutions. Here we show for the first time that human-like semantic biases result from the application of standard machine learning to ordinary language---the same sort of language humans are exposed to every day. We replicate a spectrum of standard human biases as exposed by the Implicit Association Test and other well-known psychological studies. We replicate these using a widely used, purely statistical machine-learning model---namely, the GloVe word embedding---trained on a corpus of text from the Web. Our results indicate that language itself contains recoverable and accurate imprints of our historic biases, whether these are morally neutral as towards insects or flowers, problematic as towards race or gender, or even simply veridical, reflecting the status quo for the distribution of gender with respect to careers or first names. These regularities are captured by machine learning along with the rest of semantics. In addition to our empirical findings concerning language, we also contribute new methods for evaluating bias in text, the Word Embedding Association Test (WEAT) and the Word Embedding Factual Association Test (WEFAT). Our results have implications not only for AI and machine learning, but also for the fields of psychology, sociology, and human ethics, since they raise the possibility that mere exposure to everyday language can account for the biases we replicate here.

연구 동기 및 목표

일상 언어로 훈련된 기계학습 모델이 인간과 유사한 의미적 편견을 물려받는지 조사하기.
GloVe와 같은 널리 사용되는 NLP 모델이 암묵적 연합 테스트와 같은 연구에서 알려진 심리학적 편견을 반영하는지 검토하기.
단어 임베딩 내 편견을 탐지하기 위한 새로운 평가 방법 개발하기.
언어 코퍼스 내 편견이 AI 모델의 편향된 의미 표현을 생성하는 데 충분하다는 것을 입증하기.

제안 방법

웹 텍스트 코퍼스의 대규모 데이터셋에서 GloVe 단어 임베딩 모델을 훈련하여 단어의 조밀한 벡터 표현 학습하기.
단어 임베딩 연관 테스트(WEAT)를 적용하여 인종, 성별 등의 단어 카테고리와 기분 좋음/나쁨 등의 속성 간 연관성 측정하기.
단어 임베딩 사실 연관 테스트(WEFAT)를 사용하여 단어와 사회적 분포(예: 성별과 직업, 이름과 성별) 간 연관성 평가하기.
통계적 연관성을 통해 암묵적 연합 테스트에서 알려진 알려진 심리학적 편견을 단어 임베딩에서 재현하기.
모델에서 유도된 연관성과 인간 관찰 편견을 비교하여 의미 편견의 재현 검증하기.
다양한 단어 임베딩 차원과 의미 카테고리 간 편향 패턴의 일관성과 정확도 분석하기.

실험 결과

연구 질문

RQ1웹 텍스트에서 훈련된 단어 임베딩이 심리학 연구에서 알려진 인간의 의미적 편견을 어느 정도 재현하는가?
RQ2GloVe와 같은 표준 NLP 모델이 언어 코퍼스에 존재하는 사회적 편견을 자동으로 학습하고 반영할 수 있는가?
RQ3단어 임베딩 내 성별과 직업 간 연관성은 실제 세계의 인구 통계 분포와 어떻게 비교되는가?
RQ4WEAT 및 WEFAT 프레임워크는 단어 임베딩 내 편견을 신뢰성 있게 탐지하고 정량화할 수 있는가?
RQ5명시적 지시 없이 자연어에 노출되기만 해도 기계학습 모델 내부에 사회적 편견이 내재되는가?

주요 결과

웹 텍스트에서 훈련된 단어 임베딩은 WEAT로 측정된 바, 인종, 성별, 사회적 역할과 관련된 인간과 유사한 편견의 광범위한 스펙트럼을 재현한다.
연구는 성별과 관련된 직업 연관성(예: '간호사'는 '여성'과, '엔지니어'는 '남성'과)이 GloVe 모델에 정확히 반영됨을 확인한다.
WEFAT 테스트는 단어 임베딩이 성별에 따라 이름이 달라지는 것과 직업 내 성비 비율 등의 사실적 인구 통계 분포를 높은 정확도로 반영하고 있음을 드러낸다.
편견의 재현은 모델 설계 때문이 아니라 훈련 데이터의 언어에서 존재하는 통계적 규칙성에서 기인한다.
예를 들어 '꽃'과 '기분 좋음' 사이의 도덕적으로 중립적인 연관성조차도 임베딩에 내재되어 있음을 보여, 편견이 언어 기반 AI의 체계적 특성임을 시사한다.
결과적으로 언어 자체가 기계학습 시스템에 사회적 편견을 내재하는 주요 매개체임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.