Skip to main content
QUICK REVIEW

[논문 리뷰] Argument from Old Man's View: Assessing Social Bias in Argumentation

Maximilian Spliethöver, Henning Wachsmuth|arXiv (Cornell University)|2020. 11. 24.
Topic Modeling참고 문헌 40인용 수 9
한 줄 요약

이 논문은 다섯 개인 영어 토론 포털에서 단어 임베딩을 훈련하고 WEAT를 사용하여 계산적 논증에서의 사회적 편향을 조사한다. 모든 코퍼스에서 일관된 성별 및 인종 편향(유럽계 미국인 및 남성 정체성에 유리함)을 발견하였으며, 특히 debate.org에서 가장 높은 편향을 보였고, 이는 NLP 연구에서 더 대표성 있고 균형 잡힌 논증 데이터셋이 필요하다는 것을 시사한다.

ABSTRACT

Social bias in language - towards genders, ethnicities, ages, and other social groups - poses a problem with ethical impact for many NLP applications. Recent research has shown that machine learning models trained on respective data may not only adopt, but even amplify the bias. So far, however, little attention has been paid to bias in computational argumentation. In this paper, we study the existence of social biases in large English debate portals. In particular, we train word embedding models on portal-specific corpora and systematically evaluate their bias using WEAT, an existing metric to measure bias in word embeddings. In a word co-occurrence analysis, we then investigate causes of bias. The results suggest that all tested debate corpora contain unbalanced and biased data, mostly in favor of male people with European-American names. Our empirical insights contribute towards an understanding of bias in argumentative data sources.

연구 동기 및 목표

  • 대부분의 계산적 논증(CA) 연구에 사용되는 대규모 영어 토론 포털에서 사회적 편향의 존재를 조사하기 위해.
  • 특히 성별과 민족에 관해, 다양한 논증 코퍼스 간의 편향의 정도와 성격을 비교하기 위해.
  • 관찰된 논증 텍스트 내 사회적 편향에 기여하는 언어 패턴과 사용자 기여를 규명하기 위해.
  • 편향 탐지 방법에서 사회 집단을 대체로 사용하는 이름을 사용할 때의 신뢰성 평가하기 위해.
  • 향후 CA 연구에서 더 대표성 있고 균형 잡힌 데이터셋이 필요하다는 것을 시사하는 기초 통찰을 제공하기 위해.

제안 방법

  • 4forums.com, convinceme.net, createdebate.com, debate.org, ChangeMyView에서 각 코퍼스 전용 데이터를 사용해 스킵그램과 음성 샘플링을 사용한 맞춤형 단어 임베딩 모델을 훈련하였다.
  • 사회 집단을 나타내는 단어 집합(예: 남성 대비 여성 이름, 유럽계 미국인 대비 아프리카계 미국인 이름) 간의 편향을 정량화하기 위해 WEAT(워드 무버스 디스턴스) 메트릭을 적용하였다.
  • debate.org 코퍼스에서 사용자가 제공한 인구통계 정보(예: 연령, 성별)를 기반으로 사용자 집단별로 텍스트를 그룹화하여 편향 기여도를 분석하였다.
  • 정체성 단어(예: 이름)와 함께 공현하는 언어적 어휘를 분석하여 편향이 언어적으로 어떻게 표현되는지 규명하기 위해 단어 공현 분석을 수행하였다.
  • Caliskan 등(2017)의 표준 어휘 사전을 사용하여 WEAT 테스트에서 사회 집단 정의를 위한 목록을 제공하였으며, 사회 정체성의 대체로 이름 목록을 사용하였다.
  • IAC, debate.org, CMV 세 개의 주요 코퍼스를 평가하여 편향 수준과 표현 불균형을 비교하였다.

실험 결과

연구 질문

  • RQ1기존 논증 자료에는 어떤 유형의 사회적 편향이 존재하며, 서로 다른 토론 포털 간에 편향 수준은 어떻게 비교될 수 있는가?
  • RQ2특정 사용자 집단(예: 연령이 많은 사용자, 특정 이름을 가진 사용자)의 기여가 코퍼스 전체의 사회적 편향에 어떻게 영향을 미치는가?
  • RQ3어떤 언어적 발화나 공현 패턴이 논증 텍스트 내 관찰된 사회적 편향에 가장 크게 기여하는가?
  • RQ4WEAT 기반 평가에서 사회 집단을 대체로 사용하는 이름 기반의 대체 지표가 편향 평가 결과를 얼마나 왜곡하는가?
  • RQ5정체성 단어의 발생 빈도 불균형이 논증 코퍼스에서 편향 탐지의 신뢰성과 타당성에 어떻게 영향을 미치는가?

주요 결과

  • 평가된 세 코퍼스—debate.org, CMV, IAC—모두 유의미한 사회적 편향을 보이며, 여성 및 아프리카계 미국인 정체성보다 남성 및 유럽계 미국인 정체성에 일관되게 기울어져 있다.
  • WEAT 평가에서 debate.org 코퍼스가 가장 높은 수준의 편향을 보였으며, 그 다음으로 CMV, IAC가 가장 낮은 편향을 보였다. 이는 데이터 수집 방식과 사용자 인구통계의 코퍼스 특화 차이를 시사한다.
  • 모든 코퍼스에서 정체성 단어의 불균형한 표현이 관찰되었으며, 여성 및 아프리카계 미국인 이름의 빈도가 낮아 통계적 변동성과 편향 왜곡에 더 취약해졌다.
  • 공현 분석 결과, 'palin'과 'obama'와 같은 이름은 '보수적', '대통령' 등의 정치적 또는 스테레오타입 어휘와 강하게 연관되어 있었으며, 이는 유명 인물이 집단 수준의 편향 연관성을 왜곡할 수 있음을 시사한다.
  • 이름을 사회 집단의 대체 지표로 사용할 경우, 유명 인물이 전체 사회 집단을 대표하지 않기 때문에 예측 불가능한 편향 결과를 초래할 수 있으며, WEAT 평가에서 오해의 소지가 있는 연관성을 초래할 수 있다.
  • 이 연구는 이름 기반 어휘 사전이 빈도가 낮고 맥락에 매우 민감하기 때문에 통계적으로 신뢰할 수 없으며, 이로 인해 이 맥락에서 WEAT 결과의 타당성이 떨어진다는 것을 발견하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.