Skip to main content
QUICK REVIEW

[논문 리뷰] Recognizing Explicit and Implicit Hate Speech Using a Weakly Supervised Two-path Bootstrapping Approach

Lei Gao, Alexis Kuppersmith|arXiv (Cornell University)|2017. 10. 19.
Hate Speech and Cyberbullying Detection참고 문헌 17인용 수 43
한 줄 요약

이 논문은 명시적 비하 표현과 암시적 혐오 발언을 공동 학습하는 두 경로 부트스트래핑 방법을 제안한다. 두 모델인 비하어휘 학습기와 LSTM 분류기 간의 공동 학습을 통해, 자동으로 레이블링된 비공식 트위터 스트림 데이터를 반복적으로 개선함으로써, 혐오 발언 탐지에서 48.9%의 F1 스코어를 달성한다. 이는 감독 학습 기반 모델 대비 4.4배 높은 성능이다.

ABSTRACT

In the wake of a polarizing election, social media is laden with hateful content. To address various limitations of supervised hate speech classification methods including corpus bias and huge cost of annotation, we propose a weakly supervised two-path bootstrapping approach for an online hate speech detection model leveraging large-scale unlabeled data. This system significantly outperforms hate speech detection systems that are trained in a supervised manner using manually annotated data. Applying this model on a large quantity of tweets collected before, after, and on election day reveals motivations and patterns of inflammatory language.

연구 동기 및 목표

  • 높은 레이블링 비용, 코퍼스 편향, 희귀하거나 변화하는 혐오 발언 형태에 대한 일반화 능력 부족 등의 문제를 해결하기 위해 감독 학습 기반 혐오 발언 탐지의 한계를 해결한다.
  • 대규모 비라벨 데이터를 최소한의 인간 감독으로 활용하여 온라인 혐오 발언의 희소성과 급속한 진화를 극복한다.
  • 기존 방법이 자주 간과하는 명시적(비하어휘 기반) 및 암시적(맥락적,隐喩적) 혐오 발언 양식을 모두 포괄한다.
  • 상호보완적인 모델 간의 공동 학습을 통해 의미의 이동(semantic drift)에 강건한 자가 개선 시스템을 개발한다.
  • 대선과 같은 고조된 긴장 상황 동안 실시간으로 혐오 발언을 탐지할 수 있도록, 새로운 언어적 자극에 동적으로 대응할 수 있도록 한다.

제안 방법

  • 20개의 초기 혐오 비하어휘를 사용하여 정확한 문자열 매칭을 통해 6200만 트윗 코퍼스에서 혐오스러운 트윗을 자동으로 레이블링한다.
  • 두 개의 병렬 모델을 훈련한다: 자동으로 레이블링된 혐오 콘텐츠에서 새로운 공격적 어휘를 탐지하는 비하어휘 학습기와, 동일한 레이블 데이터를 기반으로 암시적 혐오 발언을 탐지하는 LSTM 분류기.
  • 각 반복에서 두 모델을 동시에 활용한다: 비하어휘 학습기는 새로운 비하어휘를 식별하고, LSTM 분류기는 의미적 구성에 기반해 새로운 콘텐츠를 분류한다.
  • 두 모델이 식별한 새로운 혐오 콘텐츠를 데이터 증강하여, 각 구성 요소를 반복적으로 재학습함으로써 커버리지와 정확도를 향상시킨다.
  • 어휘적 특징과 맥락적 특징 간의 상호보완적 학습을 강조함으로써 공동 학습 원리를 적용해 학습의 추진력을 유지하고 의미의 이동을 줄인다.
  • 트위터와 같은 소셜 미디어의 시간적 동적 특성을 활용하여, 2016년 미국 대선과 같은 주요 이벤트 기간 동안 모델 성능을 검증한다.

실험 결과

연구 질문

  • RQ1약한 감독 기반의 자가 개선 시스템이 감독 학습 기반 모델 대비 명시적 및 암시적 혐오 발언을 더 효과적으로 탐지할 수 있는가?
  • RQ2어휘적 비하어휘에 집중하는 모델과 맥락적 의미에 집중하는 모델을 공동으로 학습함으로써 탐지 성능과 내구성이 어떻게 향상되는가?
  • RQ3비라벨 데이터에서의 부트스트래핑이 높은 F1 스코어를 유지하면서도 높은 수준의 수동 레이블링 의존도를 얼마나 줄일 수 있는가?
  • RQ4혐오 발언의 시간적 패턴은 2016년 미국 대선과 같은 주요 정치적 사건과 어떻게 관련이 있는가?
  • RQ5대립적인 사건 기간 동안 폭력적인 언어를 예측하는 데 가장 중요한 언어적 및 사회적 요인(예: 언급, 해시태그)은 무엇인가?

주요 결과

  • 두 경로 부트스트래핑 모델은 F1 스코어 48.9%를 달성했으며, 비하어휘 학습기만 사용한 경우(19.7%)나 LSTM 분류기만 사용한 경우(26.1%)보다 유의미하게 높은 성능을 보였다.
  • 시스템은 214,997건의 혐오스러운 트윗을 식별했으며, 이는 수동 레이블링 데이터로 훈련된 감독 학습 모델 대비 4.4배 많았다.
  • 11월 7일부터 12일 사이에 혐오스러운 트윗의 수가 급격히 증가했으며, 이는 2016년 미국 대선 기간과 주요 뉴스 이벤트와 밀접하게 일치했다.
  • 혐오스러운 트윗에서 빈번하게 언급된 계정은 @realDonaldTrump과 @HillaryClinton 등 정치 인물들이었으며, 이는 파벌화된 정치적 성향이 주요 원인임을 시사했다.
  • 해시태그 중 #Trump, #MAGA, #Election2016 등이 가장 빈번하게 사용되었으며, 이는 뉴스 촉발 사건이 혐오 발언을 악화시킨다는 것을 확인시켰다.
  • 모델은 '복지 군대' 또는 '두 번째로 열등한 의사' 같은 은유적 표현을 포함한 암시적 혐오 발언도 명시적 비하어휘 없이 성공적으로 탐지했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.