QUICK REVIEW

[논문 리뷰] Recognizing Explicit and Implicit Hate Speech Using a Weakly Supervised Two-path Bootstrapping Approach

Lei Gao, Alexis Kuppersmith|arXiv (Cornell University)|2017. 10. 19.

Hate Speech and Cyberbullying Detection참고 문헌 17인용 수 43

한 줄 요약

이 논문은 명시적 비하 표현과 암시적 혐오 발언을 공동 학습하는 두 경로 부트스트래핑 방법을 제안한다. 두 모델인 비하어휘 학습기와 LSTM 분류기 간의 공동 학습을 통해, 자동으로 레이블링된 비공식 트위터 스트림 데이터를 반복적으로 개선함으로써, 혐오 발언 탐지에서 48.9%의 F1 스코어를 달성한다. 이는 감독 학습 기반 모델 대비 4.4배 높은 성능이다.

ABSTRACT

In the wake of a polarizing election, social media is laden with hateful content. To address various limitations of supervised hate speech classification methods including corpus bias and huge cost of annotation, we propose a weakly supervised two-path bootstrapping approach for an online hate speech detection model leveraging large-scale unlabeled data. This system significantly outperforms hate speech detection systems that are trained in a supervised manner using manually annotated data. Applying this model on a large quantity of tweets collected before, after, and on election day reveals motivations and patterns of inflammatory language.

연구 동기 및 목표

높은 레이블링 비용, 코퍼스 편향, 희귀하거나 변화하는 혐오 발언 형태에 대한 일반화 능력 부족 등의 문제를 해결하기 위해 감독 학습 기반 혐오 발언 탐지의 한계를 해결한다.
대규모 비라벨 데이터를 최소한의 인간 감독으로 활용하여 온라인 혐오 발언의 희소성과 급속한 진화를 극복한다.
기존 방법이 자주 간과하는 명시적(비하어휘 기반) 및 암시적(맥락적,隐喩적) 혐오 발언 양식을 모두 포괄한다.
상호보완적인 모델 간의 공동 학습을 통해 의미의 이동(semantic drift)에 강건한 자가 개선 시스템을 개발한다.
대선과 같은 고조된 긴장 상황 동안 실시간으로 혐오 발언을 탐지할 수 있도록, 새로운 언어적 자극에 동적으로 대응할 수 있도록 한다.

제안 방법

20개의 초기 혐오 비하어휘를 사용하여 정확한 문자열 매칭을 통해 6200만 트윗 코퍼스에서 혐오스러운 트윗을 자동으로 레이블링한다.
두 개의 병렬 모델을 훈련한다: 자동으로 레이블링된 혐오 콘텐츠에서 새로운 공격적 어휘를 탐지하는 비하어휘 학습기와, 동일한 레이블 데이터를 기반으로 암시적 혐오 발언을 탐지하는 LSTM 분류기.
각 반복에서 두 모델을 동시에 활용한다: 비하어휘 학습기는 새로운 비하어휘를 식별하고, LSTM 분류기는 의미적 구성에 기반해 새로운 콘텐츠를 분류한다.
두 모델이 식별한 새로운 혐오 콘텐츠를 데이터 증강하여, 각 구성 요소를 반복적으로 재학습함으로써 커버리지와 정확도를 향상시킨다.
어휘적 특징과 맥락적 특징 간의 상호보완적 학습을 강조함으로써 공동 학습 원리를 적용해 학습의 추진력을 유지하고 의미의 이동을 줄인다.
트위터와 같은 소셜 미디어의 시간적 동적 특성을 활용하여, 2016년 미국 대선과 같은 주요 이벤트 기간 동안 모델 성능을 검증한다.

실험 결과

연구 질문

RQ1약한 감독 기반의 자가 개선 시스템이 감독 학습 기반 모델 대비 명시적 및 암시적 혐오 발언을 더 효과적으로 탐지할 수 있는가?
RQ2어휘적 비하어휘에 집중하는 모델과 맥락적 의미에 집중하는 모델을 공동으로 학습함으로써 탐지 성능과 내구성이 어떻게 향상되는가?
RQ3비라벨 데이터에서의 부트스트래핑이 높은 F1 스코어를 유지하면서도 높은 수준의 수동 레이블링 의존도를 얼마나 줄일 수 있는가?
RQ4혐오 발언의 시간적 패턴은 2016년 미국 대선과 같은 주요 정치적 사건과 어떻게 관련이 있는가?
RQ5대립적인 사건 기간 동안 폭력적인 언어를 예측하는 데 가장 중요한 언어적 및 사회적 요인(예: 언급, 해시태그)은 무엇인가?

주요 결과

두 경로 부트스트래핑 모델은 F1 스코어 48.9%를 달성했으며, 비하어휘 학습기만 사용한 경우(19.7%)나 LSTM 분류기만 사용한 경우(26.1%)보다 유의미하게 높은 성능을 보였다.
시스템은 214,997건의 혐오스러운 트윗을 식별했으며, 이는 수동 레이블링 데이터로 훈련된 감독 학습 모델 대비 4.4배 많았다.
11월 7일부터 12일 사이에 혐오스러운 트윗의 수가 급격히 증가했으며, 이는 2016년 미국 대선 기간과 주요 뉴스 이벤트와 밀접하게 일치했다.
혐오스러운 트윗에서 빈번하게 언급된 계정은 @realDonaldTrump과 @HillaryClinton 등 정치 인물들이었으며, 이는 파벌화된 정치적 성향이 주요 원인임을 시사했다.
해시태그 중 #Trump, #MAGA, #Election2016 등이 가장 빈번하게 사용되었으며, 이는 뉴스 촉발 사건이 혐오 발언을 악화시킨다는 것을 확인시켰다.
모델은 '복지 군대' 또는 '두 번째로 열등한 의사' 같은 은유적 표현을 포함한 암시적 혐오 발언도 명시적 비하어휘 없이 성공적으로 탐지했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.