Skip to main content
QUICK REVIEW

[논문 리뷰] A Web of Hate: Tackling Hateful Speech in Online Social Spaces

Haji Mohammad Saleem, Kelly P. Dillon|arXiv (Cornell University)|2017. 09. 28.
Hate Speech and Cyberbullying Detection참고 문헌 11인용 수 111
한 줄 요약

이 논문은 혐오 발언 탐지를 위해 자가 식별된 혐오 커뮤니티가 생산한 텍스트를 이용해 언어 모델을 학습시키는 커뮤니티 주도 접근법을 제시하며, 키워드 기반 베이스라인을 능가하고 플랫폼 간 적용 가능성을 가능하게 한다.

ABSTRACT

Online social platforms are beset with hateful speech - content that expresses hatred for a person or group of people. Such content can frighten, intimidate, or silence platform users, and some of it can inspire other users to commit violence. Despite widespread recognition of the problems posed by such content, reliable solutions even for detecting hateful speech are lacking. In the present work, we establish why keyword-based methods are insufficient for detection. We then propose an approach to detecting hateful speech that uses content produced by self-identifying hateful communities as training data. Our approach bypasses the expensive annotation process often required to train keyword systems and performs well across several established platforms, making substantial improvements over current state-of-the-art approaches.

연구 동기 및 목표

  • 플랫폼 운영자를 위한 실용적으로 사용 가능한 운영적 정의로 혐오 발언 정의하기.
  • 키워드 기반 탐지 및 주석 기반 접근 방식의 한계 보여주기.
  • 혐오 커뮤니티의 데이터로 학습된 커뮤니티 기반 언어 모델을 제안하고 검증하기.
  • 제안된 접근 방식의 교차 플랫폼 내외 효과를 시연하기.

제안 방법

  • 대상 그룹 식별(Black, Plus-size, Female) 및 혐오 및 지원 서브레딧과 다른 플랫폼(Voat, 웹 포럼)에서 데이터 수집.
  • 레이블된 LLDA를 사용하여 혐오 커뮤니티의 주제 언어 모델을 학습하고 Reddit 기반 베이스라인과 비교하며 키워드 기반 데이터와 대조.
  • 일반 텍스트 전처리 후 tf-idf 유니그램 특징에서 나이브 베이즈, SVM, 로지스틱 회귀를 이용해 분류기 학습.
  • 무작위 및 지원 커뮤니티 데이터를 대조해 정확도(precision), 재현율(recall), F1, 코헨의 카파를 측정.
  • Reddit에서 학습한 모델을 Voat 및 비-Reddit 포럼에 적용해 교차 플랫폼 일반화를 테스트.

실험 결과

연구 질문

  • RQ1커뮤니티 정의 접근법이 키워드 기반 베이스라인보다 혐오 발언 탐지에서 우수한가?
  • RQ2자가 식별 혐오 커뮤니티에서 학습된 언어 모델이 대상 그룹 간에 구별되는 고유한 언어적 특징을 포착하는가?
  • RQ3한 플랫폼(Reddit)에서 학습된 모델이 다른 플랫폼(Voat, 웹 포럼)에서 혐오 발언 탐지에 효과적인가?
  • RQ4공유 어휘를 가진 혐오 및 지원 커뮤니티 간을 커뮤니티 기반 접근법이 어떻게 다루는가?

주요 결과

  • 커뮤니티 기반 분류기가 키워드 베이스라인보다 더 높은 정밀도(10–20포인트 더 높음)를 달성해 오탐을 줄인다.
  • 동일 대상의 혐오 및 지원 커뮤니티는 상당한 어휘를 공유하지만 커뮤니티 학습 모델은 이를 강력한 성능으로 구별할 수 있다.
  • 이 접근법은 Reddit 내에서 혐오 콘텐츠의 강력한 탐지 성능을 보이고 Voat 및 웹 포럼에 적용했을 때도 유사한 성능을 나타낸다.
  • 나이브 베이즈, SVM, 로지스틱 회귀가 혐오 데이터에서 유사하게 동작하며 일부 지표에서 로지스틱 회귀가 약간의 이점을 보인다.
  • 교차 플랫폼 학습(Reddit) 후 Voat/웹 포럼에서의 테스트가 경쟁력 있는 정확도를 유지하고 교차 플랫폼 적용 가능성을 시연한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.