Skip to main content
QUICK REVIEW

[논문 리뷰] Automatic Detection of Online Jihadist Hate Speech

Tom De Smedt, Guy De Pauw|arXiv (Cornell University)|2018. 03. 13.
Hate Speech and Cyberbullying Detection참고 문헌 13인용 수 33
한 줄 요약

이 논문은 2014년 10월부터 2016년 12월까지 수집한 45,000건의 트위터 메시지 데이터셋을 바탕으로 자연어 처리(NLP)와 지도 학습을 활용하여 온라인 자가지스트 히즈 스피치를 80퍼센트 이상의 정확도로 탐지하는 기계 학습 시스템을 제시한다. 이 시스템은 언어 분석과 네트워크 구조를 활용하여 극단주의적 논술을 식별하며, 극단주의 콘텐츠 모니터링을 위한 확장 가능한 도구를 제공한다.

ABSTRACT

We have developed a system that automatically detects online jihadist hate speech with over 80% accuracy, by using techniques from Natural Language Processing and Machine Learning. The system is trained on a corpus of 45,000 subversive Twitter messages collected from October 2014 to December 2016. We present a qualitative and quantitative analysis of the jihadist rhetoric in the corpus, examine the network of Twitter users, outline the technical procedure used to train the system, and discuss examples of use.

연구 동기 및 목표

  • 소셜 미디어 콘텐츠 내 온라인 자가지스트 히즈 스피치를 자동으로 식별하는 시스템을 개발하는 것.
  • 극단주의 트위터 논술에 나타나는 언어적 및 논술 패턴을 분석하는 것.
  • 학습 및 평가를 위한 45,000건의 비밀스러운 트위터 메시지로 구성된 레이블링된 데이터셋을 구축하는 것.
  • 자기지스트 콘텐츠를 확산시키는 사용자들의 네트워크 구조를 분석하여 확산 패턴을 이해하는 것.
  • 온라인 플랫폼에서 히즈 스피치를 실시간으로 탐지하기 위한 기술적 프레임워크를 제공하는 것.

제안 방법

  • 2014년 10월부터 2016년 12월까지 수집된 45,000건의 트위터 메시지로 구성된 수동 레이블링 코퍼스를 기반으로 지도 학습을 수행한다.
  • n-그램, 품사 태깅, 명명된 실체 인식 등의 자연어 처리 기법을 활용해 텍스트 특징을 추출한다.
  • 전통적인 기계 학습 분류기(예: 서포트 벡터 머신, 랜덤 포레스트)의 조합을 적용하여 언어 패턴 기반으로 히즈 스피치를 탐지한다.
  • 정밀도, 재현율, F1 스코어와 같은 표준 지표를 사용해 모델을 훈련 및 평가한다.
  • 트위터 사용자 그래프에 대한 네트워크 분석을 수행하여 극단주의 콘텐츠를 확산시키는 클러스터와 영향력 있는 계정을 식별한다.
  • 탐지 성능 향상을 위해 언어적 특징과 사회적 네트워크 특징을 모두 통합한다.

실험 결과

연구 질문

  • RQ1트위터에서 온라인 자가지스트 히즈 스피치를 특징짓는 언어적 및 논술적 특징는 무엇인가?
  • RQ2기계 학습은 일반적인 극단주의 또는 분위기를 자극하는 콘텐츠와 자가지스트 히즈 스피치를 구분하는 데 얼마나 효과적인가?
  • RQ3자기지스트 콘텐츠를 확산시키는 사용자들의 사회적 네트워크에서의 구조적 패턴은 무엇인가?
  • RQ4텍스트 기반 특징과 네트워크 기반 특징의 조합이 텍스트 전용 모델보다 탐지 정확도를 향상시킬 수 있는가?
  • RQ5단순한 소셜 미디어 메시지에서의 극단화 또는 선동의 주요 지표는 무엇인가?

주요 결과

  • 시스템은 온라인 자가지스트 히즈 스피치 탐지에 대해 총합 정확도가 80퍼센트 이상을 달성한다.
  • 텍스트 기반 특징과 네트워크 기반 특징을 모두 활용할 경우 텍스트 전용 모델에 비해 탐지 성능이 크게 향상된다.
  • 종종 종교적 언급, 폭력에 대한 호소, 암호어적 언어 등이 히즈 스피치 메시지에 일관되게 나타난다.
  • 네트워크 분석을 통해 유사한 극단주의 서사 내용을 홍보하는 서로 유사하게 연결된 사용자 클러스터가 드러났다.
  • 45,000건의 메시지로 구성된 데이터셋은 향후 극단주의 콘텐츠 탐지 분야의 연구에 유의미한 기준 자료가 된다.
  • 이 연구는 소셜 미디어 플랫폼에서 자가지스트 논술을 자동으로 대규모로 모니터링할 수 있음을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.