Skip to main content
QUICK REVIEW

[논문 리뷰] Tackling Online Abuse: A Survey of Automated Abuse Detection Methods

Pushkar Mishra, Helen Yannakoudakis|arXiv (Cornell University)|2019. 08. 13.
Hate Speech and Cyberbullying Detection참고 문헌 86인용 수 52
한 줄 요약

본 논문은 NLP에서의 자동화된 남용 탐지에 대한 포괄적 고찰을 제공합니다. 데이터셋, 방법(텍스트 기반, 소셜, 신경망 접근 방식), 경향, 도전 과제 및 윤리 지침을 다룹니다.

ABSTRACT

Abuse on the Internet represents an important societal problem of our time. Millions of Internet users face harassment, racism, personal attacks, and other types of abuse on online platforms. The psychological effects of such abuse on individuals can be profound and lasting. Consequently, over the past few years, there has been a substantial research effort towards automated abuse detection in the field of natural language processing (NLP). In this paper, we present a comprehensive survey of the methods that have been proposed to date, thus providing a platform for further development of this area. We describe the existing datasets and review the computational approaches to abuse detection, analyzing their strengths and limitations. We discuss the main trends that emerge, highlight the challenges that remain, outline possible solutions, and propose guidelines for ethics and explainability

연구 동기 및 목표

  • 플랫폼과 언어 전반에 걸쳐 남용 탐지를 위해 일반적으로 사용되는 주석 데이터셋을 검토한다.
  • 남용 탐지의 특징 공학, 신경망 및 다중 모드 접근 방법을 요약한다.
  • 경향, 도전과제(암시적/맥락, 은폐, 교차 도메인 전이) 및 잠재적 해결책을 분석한다.
  • 학대 유형(노출적 vs 암시적)에 맞춘 윤리 및 설명 가능성 지침을 제안한다.

제안 방법

  • 데이터셋을 원천 플랫폼 및 구성으로 분류하여 남용 유형의 커버리지를 강조한다.
  • 특징 공학 방법을 텍스트 기반(규칙/어휘, BOW/TF-IDF)과 사회적 특징(사용자 프로파일링)으로 분류한다.
  • 분석 신경망 접근 방식: 분산 표현, 심층 텍스트 모델, 사회적 맥락 모델링 등을 논의한다.
  • 다중 모달 및 맥락 인식 모델링 추세를 요약한다(사용자 임베딩, 그래프 기반 방법, 담화).
  • 암시적 남용, 교차 도메인 전이, 윤리/해석가능성에 대한 도전과제와 제안된 해결책을 개요한다.

실험 결과

연구 질문

  • RQ1주석이 달린 남용 탐지에 어떤 데이터셋이 사용되고 있으며 어떤 편향이나 격차가 나타나는가?
  • RQ2남용 탐지에 대해 어떤 방법론적 접근(텍스트적, 사회적, 신경망)이 탐구되었고 도메인 간 성능은 어떠한가?
  • RQ3남용 탐지의 주요 도전 과제(예: 암시적/비유적 언어, 교차 도메인 일반화)와 어떤 잠재적 해결책이 존재하는가?
  • RQ4남용 탐지 시스템과 함께 어떤 윤리 및 설명 가능성 지침이 따라야 하는가?

주요 결과

  • 신경망 및 비신경망 방법 모두 기여한다; 부분단어 모델과 문자 n-그램이 은폐된 언어에 도움이 된다.
  • 사용자 프로파일링 및 그래프 기반 임베딩은 텍스트 전용 모델보다 남용 탐지 성능을 향상시킬 수 있다.
  • 담화 맥락 인식 모델링을 포함한 맥락적·담화 인식은 암시적 남용 탐지를 개선한다.
  • 교차 도메인 및 교차 언어 일반화는 여전히 주요 도전 과제로 남아 있으며, 도메인 적응 및 다중 작업 학습이 잠재적 이점을 제시한다.
  • BERT 계열의 맥락 모델은 최근 독일어 작업에서 두드러지게 나타났으며, 공유 작업에서 CNN/RNN 베이스라인을 종종 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.