Skip to main content
QUICK REVIEW

[논문 리뷰] Analyzing the Targets of Hate in Online Social Media

Leandro Silva, Mainack Mondal|arXiv (Cornell University)|2016. 03. 24.
Hate Speech and Cyberbullying Detection참고 문헌 7인용 수 105
한 줄 요약

이 논문은 Whisper와 Twitter의 혐오 발화 대상자를 문장 구조 탐지기를 사용해 분석하고, 대규모 혐오 발화 데이터셋을 만들고 대상자를 아홉 가지 혐오 범주로 분류한다.

ABSTRACT

Social media systems allow Internet users a congenial platform to freely express their thoughts and opinions. Although this property represents incredible and unique communication opportunities, it also brings along important challenges. Online hate speech is an archetypal example of such challenges. Despite its magnitude and scale, there is a significant gap in understanding the nature of hate speech on social media. In this paper, we provide the first of a kind systematic large scale measurement study of the main targets of hate speech in online social media. To do that, we gather traces from two social media systems: Whisper and Twitter. We then develop and validate a methodology to identify hate speech on both these systems. Our results identify online hate speech forms and offer a broader understanding of the phenomenon, providing directions for prevention and detection approaches.

연구 동기 및 목표

  • 인기 있는 소셜 미디어에서 온라인 혐오 발화에 대한 큰 그림 이해의 부족을 해결하여 연구의 동기를 제시한다.
  • 문장 구조를 기반으로 소셜 미디어 게시물에서 혐오 발화를 식별하는 확장 가능한 방법을 개발한다.
  • Whisper와 Twitter에 대한 혐오 발화 데이터셋을 구성하고 검증한다.
  • 온라인 혐오의 일반적 형태와 패턴을 밝히기 위해 혐오 대상자를 특성화한다.

제안 방법

  • 혐오 발화를 한 집단 특성에 대한 편견으로 인해 모욕으로 정의한다.
  • I <intensity> <userintent> <hatetarget> 형태의 혐오 게시물을 감지하기 위한 문장 구조 패턴을 사용한다.
  • <one word> people and Hatebase 단어 목록(offensivity >50) 같은 템플릿으로 혐오 분석 대상.
  • Hatebase에서 혐오 단어를 크롤링하고 >50%인 고공격성 단어를 필터링한다.
  • 직접 수동으로 혐오 대상자를 여덟? 아홉 가지 범주(Race, Behavior, Physical, Sexual orientation, Class, Gender, Ethnicity, Disability, Religion) plus Other.

실험 결과

연구 질문

  • RQ1Twitter와 Whisper 게시물에서 혐오 발화의 주요 대상은 무엇인가?
  • RQ2두 플랫폼에서 다른 혐오 범주가 얼마나 널리 퍼져 있는가?
  • RQ3패턴 기반 접근 방식이 대규모 데이터셋 구축을 위해 혐오 발화를 신뢰성 있게 식별할 수 있는가?
  • RQ4Whisper(익명)와 Twitter(공개)에서 혐오 대상자의 범주 분포 측면이 다르다?

주요 결과

  • 방법은 혐오 발화를 포함하는 20,305건의 트윗과 7,604건의 Whisper를 식별했다.
  • 최상위 혐오 대상은 Race, Behavior, 그리고 두 플랫폼 전반에서 Physical 속성이다.
  • Whisper는 특정 부분에서 Race 관련 혐오의 비중이 낮고 Non-race 범주의 비중이 더 높게 나타나는 경향이 있는데, 이는 이전 필터링 때문일 수 있다.
  • 아홉 가지로 정의된 혐오 범주는 대상의 대다수를 차지하며(두 데이터셋의 대부분의 대상이 Race, Behavior, Physical에 해당).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.