QUICK REVIEW

[논문 리뷰] Detecting Hate Speech in Social Media

Shervin Malmasi, Marcos Zampieri|arXiv (Cornell University)|2017. 12. 18.

Hate Speech and Cyberbullying Detection참고 문헌 18인용 수 33

한 줄 요약

이 논문은 사회적 미디어에서 혐오 발언을 탐지하기 위한 어휘 기반 기준을 수립하며, 문자 n-그램, 단어 n-그램, 스킵그램을 사용한 지도 학습 분류를 적용하여 세 클래스의 트위터 데이터셋(혐오 발언, 공격적 언어, 비공격적)을 대상으로 한다. 가장 우수한 성능을 보인 모델은 선형 SVM를 사용한 문자 4-그램을 활용한 것으로, 정확도가 78%에 달했으며, 이는 혐오 발언과 일반적인 욕설을 구분하는 데 여전히 큰 도전 과제가 있음을 시사한다.

ABSTRACT

In this paper we examine methods to detect hate speech in social media, while distinguishing this from general profanity. We aim to establish lexical baselines for this task by applying supervised classification methods using a recently released dataset annotated for this purpose. As features, our system uses character n-grams, word n-grams and word skip-grams. We obtain results of 78% accuracy in identifying posts across three classes. Results demonstrate that the main challenge lies in discriminating profanity and hate speech from each other. A number of directions for future work are discussed.

연구 동기 및 목표

사회적 미디어에서 혐오 발언 탐지에 대한 어휘 기반 기준을 수립하고, 특히 일반적인 욕설과의 구분을 목표로 한다.
다중 클래스 분류 설정에서 다양한 n-그램 및 클러스터링 특징의 성능을 평가한다.
혐오 발언과 혐오적이지 않은 공격적 내용을 구분하는 데 핵심적인 과제를 규명한다.
혐오 발언 탐지 데이터셋에서 특징 중요도와 오분류 패턴을 분석하여 향후 연구의 기반을 마련한다.

제안 방법

세 클래스의 트위터 데이터셋에 대해 다중 클래스 텍스트 분류를 수행하기 위해 선형 서포트 벡터 머신(SVM) 분류기를 사용하였다.
특징으로는 문자 n-그램(최대 4-그램), 단어 n-그램(최대 2-그램), 단어 스킵그램(최대 2-그램), Brown 단어 클러스터링을 포함하였다.
데이터셋은 텍스트를 소문자로 변환하고 URL 및 이모티콘을 제거하는 방식으로 전처리되었다.
모델 학습 및 평가에는 클래스 불균형을 다루기 위해 10겹 교차 검증과 분层 샘플링을 사용하였다.
학습 데이터 크기의 함수로서 성능을 평가하기 위해 학습 곡선을 그렸다.
오분류 패턴을 분석하기 위해 오분류 행렬을 생성하였으며, 특히 혐오 발언 클래스와 공격적 언어 클래스 간의 오분류를 중심으로 분석하였다.

실험 결과

연구 질문

RQ1어휘 특징만으로 사회적 미디어 텍스트에서 혐오 발언, 공격적 언어, 비공격적 내용을 얼마나 잘 구분할 수 있는가?
RQ2다중 클래스 혐오 발언 탐지 작업에서 다양한 n-그램 및 클러스터링 특징의 성능은 어떠한가?
RQ3혐오 발언과 공격적 언어 간의 오분류는 어느 정도의 겹치는 어휘적 내용에 의해 유도되는가?
RQ4클래스 불균형은 모델 성능에 어떤 영향을 미치며, 학습 데이터를 늘리면 정확도가 향상되는가?
RQ5세 클래스 각각에 대해 가장 정보가 많은 특징는 무엇이며, 이는 의미적 및 어법적 신호와 어떻게 관련되어 있는가?

주요 결과

문자 4-그램 모델이 가장 높은 정확도 78%를 기록하여 다른 특징 유형보다 뛰어난 성능을 보였다.
혐오 발언 클래스는 가장 분류가 어려웠으며, 공격적 언어 클래스로부터 높은 오분류 비율을 보였다.
공격적 내용의 상당 부분이 비공격적 클래스로 잘못 분류되었으며, 이는 일반적인 공격성의 탐지 능력이 열악함을 시사한다.
비공격적(Ok) 클래스는 가장 뛰어난 분류 성능를 보였으며, 대부분의 예측이 정확하게 이루어졌다.
학습 곡선 분석 결과, 정확도는 학습 데이터가 늘어남에 따라 점진적으로 향상되었지만, 15,000건 이상에서는 감소 추세를 보였다.
특징 분석 결과, 거칠고 불결한 단어들이 혐오 및 공격적 클래스 모두에서 매우 정보가 많은 특징로 나타났으며, 문법적 단어들은 비공격적 클래스의 가장 정보가 많은 특징에서 두드러졌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.