Skip to main content
QUICK REVIEW

[논문 리뷰] Detecting Hate Speech and Offensive Language on Twitter using Machine Learning: An N-gram and TFIDF based Approach

Aditya Gaydhani, Vikrant Doma|arXiv (Cornell University)|2018. 09. 23.
Hate Speech and Cyberbullying Detection참고 문헌 6인용 수 95
한 줄 요약

본 논문은 Twitter 데이터를 대상으로 n-그램 TFIDF 특징을 사용하여 세 클래시파이어(hateful, offensive, clean)를 구축하고 로지스틱 회귀, 나이브 베이즈, SVM를 비교했으며 로지스틱 회귀가 테스트 정확도 95.6%를 달성했다.

ABSTRACT

Toxic online content has become a major issue in today's world due to an exponential increase in the use of internet by people of different cultures and educational background. Differentiating hate speech and offensive language is a key challenge in automatic detection of toxic text content. In this paper, we propose an approach to automatically classify tweets on Twitter into three classes: hateful, offensive and clean. Using Twitter dataset, we perform experiments considering n-grams as features and passing their term frequency-inverse document frequency (TFIDF) values to multiple machine learning models. We perform comparative analysis of the models considering several values of n in n-grams and TFIDF normalization methods. After tuning the model giving the best results, we achieve 95.6% accuracy upon evaluating it on test data. We also create a module which serves as an intermediate between user and Twitter.

연구 동기 및 목표

  • Twitter에서 유해한 언어를 자동으로 탐지하고 혐오 발언과 공격적인 언어, 무해한 콘텐츠를 구분하는 것을 목표로 한다.
  • 여러 공개 데이터셋과 Twitter API의 데이터를 결합하여 분류기를 학습하고 평가하는 파이프라인을 개발한다.
  • 여러 분류기에 대해 효과적인 특징-분류기 조합을 확인하기 위해 n-그램 범위와 TFIDF 정규화를 체계적으로 비교한다.
  • 교차 검증 성능을 극대화하기 위해 하이퍼파라미터를 조정하고 최종 테스트 결과를 보고한다.

제안 방법

  • 트윗에서 unigram에서 trigram까지의 n-gram 특징을 TFIDF로 가중치를 두고 추출한다.
  • L1 및 L2 TFIDF 정규화와 Naive Bayes, Logistic Regression, SVM의 세 가지 분류기를 평가한다.
  • 모델을 비교하기 위해 특징 매개변수에 대한 그리드 탐색과 10-fold 교차 검증을 수행한다.
  • 나이브 베이즈의 스무딩 매개변수 alpha와 로지스틱 회귀의 정규화 매개변수 C 및 해석기(solvers)를 조정한다.
  • 교차 검증을 기반으로 최적의 모델을 선택하고 테스트 성능을 보고하며 오류를 분석한다.

실험 결과

연구 질문

  • RQ1TFIDF 가중치가 적용된 n-gram 특징을 사용하여 세 가지 클래스(혐오 발언, 공격적 언어, 무해한 트윗)를 신뢰성 있게 구분할 수 있는가?
  • RQ2어떤 분류기(NB, LR, SVM)와 어떤 특징 설정이 가장 높은 교차 검증 및 테스트 성능을 산출하는가?
  • RQ3TFIDF 정규화와 n-gram 범위가 혐오 발언과 공격적 언어의 탐지 성능에 어떤 영향을 미치는가?
  • RQ4공통된 오분류 패턴은 무엇이며 공격 클래스에 대한 재현율 및 혐오 클래스에 대한 정밀도를 향상시킬 수 있는 잠재적 개선점은 무엇인가?

주요 결과

ModelN-gram Range + TFIDF NormCross-Validation AccuracyTest/Final Accuracy
Naive Bayes1-3 + L20.9340.934
Logistic Regression1-3 + L20.9510.956
Support Vector Machines1-3 + L20.901-
  • 1-3 개의 n-gram과 L2 TFIDF 정규화를 사용하는 로지스틱 회귀가 세 모델 중 가장 높은 교차 검증 성능을 달성하고 하이튜닝 후 다른 모델보다 우수하다.
  • alpha = 0.1인 나이브 베이즈와 L2 TFIDF는 93.4%의 교차 검증 정확도를 달성하여 초기 결과를 넘어 로지스틱 회귀와 근접한 경쟁력을 보인다.
  • 최종 평가된 로지스틱 회귀 모델은 테스트 데이터에서 1-3의 n-gram 범위와 L2 정규화(TFIDF, C = 100, liblinear)로 95.6%의 정확도를 달성한다.
  • 테스트 세트에서 혐오, 공격, 무해 클래스의 정밀도/재현율이 대략 0.94–0.98 범위이고, 공격 재현율은 0.93이며 오분류된 혐오 트윗의 비율은 4.8%이다.
  • 오류 분석은 공격 클래스 재현율을 높이고 혐오 오분류를 줄이며 언어적 특징을 포함시키는 방향으로 개선 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.