QUICK REVIEW

[논문 리뷰] Detecting Hate Speech and Offensive Language on Twitter using Machine Learning: An N-gram and TFIDF based Approach

Aditya Gaydhani, Vikrant Doma|arXiv (Cornell University)|2018. 09. 23.

Hate Speech and Cyberbullying Detection참고 문헌 6인용 수 95

한 줄 요약

본 논문은 Twitter 데이터를 대상으로 n-그램 TFIDF 특징을 사용하여 세 클래시파이어(hateful, offensive, clean)를 구축하고 로지스틱 회귀, 나이브 베이즈, SVM를 비교했으며 로지스틱 회귀가 테스트 정확도 95.6%를 달성했다.

ABSTRACT

Toxic online content has become a major issue in today's world due to an exponential increase in the use of internet by people of different cultures and educational background. Differentiating hate speech and offensive language is a key challenge in automatic detection of toxic text content. In this paper, we propose an approach to automatically classify tweets on Twitter into three classes: hateful, offensive and clean. Using Twitter dataset, we perform experiments considering n-grams as features and passing their term frequency-inverse document frequency (TFIDF) values to multiple machine learning models. We perform comparative analysis of the models considering several values of n in n-grams and TFIDF normalization methods. After tuning the model giving the best results, we achieve 95.6% accuracy upon evaluating it on test data. We also create a module which serves as an intermediate between user and Twitter.

연구 동기 및 목표

Twitter에서 유해한 언어를 자동으로 탐지하고 혐오 발언과 공격적인 언어, 무해한 콘텐츠를 구분하는 것을 목표로 한다.
여러 공개 데이터셋과 Twitter API의 데이터를 결합하여 분류기를 학습하고 평가하는 파이프라인을 개발한다.
여러 분류기에 대해 효과적인 특징-분류기 조합을 확인하기 위해 n-그램 범위와 TFIDF 정규화를 체계적으로 비교한다.
교차 검증 성능을 극대화하기 위해 하이퍼파라미터를 조정하고 최종 테스트 결과를 보고한다.

제안 방법

트윗에서 unigram에서 trigram까지의 n-gram 특징을 TFIDF로 가중치를 두고 추출한다.
L1 및 L2 TFIDF 정규화와 Naive Bayes, Logistic Regression, SVM의 세 가지 분류기를 평가한다.
모델을 비교하기 위해 특징 매개변수에 대한 그리드 탐색과 10-fold 교차 검증을 수행한다.
나이브 베이즈의 스무딩 매개변수 alpha와 로지스틱 회귀의 정규화 매개변수 C 및 해석기(solvers)를 조정한다.
교차 검증을 기반으로 최적의 모델을 선택하고 테스트 성능을 보고하며 오류를 분석한다.

실험 결과

연구 질문

RQ1TFIDF 가중치가 적용된 n-gram 특징을 사용하여 세 가지 클래스(혐오 발언, 공격적 언어, 무해한 트윗)를 신뢰성 있게 구분할 수 있는가?
RQ2어떤 분류기(NB, LR, SVM)와 어떤 특징 설정이 가장 높은 교차 검증 및 테스트 성능을 산출하는가?
RQ3TFIDF 정규화와 n-gram 범위가 혐오 발언과 공격적 언어의 탐지 성능에 어떤 영향을 미치는가?
RQ4공통된 오분류 패턴은 무엇이며 공격 클래스에 대한 재현율 및 혐오 클래스에 대한 정밀도를 향상시킬 수 있는 잠재적 개선점은 무엇인가?

주요 결과

Model	N-gram Range + TFIDF Norm	Cross-Validation Accuracy	Test/Final Accuracy
Naive Bayes	1-3 + L2	0.934	0.934
Logistic Regression	1-3 + L2	0.951	0.956
Support Vector Machines	1-3 + L2	0.901	-

1-3 개의 n-gram과 L2 TFIDF 정규화를 사용하는 로지스틱 회귀가 세 모델 중 가장 높은 교차 검증 성능을 달성하고 하이튜닝 후 다른 모델보다 우수하다.
alpha = 0.1인 나이브 베이즈와 L2 TFIDF는 93.4%의 교차 검증 정확도를 달성하여 초기 결과를 넘어 로지스틱 회귀와 근접한 경쟁력을 보인다.
최종 평가된 로지스틱 회귀 모델은 테스트 데이터에서 1-3의 n-gram 범위와 L2 정규화(TFIDF, C = 100, liblinear)로 95.6%의 정확도를 달성한다.
테스트 세트에서 혐오, 공격, 무해 클래스의 정밀도/재현율이 대략 0.94–0.98 범위이고, 공격 재현율은 0.93이며 오분류된 혐오 트윗의 비율은 4.8%이다.
오류 분석은 공격 클래스 재현율을 높이고 혐오 오분류를 줄이며 언어적 특징을 포함시키는 방향으로 개선 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.