QUICK REVIEW

[논문 리뷰] Hateminers : Detecting Hate speech against Women

Punyajoy Saha, Binny Mathew|arXiv (Cornell University)|2018. 12. 17.

Hate Speech and Cyberbullying Detection참고 문헌 13인용 수 37

한 줄 요약

이 논문은 문장 임베딩, TF-IDF 벡터, 그리고 백오브워즈 특징을 조합하여 트위터에서 여성에 대한 혐오 발언을 탐지하는 머신러닝 시스템 Hateminers를 제시한다. 모델은 영어 서브태스크 A에서 1위(70.4% 정확도)와 서브태스크 B에서 5위(0.37 매크로 F1 점수)를 기록했으며, 이는 성별 혐오 표현 분류에서 데이터 불균형 문제로 인한 과제를 강조한다.

ABSTRACT

With the online proliferation of hate speech, there is an urgent need for systems that can detect such harmful content. In this paper, We present the machine learning models developed for the Automatic Misogyny Identification (AMI) shared task at EVALITA 2018. We generate three types of features: Sentence Embeddings, TF-IDF Vectors, and BOW Vectors to represent each tweet. These features are then concatenated and fed into the machine learning models. Our model came First for the English Subtask A and Fifth for the English Subtask B. We release our winning model for public use and it's available at https://github.com/punyajoy/Hateminers-EVALITA.

연구 동기 및 목표

소셜 미디어 플랫폼에서 영어 트위터 트윗에 대한 성별 혐오 표현을 효과적으로 탐지할 수 있는 시스템을 개발하는 것.
특히 성적화된 모욕과 성별 기반의 적대감 형태로 나타나는 여성 대상 온라인 혐오 발언 증가 문제를 다루는 것.
강력한 특징 공학 및 앙상블 모델링을 통해 성별 혐오 표현의 자동 탐지 성능을 향상시키는 것.
향후 혐오 발언 탐지 분야의 연구 및 적용을 위해 공개 가능한 고성능 모델을 제공하는 것.

제안 방법

URL 제거, 소문자 변환, 약어 전개, 이모티콘 제거, 불용어 제거,标 punctuations 제거, 토큰화 및 어간 추출을 통해 트윗 전처리.
유니버설 문장 인코더를 사용하여 문장 임베딩 생성, 512차원의 문맥 기반 표현 생성.
scikit-learn의 벡터라이저를 사용해 전처리된 텍스트에서 TF-IDF 벡터 생성, 어휘 빈도 및 역문서 빈도 반영.
각 문장에 대해 사전에 학습된 GloVe 단어 임베딩(300차원)의 평균을 취해 백오브워즈(BoW) 벡터 구축.
모든 세 가지 특징 유형(문장 임베딩, TF-IDF, BoW)을 결합하여 각 트윗에 대해 하나의 특징 벡터 생성.
이중 분류 및 다중 분류 작업 모두에 대해 복수의 분류기(Logistic Regression, XGBoost, CatBoost)를 결합된 특징 집합에 대해 훈련 및 평가.

실험 결과

연구 질문

RQ1딥러닝 기반 문장 임베딩과 전통적인 NLP 특징(TF-IDF, BoW)을 조합하여 성별 혐오 트윗을 탐지하는 데 얼마나 효과적인가?
RQ2다양한 머신러닝 모델(Logistic Regression, XGBoost, CatBoost)이 영어 트위터 게시물의 성별 혐오 표현을 분류하는 데 어떤 성능을 보이는가?
RQ3특정 성별 혐오 유형(예: 유도, 지배)은 모델 튜닝에도 불구하고 상당히 낮은 분류 성능을 보이는 이유는 무엇인가?
RQ4데이터셋의 클래스 불균형이 혐오 발언 탐지 시스템의 일반화 능력과 공정성에 어느 정도 영향을 미치는가?

주요 결과

Hateminers 모델은 영어 서브태스크 A(이중 성별 혐오 분류)에서 70.4%의 최고 정확도를 기록하여 공동 과제에서 1위를 차지했다.
서브태스크 B는 성별 혐오 행동 및 대상 유형의 다중 분류를 요구했으며, 최고 성능 시스템은 매크로 F1 점수 0.37을 기록해 전체 순위에서 5위를 기록했다.
모델의 성능은 특히 유도 및 지배 유형처럼 미흡하게 표현된 카테고리에서의 데이터 불균형으로 인해 크게 저하되었다.
서브태스크 A에서는 로지스틱 회귀가 다른 모델보다 뛰어난 성능을 보였고, 서브태스크 B에서는 CatBoost가 가장 우수한 결과를 냈으며, 이는 클래스 불균형에 대한 강건성을 시사한다.
이중 분류에서는 뛰어난 성능를 보였지만, 세분화된 분류에는 어려움을 겪었으며, 특히 드문 또는 드물게 나타나는 성별 혐오 형태 탐지에 어려움을 겪었다.
문장 임베딩, TF-IDF, BoW 벡터의 특징 결합이 개별 특징 집합보다 탐지 성능 향상에 기여한다는 점을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.