[논문 리뷰] Detecting Offensive Language in Tweets Using Deep Learning
LSTM 기반 분류기의 앙상블이 사용자 히스토리 특징을 보강하여 트윗의 혐오발언을 탐지하며 16k 트윗 데이터셋에서 최첨단 F-score를 달성하고 사전 학습 단어 임베딩 없이 작동한다.
This paper addresses the important problem of discerning hateful content in social media. We propose a detection scheme that is an ensemble of Recurrent Neural Network (RNN) classifiers, and it incorporates various features associated with user-related information, such as the users' tendency towards racism or sexism. These data are fed as input to the above classifiers along with the word frequency vectors derived from the textual content. Our approach has been evaluated on a publicly available corpus of 16k tweets, and the results demonstrate its effectiveness in comparison to existing state of the art solutions. More specifically, our scheme can successfully distinguish racism and sexism messages from normal text, and achieve higher classification quality than current state-of-the-art algorithms.
연구 동기 및 목표
- 자동화된 혐오발언 탐지를 도입하여 수동 관리의 확장성을 개선한다.
- 작성자 과거 게시 이력(tN, tR, tS)을 도입하면 분류 정확도가 향상되는지 탐색한다.
- 사전 학습 단어 임베딩에 의존하지 않는 언어 비의존적(deep learning) 모델을 개발한다.
- Twitter 데이터셋에서 LSTM 분류기의 앙상블을 평가하고 최첨단 방법과 비교한다.
제안 방법
- 트윗을 언어 비의존적으로 단어 빈도 벡터로 표현하고 사용자-행동 특징 tN, tR, tS를 추가한다.
- 확대 입력 벡터를 받는 3–5개의 LSTM 분류기로 앙상블을 구성한다.
- 다수결 투표를 통해 분류기 출력 합치거나 동률일 때 가장 자신감 있는 예측을 선택한다(Combined Decision).
- 임베딩/입력, LSTM, 밀집층, 소프트맥스의 4층 신경망을 학습하여 3-class 출력(Neutral, Racism, Sexism)을 얻는다.
- Moses 토큰화로 데이터 전처리하고 트윗 길이를 최대 30단어로 제한하며 25k 어휘로 ADAM 최적화를 Keras에서 수행한다.
- 10-폴드 교차 검증으로 평가하고 정밀도, 재현율, F-score를 보고하며 설정당 안정성을 위해 15회 재실행한다.
실험 결과
연구 질문
- RQ1작성자의 과거 게시 이력에 따라 새로운 트윗을 Neutral, Racism, 또는 Sexism으로 얼마나 정확하게 분류할 수 있는가?
- RQ2사용자-히스토리 특징(tN, tR, tS)의 도입이 혐오발언 분류 성능에 미치는 영향은 무엇인가?
- RQ3LSTM 분류기의 앙상블이 Twitter 데이터에서 단일 LSTM 모델 및 기존 접근법보다 더 우수한가?
- RQ4사전 학습 임베딩 없이도 짧은 텍스트에서 혐오발언을 탐지하는 언어 비의존적 접근법이 타당한가?
주요 결과
| Approach | Characteristics | Precision | Recall | F-Score |
|---|---|---|---|---|
| 단일 분류기 (i) | O | 0.9175 | 0.9218 | 0.9196 |
| 단일 분류기 (ii) | NS | 0.9246 | 0.9273 | 0.9260 |
| 단일 분류기 (iii) | NR | 0.9232 | 0.9259 | 0.9245 |
| 단일 분류기 (iv) | RS | 0.9232 | 0.9264 | 0.9248 |
| 단일 분류기 (v) | NRS | 0.9252 | 0.9278 | 0.9265 |
| 앙상블 (i) | O + NRS + NR | 0.9283 | 0.9315 | 0.9298 |
| 앙상블 (ii) | O + NRS + NS | 0.9288 | 0.9319 | 0.9303 |
| 앙상블 (iii) | O + NRS + RS | 0.9283 | 0.9315 | 0.9299 |
| 앙상블 (iv) | O + NS + RS | 0.9277 | 0.9310 | 0.9293 |
| 앙상블 (v) | O + NS + NR | 0.9276 | 0.9308 | 0.9292 |
| 앙상블 (vi) | O + RS + NR | 0.9273 | 0.9306 | 0.9290 |
| 앙상블 (vii) | NRS + NR + RS | 0.9292 | 0.9319 | 0.9306 |
| 앙상블 (viii) | NRS + NR + NS | 0.9295 | 0.9321 | 0.9308 |
| 앙상블 (ix) | NRS + NS + RS | 0.9294 | 0.9321 | 0.9308 |
| 앙상블 (x) | NS + RS + NR | 0.9286 | 0.9314 | 0.9300 |
| 앙상블 (xi) | O + NS + RS + NR + NRS | 0.9305 | 0.9334 | 0.9320 |
- 세 가지 분류기로 구성된 앙상블(O + NRS + NR)은 F-스코어 0.9298(정밀도 0.9283, 재현율 0.9315)을 달성한다.
- 일반적으로 앙상블은 단일 분류기보다 성능이 향상되며 최적의 다섯 분류기 앙상블(xi)은 F-스코어 0.9320(정밀도 0.9305, 재현율 0.9334)을 도출한다.
- 단일 분류기의 F-스코어는 대략 0.926–0.926인 반면, 앙상블은 약 0.930–0.932에 도달한다.
- 개별 클래스별 결과에서 Sexism은 거의 완벽에 가까운 정밀도/재현율로 탐지하기 쉽고, Racism은 다소 어렵게 나타나(예: F-스코어 약 0.70), Neutral도 신뢰성 있게 탐지된다(F 약 0.95 근처).
- 사용자-행동 특징(tN, tR, tS)을 사용하는 것이 텍스트 전용 베이스라인보다 성능 향상을 제공하며, 개인화된 이력 정보의 가치를 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.