Skip to main content
QUICK REVIEW

[논문 리뷰] Large-Scale Hate Speech Detection with Cross-Domain Transfer

Çağrı Toraman, Furkan Şahi̇nuç|arXiv (Cornell University)|2022. 03. 02.
Hate Speech and Cyberbullying Detection인용 수 29
한 줄 요약

논문은 다섯 개 혐오 도메인에서 영어 및 터키어로 100k 트윗 데이터셋을 구축하고, 대규모 혐오 발화 감지에서 트랜스포머 모델이 베이스라인을 능가하며, 도메인 간 일반화를 위한 교차 도메인 전이를 분석한다.

ABSTRACT

The performance of hate speech detection models relies on the datasets on which the models are trained. Existing datasets are mostly prepared with a limited number of instances or hate domains that define hate topics. This hinders large-scale analysis and transfer learning with respect to hate domains. In this study, we construct large-scale tweet datasets for hate speech detection in English and a low-resource language, Turkish, consisting of human-labeled 100k tweets per each. Our datasets are designed to have equal number of tweets distributed over five domains. The experimental results supported by statistical tests show that Transformer-based language models outperform conventional bag-of-words and neural models by at least 5% in English and 10% in Turkish for large-scale hate speech detection. The performance is also scalable to different training sizes, such that 98% of performance in English, and 97% in Turkish, are recovered when 20% of training instances are used. We further examine the generalization ability of cross-domain transfer among hate domains. We show that 96% of the performance of a target domain in average is recovered by other domains for English, and 92% for Turkish. Gender and religion are more successful to generalize to other domains, while sports fail most.

연구 동기 및 목표

  • 영어와 터키어에서 다섯 가지 혐오 도메인으로 100k 트윗 규모의 도메인 균형 혐오 발화 데이터셋을 구축한다.
  • 대규모 혐오 발화 감지에서 최첨단 모델의 확장 가능성을 평가한다.
  • 혐오 도메인 간의 교차 도메인 전이를 조사하여 일반화를 평가한다.

제안 방법

  • religion, gender, race, politics, and sports 도메인에 대해 각 언어당 100k 트윗 데이터셋을 균형 있게 생성한다.
  • Krippendorff의 알파를 보고된 다섯 명의 주석자와 함께 트윗을 혐오, 도발적, 일반으로 주석한다.
  • 기저 모델(BOW, CNN, LSTM)과 Transformer 기반 언어 모델(BERT 계열, RoBERTa 계열, 다국어 모델)을 비교한다.
  • 일관된 하이퍼파라미터(배치 32, 학습률 1e-5, 5 에폭, 최대 길이 128)로 다국어 및 언어별 트랜스포머를 미세조정한다.
  • 소스 도메인으로 미세조정하고 대상 도메인에서 회복률과 감소율을 사용하여 교차 도메인 전이를 평가한다.

실험 결과

연구 질문

  • RQ1대규모 트랜스포머 모델이 여러 도메인에 걸쳐 영어 및 터키어 혐오 발화 감지에서 얼마나 잘 작동하는가?
  • RQ2다국어 트랜스포머가 영어 및 터키어 혐오 발화 감지에 있어 언어 특화 모델에 비해 경쟁력 있는 성능을 보이는가?
  • RQ3모델이 교차 도메인 전이를 통해 보이지 않는 혐오 도메인으로 일반화할 수 있는 정도는 어느 정도인가?

주요 결과

모델EN_정밀도EN_재현율EN_F1TR_정밀도TR_재현율TR_F1
BOW0.7770.7960.7790.7070.7100.706
CNN0.7790.7960.7820.6760.6790.675
LSTM0.7870.7980.7900.6890.6880.686
BERT0.8150.8170.816---
BERTweet0.8250.8290.826---
ConvBERT0.8230.8250.823---
Megatron0.8310.8300.830---
RoBERTa0.8220.8260.823---
mBERT0.8170.8180.8180.7570.7520.753
XLM-R0.8230.8260.8240.7700.7670.768
BERTurk---0.7780.7770.777
ConvBERTurk---0.7810.7820.782
ConvBERTurk (Turkish)---0.7810.7820.782
  • 트랜스포머 기반 모델은 영어에서 약 5%, 터키어에서 약 10%의 다중 클래스 혐오 발화 감지에서 Bag-of-Wourds(BOW) 및 간단한 신경망 모델을 능가한다.
  • Megatron은 영어 모델 중에서 가장 높은 점수를 보였고, ConvBERTurk는 터키어에서 최고 점수를 달성했다; 다국어 모델(mBERT, XLM-R)은 언어별 모델과 비슷한 성능을 보인다.
  • 전체 데이터의 98%(영어)와 97%(터키어) 성능을 20%의 학습 데이터로도 회복한다.
  • 교차 도메인 전이는 영어에서 대상 도메인 성능의 평균 96%, 터키어에서 92%를 회복한다; 성별과 종교로의 전이가 스포츠보다 더 빠르게 회복되며, 성별은 교차 도메인 회복력이 다소 약하다.
  • 트윗 특성 요소(URL, 해시태그, 이모지)를 제거해도 두 언어 모두 성능에 미미한 영향을 미친다.
  • 데이터 규모를 확장하면 성능이 향상되며, 혐오 라벨이 붙은 예시를 추가로 얻을수록 혐오 분류 정확도가 가장 큰 이점을 얻는다; 비교 가능한 데이터 크기에서 영어 혐오 감지는 터키어보다 더 어려운 편이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.