[논문 리뷰] Large-Scale Hate Speech Detection with Cross-Domain Transfer
논문은 다섯 개 혐오 도메인에서 영어 및 터키어로 100k 트윗 데이터셋을 구축하고, 대규모 혐오 발화 감지에서 트랜스포머 모델이 베이스라인을 능가하며, 도메인 간 일반화를 위한 교차 도메인 전이를 분석한다.
The performance of hate speech detection models relies on the datasets on which the models are trained. Existing datasets are mostly prepared with a limited number of instances or hate domains that define hate topics. This hinders large-scale analysis and transfer learning with respect to hate domains. In this study, we construct large-scale tweet datasets for hate speech detection in English and a low-resource language, Turkish, consisting of human-labeled 100k tweets per each. Our datasets are designed to have equal number of tweets distributed over five domains. The experimental results supported by statistical tests show that Transformer-based language models outperform conventional bag-of-words and neural models by at least 5% in English and 10% in Turkish for large-scale hate speech detection. The performance is also scalable to different training sizes, such that 98% of performance in English, and 97% in Turkish, are recovered when 20% of training instances are used. We further examine the generalization ability of cross-domain transfer among hate domains. We show that 96% of the performance of a target domain in average is recovered by other domains for English, and 92% for Turkish. Gender and religion are more successful to generalize to other domains, while sports fail most.
연구 동기 및 목표
- 영어와 터키어에서 다섯 가지 혐오 도메인으로 100k 트윗 규모의 도메인 균형 혐오 발화 데이터셋을 구축한다.
- 대규모 혐오 발화 감지에서 최첨단 모델의 확장 가능성을 평가한다.
- 혐오 도메인 간의 교차 도메인 전이를 조사하여 일반화를 평가한다.
제안 방법
- religion, gender, race, politics, and sports 도메인에 대해 각 언어당 100k 트윗 데이터셋을 균형 있게 생성한다.
- Krippendorff의 알파를 보고된 다섯 명의 주석자와 함께 트윗을 혐오, 도발적, 일반으로 주석한다.
- 기저 모델(BOW, CNN, LSTM)과 Transformer 기반 언어 모델(BERT 계열, RoBERTa 계열, 다국어 모델)을 비교한다.
- 일관된 하이퍼파라미터(배치 32, 학습률 1e-5, 5 에폭, 최대 길이 128)로 다국어 및 언어별 트랜스포머를 미세조정한다.
- 소스 도메인으로 미세조정하고 대상 도메인에서 회복률과 감소율을 사용하여 교차 도메인 전이를 평가한다.
실험 결과
연구 질문
- RQ1대규모 트랜스포머 모델이 여러 도메인에 걸쳐 영어 및 터키어 혐오 발화 감지에서 얼마나 잘 작동하는가?
- RQ2다국어 트랜스포머가 영어 및 터키어 혐오 발화 감지에 있어 언어 특화 모델에 비해 경쟁력 있는 성능을 보이는가?
- RQ3모델이 교차 도메인 전이를 통해 보이지 않는 혐오 도메인으로 일반화할 수 있는 정도는 어느 정도인가?
주요 결과
| 모델 | EN_정밀도 | EN_재현율 | EN_F1 | TR_정밀도 | TR_재현율 | TR_F1 |
|---|---|---|---|---|---|---|
| BOW | 0.777 | 0.796 | 0.779 | 0.707 | 0.710 | 0.706 |
| CNN | 0.779 | 0.796 | 0.782 | 0.676 | 0.679 | 0.675 |
| LSTM | 0.787 | 0.798 | 0.790 | 0.689 | 0.688 | 0.686 |
| BERT | 0.815 | 0.817 | 0.816 | - | - | - |
| BERTweet | 0.825 | 0.829 | 0.826 | - | - | - |
| ConvBERT | 0.823 | 0.825 | 0.823 | - | - | - |
| Megatron | 0.831 | 0.830 | 0.830 | - | - | - |
| RoBERTa | 0.822 | 0.826 | 0.823 | - | - | - |
| mBERT | 0.817 | 0.818 | 0.818 | 0.757 | 0.752 | 0.753 |
| XLM-R | 0.823 | 0.826 | 0.824 | 0.770 | 0.767 | 0.768 |
| BERTurk | - | - | - | 0.778 | 0.777 | 0.777 |
| ConvBERTurk | - | - | - | 0.781 | 0.782 | 0.782 |
| ConvBERTurk (Turkish) | - | - | - | 0.781 | 0.782 | 0.782 |
- 트랜스포머 기반 모델은 영어에서 약 5%, 터키어에서 약 10%의 다중 클래스 혐오 발화 감지에서 Bag-of-Wourds(BOW) 및 간단한 신경망 모델을 능가한다.
- Megatron은 영어 모델 중에서 가장 높은 점수를 보였고, ConvBERTurk는 터키어에서 최고 점수를 달성했다; 다국어 모델(mBERT, XLM-R)은 언어별 모델과 비슷한 성능을 보인다.
- 전체 데이터의 98%(영어)와 97%(터키어) 성능을 20%의 학습 데이터로도 회복한다.
- 교차 도메인 전이는 영어에서 대상 도메인 성능의 평균 96%, 터키어에서 92%를 회복한다; 성별과 종교로의 전이가 스포츠보다 더 빠르게 회복되며, 성별은 교차 도메인 회복력이 다소 약하다.
- 트윗 특성 요소(URL, 해시태그, 이모지)를 제거해도 두 언어 모두 성능에 미미한 영향을 미친다.
- 데이터 규모를 확장하면 성능이 향상되며, 혐오 라벨이 붙은 예시를 추가로 얻을수록 혐오 분류 정확도가 가장 큰 이점을 얻는다; 비교 가능한 데이터 크기에서 영어 혐오 감지는 터키어보다 더 어려운 편이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.