QUICK REVIEW

[논문 리뷰] Large-Scale Hate Speech Detection with Cross-Domain Transfer

Çağrı Toraman, Furkan Şahi̇nuç|arXiv (Cornell University)|2022. 03. 02.

Hate Speech and Cyberbullying Detection인용 수 29

한 줄 요약

논문은 다섯 개 혐오 도메인에서 영어 및 터키어로 100k 트윗 데이터셋을 구축하고, 대규모 혐오 발화 감지에서 트랜스포머 모델이 베이스라인을 능가하며, 도메인 간 일반화를 위한 교차 도메인 전이를 분석한다.

ABSTRACT

The performance of hate speech detection models relies on the datasets on which the models are trained. Existing datasets are mostly prepared with a limited number of instances or hate domains that define hate topics. This hinders large-scale analysis and transfer learning with respect to hate domains. In this study, we construct large-scale tweet datasets for hate speech detection in English and a low-resource language, Turkish, consisting of human-labeled 100k tweets per each. Our datasets are designed to have equal number of tweets distributed over five domains. The experimental results supported by statistical tests show that Transformer-based language models outperform conventional bag-of-words and neural models by at least 5% in English and 10% in Turkish for large-scale hate speech detection. The performance is also scalable to different training sizes, such that 98% of performance in English, and 97% in Turkish, are recovered when 20% of training instances are used. We further examine the generalization ability of cross-domain transfer among hate domains. We show that 96% of the performance of a target domain in average is recovered by other domains for English, and 92% for Turkish. Gender and religion are more successful to generalize to other domains, while sports fail most.

연구 동기 및 목표

영어와 터키어에서 다섯 가지 혐오 도메인으로 100k 트윗 규모의 도메인 균형 혐오 발화 데이터셋을 구축한다.
대규모 혐오 발화 감지에서 최첨단 모델의 확장 가능성을 평가한다.
혐오 도메인 간의 교차 도메인 전이를 조사하여 일반화를 평가한다.

제안 방법

religion, gender, race, politics, and sports 도메인에 대해 각 언어당 100k 트윗 데이터셋을 균형 있게 생성한다.
Krippendorff의 알파를 보고된 다섯 명의 주석자와 함께 트윗을 혐오, 도발적, 일반으로 주석한다.
기저 모델(BOW, CNN, LSTM)과 Transformer 기반 언어 모델(BERT 계열, RoBERTa 계열, 다국어 모델)을 비교한다.
일관된 하이퍼파라미터(배치 32, 학습률 1e-5, 5 에폭, 최대 길이 128)로 다국어 및 언어별 트랜스포머를 미세조정한다.
소스 도메인으로 미세조정하고 대상 도메인에서 회복률과 감소율을 사용하여 교차 도메인 전이를 평가한다.

실험 결과

연구 질문

RQ1대규모 트랜스포머 모델이 여러 도메인에 걸쳐 영어 및 터키어 혐오 발화 감지에서 얼마나 잘 작동하는가?
RQ2다국어 트랜스포머가 영어 및 터키어 혐오 발화 감지에 있어 언어 특화 모델에 비해 경쟁력 있는 성능을 보이는가?
RQ3모델이 교차 도메인 전이를 통해 보이지 않는 혐오 도메인으로 일반화할 수 있는 정도는 어느 정도인가?

주요 결과

모델	EN_정밀도	EN_재현율	EN_F1	TR_정밀도	TR_재현율	TR_F1
BOW	0.777	0.796	0.779	0.707	0.710	0.706
CNN	0.779	0.796	0.782	0.676	0.679	0.675
LSTM	0.787	0.798	0.790	0.689	0.688	0.686
BERT	0.815	0.817	0.816	-	-	-
BERTweet	0.825	0.829	0.826	-	-	-
ConvBERT	0.823	0.825	0.823	-	-	-
Megatron	0.831	0.830	0.830	-	-	-
RoBERTa	0.822	0.826	0.823	-	-	-
mBERT	0.817	0.818	0.818	0.757	0.752	0.753
XLM-R	0.823	0.826	0.824	0.770	0.767	0.768
BERTurk	-	-	-	0.778	0.777	0.777
ConvBERTurk	-	-	-	0.781	0.782	0.782
ConvBERTurk (Turkish)	-	-	-	0.781	0.782	0.782

트랜스포머 기반 모델은 영어에서 약 5%, 터키어에서 약 10%의 다중 클래스 혐오 발화 감지에서 Bag-of-Wourds(BOW) 및 간단한 신경망 모델을 능가한다.
Megatron은 영어 모델 중에서 가장 높은 점수를 보였고, ConvBERTurk는 터키어에서 최고 점수를 달성했다; 다국어 모델(mBERT, XLM-R)은 언어별 모델과 비슷한 성능을 보인다.
전체 데이터의 98%(영어)와 97%(터키어) 성능을 20%의 학습 데이터로도 회복한다.
교차 도메인 전이는 영어에서 대상 도메인 성능의 평균 96%, 터키어에서 92%를 회복한다; 성별과 종교로의 전이가 스포츠보다 더 빠르게 회복되며, 성별은 교차 도메인 회복력이 다소 약하다.
트윗 특성 요소(URL, 해시태그, 이모지)를 제거해도 두 언어 모두 성능에 미미한 영향을 미친다.
데이터 규모를 확장하면 성능이 향상되며, 혐오 라벨이 붙은 예시를 추가로 얻을수록 혐오 분류 정확도가 가장 큰 이점을 얻는다; 비교 가능한 데이터 크기에서 영어 혐오 감지는 터키어보다 더 어려운 편이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.