QUICK REVIEW

[논문 리뷰] Deep Learning Models for Multilingual Hate Speech Detection

Sai Saketh Aluru, Binny Mathew|arXiv (Cornell University)|2020. 04. 14.

Hate Speech and Cyberbullying Detection참고 문헌 34인용 수 42

한 줄 요약

이 논문은 9개 언어의 16개 데이터셋을 사용한 혐오 발언 탐지의 대규모 다국어 분석을 수행하고, LASER+LR, translation+BERT, mBERT, CNN-GRU를 비교하며 언어 자원 기반의 최적 모델 카탈로그를 제안한다. 연구는 저자원 설정에서 LASER+LR이 뛰어나고, 더 많은 데이터가 있을 때는 BERT 기반 모델이 지배적이며, 몇몇 언어에 대해서는 제로샷 전이가 효과적임을 발견한다.

ABSTRACT

Hate speech detection is a challenging problem with most of the datasets available in only one language: English. In this paper, we conduct a large scale analysis of multilingual hate speech in 9 languages from 16 different sources. We observe that in low resource setting, simple models such as LASER embedding with logistic regression performs the best, while in high resource setting BERT based models perform better. In case of zero-shot classification, languages such as Italian and Portuguese achieve good results. Our proposed framework could be used as an efficient solution for low-resource languages. These models could also act as good baselines for future multilingual hate speech detection tasks. We have made our code and experimental settings public for other researchers at https://github.com/punyajoy/DE-LIMIT.

연구 동기 및 목표

영어를 넘어서는 확장 가능한 혐오 발언 탐지를 촉진하기 위해 9개 언어와 16개 소스의 다국어 데이터세트를 활용한다.

제안 방법

LASER 문장 임베딩과 MUSE 단어 임베딩을 사용하여 다국어 모델을 구축한다.
MUSE+CNN-GRU, Translation+BERT, LASER+LR, 및 mBERT의 네 가지 모델 파이프라인을 비교한다.
비영어 데이터를 Google 번역을 사용해 영어로 번역하여 기준 비교를 수행한다.
단일언어 및 다국어(교차언어/제로샷) 설정에서 매크로 F1을 주요 지표로 평가한다.
언어별 저자원 대 고자원 시나리오에서 어떤 모델을 사용할지에 대한 실용적인 카탈로그를 제공한다.

실험 결과

연구 질문

RQ1데이터 가용성이 다양한 언어들에서 서로 다른 다국어 모델들은 어떻게 성능을 발휘하는가?
RQ2저자원 언어에서 혐오 발언 탐지에 대해 제로샷 다국어 전이가 효과적인가?
RQ3다국어 설정에서 자원 사용과 성능 간의 최상의 트레이드오프를 제공하는 모델 구성은 무엇인가?
RQ4번역 기반 접근 방식이 혐오 발언 탐지에서 네이티브 다국어 모델에 상응하거나 이를 능가할 수 있는가?
RQ5데이터 풍부도에 따라 모델을 선택하기 위한 언어별 지침은 무엇이 도출되는가?

주요 결과

LASER+LR은 모든 언어에서 저자원 환경에서 지배적이다.
학습 데이터가 더 많을 때 BERT 기반 모델(특히 Translation+BERT와 mBERT)이 가장 잘 수행된다.
영어로의 번역 후 영어 BERT를 사용하는 것이 여러 언어에서 경쟁력 있는 결과를 낸다.
다국어/제로샷 설정에서 mBERT와 LASER+LR은 언어별로 보완적 강점을 보인다.
실용 카탈로그(Table 5)가 언어별 저자원 대 고자원 시나리오에서 최적의 모델을 제시한다.
제로샷 포르투갈어 예시: LASER+LR이 0.6567에 도달하는 반면 포르투갈어 전체 데이터에서는 0.6941에 도달한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.