QUICK REVIEW

[論文レビュー] Deep Learning Models for Multilingual Hate Speech Detection

Sai Saketh Aluru, Binny Mathew|arXiv (Cornell University)|Apr 14, 2020

Hate Speech and Cyberbullying Detection参考文献 34被引用数 42

ひとこと要約

この論文は、9言語で16データセットを用いた hate speech 検出の大規模多言語分析を実施し、LASER+LR、翻訳+BERT、mBERT、CNN-GRU を比較し、言語資源ベースの最良モデルカタログを提案します。低資源設定では LASER+LR が卓越し、より多くのデータがある場合は BERT ベースのモデルが優勢であり、ゼロショット転送は複数の言語で効果的です。

ABSTRACT

Hate speech detection is a challenging problem with most of the datasets available in only one language: English. In this paper, we conduct a large scale analysis of multilingual hate speech in 9 languages from 16 different sources. We observe that in low resource setting, simple models such as LASER embedding with logistic regression performs the best, while in high resource setting BERT based models perform better. In case of zero-shot classification, languages such as Italian and Portuguese achieve good results. Our proposed framework could be used as an efficient solution for low-resource languages. These models could also act as good baselines for future multilingual hate speech detection tasks. We have made our code and experimental settings public for other researchers at https://github.com/punyajoy/DE-LIMIT.

研究の動機と目的

9言語と16ソースの多言語データセットを活用して、英語以外にも拡張可能な hate speech 検出のスケーラビリティを促進する動機付け。

提案手法

LASER 文ベ embeddings と MUSE 単語 embeddings を用いて多言語モデルを構築する。
4つのモデルパイプラインを比較する: MUSE+CNN-GRU、Translation+BERT、LASER+LR、mBERT。
基準比較のために英語以外のデータを英語に翻訳する（Google Translateを使用）。
主メトリクスとしてマクロF1を用いて単言語設定と多言語設定(言語間/ゼロショット)を評価する。
データ量が少ない vs 多い場合に、言語ごとにどのモデルを使用するかの実用的カタログを提供する。

実験結果

リサーチクエスチョン

RQ1データ量が異なる言語間で、さまざまな多言語モデルはどのように性能を発揮するか？
RQ2低資源言語においてゼロショット多言語転送は hate speech 検出に有効か？
RQ3リソース使用と性能のトレードオフを最も良く提供するモデル構成はどれか？
RQ4翻訳ベースのアプローチは hate speech 検出のネイティブ多言語モデルに匹敵するか超えるか？
RQ5データ充足度に基づく言語別のモデル選択ガイドラインは何か？

主な発見

LASER+LR は言語を問わず低資源設定で支配的である。
BERTベースのモデル（特に Translation+BERT と mBERT）は訓練データが多い場合に最良の性能を発揮する。
英語への翻訳後の英語BERTは複数の言語で競争力のある結果をもたらす。
多言語/ゼロショット設定では、mBERTと LASER+LR は言語間で補完的な強みを示す。
実用的なカタログ( Table 5 ) は言語ごとに低資源 vs 高資源シナリオの最適モデルを規定している。
ゼロショットのポルトガル語例: LASER+LR は 0.6567 に到達する一方、完全データで 0.6941 はポルトガル語で得られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。