[論文レビュー] Large-Scale Hate Speech Detection with Cross-Domain Transfer
要約: 本研究は英語とトルコ語の5つの嫌悪ドメインに跨る10万ツイート規模のデータセットを構築し、大規模な嫌悪表現検出においてTransformerモデルがベースラインを上回ることを示し、ドメイン横断転移による一般化を分析します。
The performance of hate speech detection models relies on the datasets on which the models are trained. Existing datasets are mostly prepared with a limited number of instances or hate domains that define hate topics. This hinders large-scale analysis and transfer learning with respect to hate domains. In this study, we construct large-scale tweet datasets for hate speech detection in English and a low-resource language, Turkish, consisting of human-labeled 100k tweets per each. Our datasets are designed to have equal number of tweets distributed over five domains. The experimental results supported by statistical tests show that Transformer-based language models outperform conventional bag-of-words and neural models by at least 5% in English and 10% in Turkish for large-scale hate speech detection. The performance is also scalable to different training sizes, such that 98% of performance in English, and 97% in Turkish, are recovered when 20% of training instances are used. We further examine the generalization ability of cross-domain transfer among hate domains. We show that 96% of the performance of a target domain in average is recovered by other domains for English, and 92% for Turkish. Gender and religion are more successful to generalize to other domains, while sports fail most.
研究の動機と目的
- 英語とトルコ語でドメイン間でバランスの取れた大規模な嫌悪表現データセットを構築する(各言語10万ツイート、5つの嫌悪ドメイン)。
- 最先端モデルの大規模嫌悪表現検出におけるスケーラビリティを評価する。
- 嫌悪ドメイン間の横断転移を調査し、一般化を評価する。
提案手法
- 宗教、性別、人種、政治、スポーツの5つのドメインでバランスを取った各言語10万ツイートのデータセットを作成する。
- 5名のアノテーターによってツイートを嫌悪、攻撃的、または通常に注釈付けし、Krippendorffのαを報告する。
- ベースライン(BOW、CNN、LSTM)をTransformerベースの言語モデル(BERTファミリー、RoBERTaファミリー、マルチリンガルモデル)と比較する。
- 一貫したハイパーパラメータ(バッチ32、学習率1e-5、5エポック、最大長128)で多言語・言語特異的トランスフォーマー(BERT、BERTweet、ConvBERT、Megatron、RoBERTa、BERTurk、ConvBERTurk、mBERT、XLM-R)をファインチューニングする。
- ソースドメインでファインチューニングし、ターゲットドメインで回復率と減衰率を用いて評価することでクロスドメイン転移を評価する。
実験結果
リサーチクエスチョン
- RQ1大規模なTransformerモデルは、複数のドメインにわたる英語とトルコ語の嫌悪表現検出でどれくらい良い性能を示すか?
- RQ2マルチリンガルなTransformerは、英語とトルコ語の嫌悪表現検出において言語特異モデルと比べて競争力のある性能を提供するか?
- RQ3モデルはクロスドメイン転移を介して見せない嫌悪ドメインへどの程度一般化できるか?
主な発見
| モデル | EN_適合率 | EN_再現率 | EN_F1 | TR_適合率 | TR_再現率 | TR_F1 |
|---|---|---|---|---|---|---|
| BOW | 0.777 | 0.796 | 0.779 | 0.707 | 0.710 | 0.706 |
| CNN | 0.779 | 0.796 | 0.782 | 0.676 | 0.679 | 0.675 |
| LSTM | 0.787 | 0.798 | 0.790 | 0.689 | 0.688 | 0.686 |
| BERT | 0.815 | 0.817 | 0.816 | - | - | - |
| BERTweet | 0.825 | 0.829 | 0.826 | - | - | - |
| ConvBERT | 0.823 | 0.825 | 0.823 | - | - | - |
| Megatron | 0.831 | 0.830 | 0.830 | - | - | - |
| RoBERTa | 0.822 | 0.826 | 0.823 | - | - | - |
| mBERT | 0.817 | 0.818 | 0.818 | 0.757 | 0.752 | 0.753 |
| XLM-R | 0.823 | 0.826 | 0.824 | 0.770 | 0.767 | 0.768 |
| BERTurk | - | - | - | 0.778 | 0.777 | 0.777 |
| ConvBERTurk | - | - | - | 0.781 | 0.782 | 0.782 |
| ConvBERTurk (Turkish) | - | - | - | 0.781 | 0.782 | 0.782 |
- Transformerベースのモデルは、英語で約5%、トルコ語で約10%の多クラス嫌悪表現検出で、Bag-of-Woodsおよび単純なニューラルモデルを上回る。
- Megatronは英語モデルの中で最高スコアを達成し、英語データで最も高いスコアを、ConvBERTurkはトルコ語データでトップスコアを達成する。マルチリンガルモデル(mBERT、XLM-R)は言語特異モデルと競合するパフォーマンスを示す。
- 言語を跨いで、全データの98%(英語)、97%(トルコ語)の性能を、学習データのわずか20%で回復する。
- クロスドメイン転移は、英語でターゲットドメイン性能の平均96%、トルコ語で92%を回復する。ジェンダーと宗教の転移はスポーツよりも回復が容易で、ジェンダーはクロスドメイン回復性が弱いことが示唆される。
- ツイート固有の要素(URL、ハッシュタグ、絵文字)を除去しても、両言語ともに性能への影響はほとんどない。
- データサイズの拡大は性能を向上させ、嫌悪ラベル付き追加データが英語の嫌悪検出の精度に最も寄与する傾向。比較可能なデータサイズでは英語の嫌悪検出はトルコ語より難しい。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。