QUICK REVIEW
[論文レビュー] Hate Speech Detection from Code-mixed Hindi-English Tweets Using Deep Learning Models
Kamble Satyajit, Aditya Joshi|arXiv (Cornell University)|Nov 13, 2018
Hate Speech and Cyberbullying Detection参考文献 13被引用数 74
ひとこと要約
この論文は3つの深層学習モデル(CNN-1D、LSTM、BiLSTM)とドメイン特化の埋め込みを用い、ヒンディー語-英語のコード混合ツイートにおけるヘイトスピーチを検出し、統計的ベースラインに対してF-scoreを約12%向上させる。
ABSTRACT
This paper reports an increment to the state-of-the-art in hate speech detection for English-Hindi code-mixed tweets. We compare three typical deep learning models using domain-specific embeddings. On experimenting with a benchmark dataset of English-Hindi code-mixed tweets, we observe that using domain-specific embeddings results in an improved representation of target groups, and an improved F-score.
研究の動機と目的
- ソーシャルメディア文脈におけるヒンディー語-英語コード混合ツイートのヘイトスピーチ検出を動機づける。
- 共通データセット上で統計ベースラインに対して深層学習アーキテクチャを評価する。
- ドメイン特化の単語埋め込みがヘイトスピーチにおけるターゲット集団の表現を改善することを示す。
- CNN-1D、LSTM、BiLSTMを比較し、最も性能の高いモデルを特定する。
提案手法
- gensim Word2Vecを用いて大規模なコード混合ツイートコーパスからドメイン特化の単語埋め込みを学習する。
- ドメイン特化の埋め込みを用いた3つの深層学習モデル(CNN-1D、LSTM、BiLSTM)をバイナリのヘイトスピーチ分類に適用する。
- CNN-1Dでグローバル最大プーリングとドロップアウトを使用し、LSTM/BiLSTMでシーケンス処理の後にグローバル最大プーリングを適用。
- Bohra et al. (2018) のデータセットで10-foldクロスバリデーションを用いてモデルを学習・評価する。
- 公平な比較のため既存のベースライン統計アプローチ(SVM、Random Forest)を再実装する。
実験結果
リサーチクエスチョン
- RQ1ドメイン特化の埋め込みを用いた深層学習モデルはヒンディー語-英語コード混合のヘイトスピーチデータセットで従来の統計手法を上回れるか?
- RQ2どのニューラルアーキテクチャ(CNN-1D、LSTM、BiLSTM)がコード混合ヘイトスピーチの意味を最もよく捉えるか?
- RQ3ドメイン特化の埋め込みは一般的な埋め込みよりマイノリティ集団とヘイト表現をより良く表現できるか?
- RQ4ターゲットデータセット上で統計ベースラインに対する深層学習モデルの精度、再現率、F-score、精度の改善はどれくらいか?
主な発見
| P (%) | R (%) | F (%) | A (%) | |
|---|---|---|---|---|
| Bohra et al. (2018) (SVM) | 74.94 | 63.15 | 68.54 | 71.03 (71.7*) |
| Bohra et al. (2018) (Random Forest) | 62.43 | 58.88 | 60.60 | 65.78 (66.7*) |
| CNN-1D | 83.34 | 78.51 | 80.85 | 82.62 |
| LSTM | 81.11 | 75.80 | 78.36 | 80.21 |
| BiLSTM | 82.04 | 78.90 | 80.43 | 81.48 |
- CNN-1DはFスコア80.85%、正解率82.62%で最高の性能を達成した。
- 深層学習モデルは統計ベースラインをF-score、適合率、再現率のすべてで上回った。
- ドメイン特化の埋め込みは一般的な埋め込みと比較してマイノリティ集団とヘイト表現の類似表現を改善する。
- BiLSTMはCNN-1Dより再現率がわずかに優れる一方、CNN-1Dは精度が高い。
- ドメイン特化の埋め込みには一般的な埋め込みに含まれない罵語が含まれており、ヘイトスピーチの意味表現を改善する。
- 統計ベースラインに対する改善はF-scoreで約12%である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。