Skip to main content
QUICK REVIEW

[論文レビュー] Transfer Learning from LDA to BiLSTM-CNN for Offensive Language Detection in Twitter

Gregor Wiedemann, Eugen Ruppert|arXiv (Cornell University)|Nov 7, 2018
Hate Speech and Cyberbullying Detection参考文献 14被引用数 33
ひとこと要約

本稿では、ドイツ語のTwitterデータにおける攻撃的言語検出のためのBiLSTM-CNNモデルを提案し、LDAを用いて導出された非教師ありトピッククラスタから転移学習を活用することで性能を向上させている。最も優れた結果は、LDAベースのトピック転移とトピック的ユーザークラスタ情報の組み合わせによって達成され、深刻な忘却の軽減が図られ、粗い粒度のタスクでF1スコアが73.67%にまで向上した。

ABSTRACT

We investigate different strategies for automatic offensive language classification on German Twitter data. For this, we employ a sequentially combined BiLSTM-CNN neural network. Based on this model, three transfer learning tasks to improve the classification performance with background knowledge are tested. We compare 1. Supervised category transfer: social media data annotated with near-offensive language categories, 2. Weakly-supervised category transfer: tweets annotated with emojis they contain, 3. Unsupervised category transfer: tweets annotated with topic clusters obtained by Latent Dirichlet Allocation (LDA). Further, we investigate the effect of three different strategies to mitigate negative effects of 'catastrophic forgetting' during transfer learning. Our results indicate that transfer learning in general improves offensive language detection. Best results are achieved from pre-training our model on the unsupervised topic clustering of tweets in combination with thematic user cluster information.

研究の動機と目的

  • ドイツ語のソーシャルメディアコンテンツにおける効果的な攻撃的言語検出システムの不足に対処すること。
  • 補助タスクからの転移学習が攻撃的言語分類の性能に与える影響を調査すること。
  • ドイツ語のTwitterデータにおいて、教師あり、弱教師あり、非教師ありの異なる転移学習戦略の効果を評価すること。
  • 層別微調整戦略を用いて、転移学習中の深刻な忘却を軽減すること。
  • ユーザーメンションのクラスタリングが分類性能に与える影響を検討すること。

提案手法

  • ツイートの逐次的および局所的テキスト特徴を捉えるために、BiLSTM-CNNニューラルネットワークアーキテクチャが用いられている。
  • 転移学習は、ラベル付きの近縁の攻撃的カテゴリ、絵文字のアノテーション、LDAによって導出されたトピッククラスタの3つの補助タスクで事前学習することで実施されている。
  • 1,000個のトピッククラスタを生成するため、1,000万件のツイートから構成されるバックグラウンドコーパスに対してLDAが適用されている。
  • 深刻な忘却を軽減するための3つの戦略が評価されている:層別微調整、重みの固定、および統合学習。
  • ユーザーのメンションクラスタリングが、未確認のユーザーに対しても、頻繁に標的にされているユーザーに関するトピック的情報を組み込むために用いられている。
  • サブワード埋め込みが、未知語や誤字、非標準語(例:絵文字)の処理に用いられている。

実験結果

リサーチクエスチョン

  • RQ1LDAによって導出されたトピッククラスタからの転移学習は、ドイツ語のTwitterデータにおける攻撃的言語検出性能を向上させるか?
  • RQ2教師あり、弱教師あり、非教師ありの異なる転移学習戦略は、分類性能にどのように影響を与えるか?
  • RQ3攻撃的言語検出の文脈において、どの戦略が深刻な忘却を最も効果的に軽減するか?
  • RQ4ユーザーのメンションクラスタリングは、特に未確認のユーザーに対して、モデルの一般化性能にどの程度寄与するか?
  • RQ5ドメイン固有のデータに対する非教師あり事前学習は、教師ありまたは弱教師ありの代替手段を上回る性能を発揮するか?

主な発見

  • LDAトピッククラスタからの非教師あり転移学習アプローチが、粗い粒度の攻撃的言語検出タスクで最高のF1スコア73.67%を達成した。
  • トピッククラスタでの事前学習に加え、トピック的ユーザークラスタ情報の統合が最も優れた性能をもたらし、F1スコア73.67%、正解率53.25%を達成した。
  • 層別微調整戦略(下位から上位への訓練)が、他の深刻な忘却軽減技術(統合学習や重みの固定)を著しく上回り、性能向上を実現した。
  • 粗い粒度のタスクでは77.5%の正解率を達成したのに対し、細かめの4カテゴリ分類タスクでは73.7%であったため、より広い攻撃的言語検出タスクでの一般化性能が優れていることが示された。
  • 誤検出の主な原因は、攻撃的ではないが厳しい批判や修辞的質問であった。一方、誤検出(偽陰性)は、しばしば人間性を否定するような繊細な表現や間接的な皮肉を含むことが多かった。
  • 結果から、LDAによるドメイン固有の非教師あり、タスクに依存しない事前学習が、攻撃的言語検出を越える他の自然言語処理タスクに対しても非常に効果的で、汎用的であると考えられる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。