[論文レビュー] A Large-Scale Semi-Supervised Dataset for Offensive Language Identification
本論文では、階層的な三段階の分類体系を用いて、900万件を超える英語のツイートをオフェンスィブ言語について注釈づけた大規模な半教師付きデータセットSOLIDを紹介する。SOLIDと既存のOLIDデータセットを組み合わせることで、深層学習モデルを用いたオフェンスィブ言語識別タスクにおいて、特に低レベルの分類体系で顕著な性能向上が示された。
The use of offensive language is a major problem in social media which has led to an abundance of research in detecting content such as hate speech, cyberbulling, and cyber-aggression. There have been several attempts to consolidate and categorize these efforts. Recently, the OLID dataset used at SemEval-2019 proposed a hierarchical three-level annotation taxonomy which addresses different types of offensive language as well as important information such as the target of such content. The categorization provides meaningful and important information for understanding offensive language. However, the OLID dataset is limited in size, especially for some of the low-level categories, which included only a few hundred instances, thus making it challenging to train robust deep learning models. Here, we address this limitation by creating the largest available dataset for this task, SOLID. SOLID contains over nine million English tweets labeled in a semi-supervised manner. We further demonstrate experimentally that using SOLID along with OLID yields improved performance on the OLID test set for two different models, especially for the lower levels of the taxonomy. Finally, we perform analysis of the models' performance on easy and hard examples of offensive language using data annotated in a semi-supervised way.
研究の動機と目的
- 既存のオフェンスィブ言語データセットのサイズが限定的であることに起因する、とりわけ低レベルの分類カテゴリに対する課題を解決すること。
- 膨大な量のソーシャルメディアテキストをスケーラブルに注釈づけるための半教師付き手法の開発。
- 深層学習モデルのための強固なトレーニングを可能にする、大規模で高品質なデータセットの構築。
- 新規データセットを既存のベンチマーク(例:OLID)と組み合わせた場合のモデル性能への影響の評価。
提案手法
- 900万件を超える英語ツイートを大規模に注釈づけるために、半教師付き学習パイプラインを活用した。
- 一貫性のある注釈を実現するため、SemEval-2019 OLIDデータセットの階層的三段階分類体系を採用した。
- アクティブラーニングとモデルの不確実性推定を用いて、人間による検証に優先順位を付ける高信頼度予測を特定した。
- モデルの予測結果と人間による検証済みインスタンスを統合し、反復的に注釈品質を向上させた。
- 大規模データセット全体におけるラベルの信頼性を確保するため、データフィルタリングと一貫性チェックを実施した。
- SOLIDで事前学習済み言語モデルを微調整し、OLIDテストセットで性能を評価した。
実験結果
リサーチクエスチョン
- RQ1高品質なラベルを維持しつつ、900万件を超えるツイートに対して半教師付きアプローチを効果的にスケーリングできるか?
- RQ2SOLIDで学習させたモデルは、特に訓練データが限られていた低レベルの分類カテゴリにおいて、OLIDベンチマークでどの程度性能が向上するか?
- RQ3大規模な半教師付きデータで学習する際、容易な例と困難な例の相対的寄与度はどのように異なるか?
- RQ4SOLIDとOLIDを組み合わせることで、OLID単体で学習させる場合と比較して、F1スコアおよびカテゴリレベルの性能でどの程度向上が見られるか?
主な発見
- SOLIDで学習させたモデルは、以前に訓練データが限られていた低レベルの分類カテゴリにおいて、OLIDテストセットで顕著な性能向上を示した。
- SOLIDとOLIDを組み合わせた結果、分類体系のすべてのレベルでF1スコアが向上し、特に最も細分化されたレベルで最も顕著な向上が観察された。
- SOLIDで学習したモデルは、言語的ニュアンスや文脈依存性が強い「難しい例」(例:皮肉、風刺)についても、OLID単体で学習したモデルと比較して一般化性能が向上した。
- 半教師付き注釈パイプラインは、スケーラブルかつ高品質なデータセットの生成に成功し、下流のモデルトレーニングを強固に可能にした。
- 特に皮肉や風刺といった間接的な攻撃的表現の検出において、性能向上が顕著に見られた。
- 結果から、大規模な半教師付きデータは、リソースが限られたオフェンスィブ言語カテゴリにおいて、データ不足を効果的に補填できることを示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。