QUICK REVIEW

[論文レビュー] Recognizing Explicit and Implicit Hate Speech Using a Weakly Supervised Two-path Bootstrapping Approach

Lei Gao, Alexis Kuppersmith|arXiv (Cornell University)|Oct 19, 2017

Hate Speech and Cyberbullying Detection参考文献 17被引用数 43

ひとこと要約

本稿では、明示的スラーや暗黙の嫌がらせ発言を共同訓練によって同時に学習する弱教師付き二パス・ブートストラップ手法を提案する。2つのモデル、つまりスラー語彙学習器とLSTM分類器を用い、無作為にラベル付けされたデータを反復的に精錬することで、Twitterのストリームから得られる未ラベル付きデータを活用する。この手法により、嫌がらせ発言検出で48.9%のF1スコアを達成し、教師ありベースライン比で4.4倍の性能向上を実現した。

ABSTRACT

In the wake of a polarizing election, social media is laden with hateful content. To address various limitations of supervised hate speech classification methods including corpus bias and huge cost of annotation, we propose a weakly supervised two-path bootstrapping approach for an online hate speech detection model leveraging large-scale unlabeled data. This system significantly outperforms hate speech detection systems that are trained in a supervised manner using manually annotated data. Applying this model on a large quantity of tweets collected before, after, and on election day reveals motivations and patterns of inflammatory language.

研究の動機と目的

高コストなアノテーション、コーパスバイアス、および希少または進化する嫌がらせ表現への一般化能力の低さといった教師あり嫌がらせ発言検出の限界を是正すること。
大規模な未ラベル付きデータを最小限の人的監視で活用することで、オンライン嫌がらせ発言の希少性と急速な進化に打ち勝つこと。
従来の手法がしばしば見逃す、明示的（スラーに基づく）および暗黙的（文脈的、隐喩的）な嫌がらせ発言の両方を捉えること。
補完的モデルの共同訓練により、意味的ドリフトに強く、自己改善型のシステムを構築すること。
選挙などの高ストレス状況下でも、新たな言語的トリガーに動的に適応することで、嫌がらせ発言のリアルタイム検出を可能にすること。

提案手法

20個の初期スラー語彙を用いて、6200万件のツイートコーパスから正確な文字列一致により嫌がらせツイートを自動ラベル付けする。
2つの並列モデルを訓練する：自動ラベル付き嫌がらせコンテンツから新たな攻撃的語彙を発見するスラー語彙学習器と、同じラベル付きデータを用いて暗黙の嫌がらせ発言を検出するLSTM分類器。
各イテレーションで両モデルを併用する：スラー学習器が新たなスラーを特定し、LSTM分類器が意味的構成に基づいて新たなコンテンツを分類する。
両モデルから新たに特定された嫌がらせコンテンツを訓練データに追加し、各コンponentを反復的に再訓練することでカバレッジと正確性を向上させる。
語彙的特徴と文脈的特徴の補完的学習パスを強調することで、学習の持続的推進を図り、ドリフトを低減する共同訓練の原則を適用する。
2016年米国大統領選挙のような高インパクトイベント中にモデルの性能を検証するため、ソーシャルメディアの時間的ダイナミクスを活用する。

実験結果

リサーチクエスチョン

RQ1弱教師付きで自己改善型のシステムは、教師ありベースラインよりも明示的および暗黙の嫌がらせ発言をより効果的に検出できるか？
RQ2語彙的スラーに焦点を当てたモデルと文脈的特徴に焦点を当てたモデルを共同で訓練することで、検出性能と耐性がどのように向上するか？
RQ3未ラベル付きデータからのブートストラップは、高コストな手動アノテーションへの依存をどの程度低減できるか、かつ高いF1スコアを維持できるか？
RQ4嫌がらせ発言の時間的パターンは、2016年米国大統領選挙のような主要な政治的出来事とどのように相関するか？
RQ5極端に分極化した出来事の際、炎上言語を予測する上で、最も予測的である言語的および社会的要因（例：メンション、ハッシュタグ）は何か？

主な発見

二パス・ブートストラップモデルはF1スコア48.9%を達成し、スラー学習器のみ（19.7%）やLSTM分類器のみ（26.1%）を用いたシステムを著しく上回った。
本システムは214,997件の嫌がらせツイートを同定し、手動アノテーションデータで学習した教師ありモデル比で4.4倍の量に達した。
11月7日から12日にかけて嫌がらせツイートの急増が観察され、2016年米国大統領選挙期間および主要な出来事と密接に一致した。
嫌がらせツイートにおける上位メンションには、@realDonaldTrump や @HillaryClinton といった政治的指導者たちが含まれており、派閥的分極化が主要因であることが示唆された。
ハッシュタグとして #Trump、#MAGA、#Election2016 が最も頻出しており、ニュースに起因する出来事が嫌がらせ発言を助長するという事実を裏付けた。
本モデルは、明示的スラーに依存しない「福祉の軍隊」や「二流の医師」といった隐喩的表現を含む暗黙の嫌がらせ発言を効果的に検出できた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。