QUICK REVIEW

[論文レビュー] A Web of Hate: Tackling Hateful Speech in Online Social Spaces

Haji Mohammad Saleem, Kelly P. Dillon|arXiv (Cornell University)|Sep 28, 2017

Hate Speech and Cyberbullying Detection参考文献 11被引用数 111

ひとこと要約

本論文は、自己識別的な憎悪コミュニティによって生成されたテキストを用いて言語モデルを訓練することで、憎悪表現の検出にコミュニティ主導のアプローチを提示し、キーワードベースのベースラインを超え、プラットフォームを横断した適用性を可能にする。

ABSTRACT

Online social platforms are beset with hateful speech - content that expresses hatred for a person or group of people. Such content can frighten, intimidate, or silence platform users, and some of it can inspire other users to commit violence. Despite widespread recognition of the problems posed by such content, reliable solutions even for detecting hateful speech are lacking. In the present work, we establish why keyword-based methods are insufficient for detection. We then propose an approach to detecting hateful speech that uses content produced by self-identifying hateful communities as training data. Our approach bypasses the expensive annotation process often required to train keyword systems and performs well across several established platforms, making substantial improvements over current state-of-the-art approaches.

研究の動機と目的

プラットフォーム運用者にとって実務的に有用で運用可能な方法で憎悪表現を定義する。
キーワードベースの検出と注釈主導のアプローチの限界を示す。
憎悪コミュニティのデータから訓練されたコミュニティベースの言語モデルを提案し、その有効性を検証する。
提案手法のプラットフォーム内外での横断的な有効性を実証する。

提案手法

対象グループを特定（Black、Plus-size、Female）し、憎悪サブレディットとサポート系サブレディット、その他のプラットフォーム（Voat、ウェブフォーラム）からデータを収集する。
ラベル付きLLDAを用いて、Redditを基準としたベースラインに対して憎悪コミュニティからトピック言語モデルを学習し、キーワードベースのデータと比較する。
標準的なテキスト前処理の後、tf-idfのユニグラム特徴量でナイーブベイズ、サポートベクターマシン、ロジスティック回帰の分類器を訓練する。
ランダムデータとサポートコミュニティデータに対して評価し、精度、再現率、F1、Cohenのκを測定する。
Redditで訓練したモデルをVoatや非Redditフォーラムに適用して、プラットフォーム横断の一般化を検証する。

実験結果

リサーチクエスチョン

RQ1コミュニティ定義の憎悪表現検出アプローチは、キーワードベースのベースラインを上回ることができるか？
RQ2自己識別的な憎悪コミュニティから学習した言語モデルは、対象グループごとに特徴的な言語的署名を捉えるか？
RQ3あるプラットフォーム（Reddit）で訓練されたモデルは、他のプラットフォーム（Voat、ウェブフォーラム）で憎悪表現検出に有効か？
RQ4共通語彙を持つ憎悪コミュニティとサポートコミュニティの間で、コミュニティベースのアプローチはどのように区別を行うか？

主な発見

コミュニティベースの分類器は、キーワードベースのベースラインより高い精度を達成し（10–20ポイント高く）、偽陽性を減らす。
同じターゲットの憎悪コミュニティとサポートコミュニティは多くの語彙を共有するが、コミュニティで訓練したモデルはそれらを強い性能で区別できる。
本手法はReddit内の憎悪コンテンツ検出を堅牢に行い、Voatおよびウェブフォーラムへ適用しても同等の性能を示す。
ナイーブベイズ、SVM、ロジスティック回帰は憎悪データで類似した性能を示し、いくつかの指標でロジスティック回帰にわずかな利得がある。
クロスプラットフォーム訓練（Reddit）を行い、それをVoat/ウェブフォーラムでテストすると、競争力のある精度を維持し、プラットフォーム横断の適用性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。