QUICK REVIEW

[論文レビュー] Automated Hate Speech Detection and the Problem of Offensive Language

Thomas Davidson, Dana Warmsley|arXiv (Cornell University)|Mar 11, 2017

Hate Speech and Cyberbullying Detection参考文献 14被引用数 275

ひとこと要約

本論文は、群衆ラベル付きのツイートデータセットを用いて、ヘイトスピーチ、攻撃的な言葉、いずれにも該当しないを区別するマルチクラス分類器を訓練し、ヘイトスピーチと一般的な攻撃性を分離する際の課題と文脈の役割を強調する。

ABSTRACT

A key challenge for automatic hate-speech detection on social media is the separation of hate speech from other instances of offensive language. Lexical detection methods tend to have low precision because they classify all messages containing particular terms as hate speech and previous work using supervised learning has failed to distinguish between the two categories. We used a crowd-sourced hate speech lexicon to collect tweets containing hate speech keywords. We use crowd-sourcing to label a sample of these tweets into three categories: those containing hate speech, only offensive language, and those with neither. We train a multi-class classifier to distinguish between these different categories. Close analysis of the predictions and the errors shows when we can reliably separate hate speech from other offensive language and when this differentiation is more difficult. We find that racist and homophobic tweets are more likely to be classified as hate speech but that sexist tweets are generally classified as offensive. Tweets without explicit hate keywords are also more difficult to classify.

研究の動機と目的

ヘイトスピーチと攻撃的な言葉を定義し、区別の必要性を動機付ける。
ヘイトスピーチ、攻撃的な言葉、いずれにも該当しないを区別するラベル付きデータセットを作成する。
分類器の性能を評価し、分離可能性を理解するためにエラーを分析する。
検出精度に影響を与える語学的および文脈的要因を特定する。

提案手法

Hatebase.org からヘイトスピーチ語彙を作成し、その語彙語を含むツイートをサンプリングする。
クラウドソーシングでラベルを3クラスに割り当てる：ヘイトスピーチ、攻撃的な言葉、またはいずれにも該当しない。
TF-IDF の unigram/bigram/trigram 特徴を抽出し、品詞タグ、感情、読みやすさ、ソーシャル特徴量を含める。
5分割交差検証で分類器を訓練し、ロジスティック回帰、Naive Bayes、決定木、ランダムフォレスト、線形 SVM を比較する。
One-versus-rest フレームワークを用いてロジスティック回帰（L2）を最終モデルとする；保持データで評価する。

実験結果

リサーチクエスチョン

RQ1マルチクラスモデルはヘイトスピーチを攻撃的な言語および中立的な内容から信頼性高く分離できるか。
RQ2どの語彙的または文脈的特徴がヘイトスピーチと攻撃的な言葉を最も識別するか。
RQ3モデル予測は人間のラベルとどの程度一致し、エラーはどこに集中するか。
RQ4明示的なヘイト用語の出現は誤分類を誘発するか、文脈がそれを緩和できるか。
RQ5どの種類のヘイトスピーチ（例：人種差別的 vs. 性差別的）がより検出されやすいまたは検出されにくいか。

主な発見

最良のモデルの総合精度は 0.91、再現率は 0.90、F1 は 0.90。
真のヘイトスピーチツイートの約 40% が誤分類され、ヘイトスピーチの適合率は 0.44、再現率は 0.61。
ヘイトスピーチは強い蔑称を含む場合、明示的な語を含まない場合より検出しやすい。
文脈を無視すると、攻撃的な言葉はしばしばヘイトスピーチとして誤分類され、性別に関する語はヘイトよりも攻撃的な言葉として分類されがちである。
攻撃的な言葉のツイートのうち 5%、無害なツイートのうち 2% がモデルによりヘイトとラベル付けされ、カテゴリ間のある程度の分離を示している。
語彙ベースのアプローチはヘイトスピーチの精度が低く、文脈とマルチクラスラベリングの価値を強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。