QUICK REVIEW

[論文レビュー] Analyzing the Targets of Hate in Online Social Media

Leandro Silva, Mainack Mondal|arXiv (Cornell University)|Mar 24, 2016

Hate Speech and Cyberbullying Detection参考文献 7被引用数 105

ひとこと要約

本論文は Whisper と Twitter におけるヘイトスピーチの対象を文型構造検出器を用いて分析し、大規模なヘイトスピースデータセットを作成し、対象を九つのヘイトカテゴリーに分類する。

ABSTRACT

Social media systems allow Internet users a congenial platform to freely express their thoughts and opinions. Although this property represents incredible and unique communication opportunities, it also brings along important challenges. Online hate speech is an archetypal example of such challenges. Despite its magnitude and scale, there is a significant gap in understanding the nature of hate speech on social media. In this paper, we provide the first of a kind systematic large scale measurement study of the main targets of hate speech in online social media. To do that, we gather traces from two social media systems: Whisper and Twitter. We then develop and validate a methodology to identify hate speech on both these systems. Our results identify online hate speech forms and offer a broader understanding of the phenomenon, providing directions for prevention and detection approaches.

研究の動機と目的

人気のあるソーシャルメディアにおけるオンラインヘイトスピーチの大局的理解の欠如を解決することで研究の動機づけを行う。
文構造に基づいてソーシャルメディア投稿のヘイトスピーチを識別するスケーラブルな手法を開発する。
Whisper と Twitter のヘイトスピースデータセットを構築・検証する。
オンラインのヘイトターゲットを特徴づけ、普及している形態とパターンを明らかにする。

提案手法

ヘイトスピーチを、特定の集団の特徴に対する偏見に動機づけられた侮辱として定義する。
I <intensity> <userintent> <hatetarget> 形式のヘイト投稿を検出する文構造パターンを使用する。
<one word> people などのテンプレートと Hatebase の語彙リスト（offensivity >50）を用いてヘイト分析を行う。
Hatebase からヘイト語をクロールし、高い侮辱性を持つ語をフィルタリングする（>50% を満たす語は116語）。
人種、行動、身体的特徴、性的指向、階級、性別、民族、障害、宗教の9カテゴリ＋Otherにヘイト対象を手動で分類する。

実験結果

リサーチクエスチョン

RQ1Twitter と Whisper の投稿における主なヘイトスピーチの対象は何か？
RQ2二つのプラットフォームで異なるヘイトカテゴリーの普及度はどの程度か？
RQ3パターンベースのアプローチは大規模データセットの構築に信頼性を持ってヘイトスピーチを識別できるか？
RQ4Whisper（匿名）と Twitter（公開）では、カテゴリ分布の点でヘイト対象に差があるか？

主な発見

カテゴリー	Twitter % 投稿	Whisper % 投稿
Race	48.73%	19.27%
Behavior	37.05%	9.32%
Physical	3.38%	14.06%
Sexual orientation	1.86%	9.32%
Class	1.08%	3.63%
Ethnicity	0.57%	1.96%
Gender	0.56%	0.82%
Disability	0.19%	0.41%
Religion	0.07%	1.89%
Other	6.50%	12.84%

本手法はヘイトスピースを含む tweet が20,305件、whispers が7,604件を特定した。
トップのヘイトターゲットは、人種、行動、身体的属性が両プラットフォームで含まれる。
Whisper は一部の領域で人種関連のヘイトの割合が低く、非人種カテゴリの割合が高い。事前フィルタリングの影響の可能性。
定義された9カテゴリは対象の大多数をカバーしており（両データセットの多くのターゲットは人種、行動、身体的特徴に該当）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。