QUICK REVIEW

[論文レビュー] Automatic Detection of Online Jihadist Hate Speech

Tom De Smedt, Guy De Pauw|arXiv (Cornell University)|Mar 13, 2018

Hate Speech and Cyberbullying Detection参考文献 13被引用数 33

ひとこと要約

本論文では、2014年10月から2016年12月にかけて収集された45,000件のTwitter投稿からなるデータセットを用いて、自然言語処理（NLP）と教師あり機械学習を活用し、80%以上の正確性でオンライン・ジャフジスティック・ヘイトスピーチを検出する機械学習システムを提示する。このシステムは、言語的分析とネットワーク構造を活用して過激主義的修辞を同定し、極端なコンテンツを監視するスケーラブルなツールを提供する。

ABSTRACT

We have developed a system that automatically detects online jihadist hate speech with over 80% accuracy, by using techniques from Natural Language Processing and Machine Learning. The system is trained on a corpus of 45,000 subversive Twitter messages collected from October 2014 to December 2016. We present a qualitative and quantitative analysis of the jihadist rhetoric in the corpus, examine the network of Twitter users, outline the technical procedure used to train the system, and discuss examples of use.

研究の動機と目的

ソーシャルメディアのコンテンツにおけるオンライン・ジャフジスティック・ヘイトスピーチを自動で同定するためのシステムを開発すること。
過激主義的Twitter発言に見られる言語的および修辞的パターンを分析すること。
学習および評価用に使用可能な、45,000件の破壊的Twitter投稿からなるラベル付きデータセットを作成すること。
ジャフジスティック・コンテンツを広めているユーザーのネットワーク構造を検討し、拡散パターンを理解すること。
オンラインプラットフォームにおけるヘイトスピーチのリアルタイム検出のための技術的フレームワークを提供すること。

提案手法

2014年10月から2016年12月にかけて収集された45,000件のTwitter投稿の手作業ラベル付きコーパスを用いて、教師あり機械学習を実施する。
n-gram、品詞タギング、固有表現認識などの自然言語処理（NLP）技術を用いてテキスト特徴量を抽出する。
伝統的な機械学習分類器（例：SVM、ランダムフォレスト）を組み合わせて、言語的パターンに基づきヘイトスピーチを検出する。
標準的な指標（精度、再現率、F1スコアなど）を用いてモデルを訓練および評価する。
Twitterユーザーグラフに対してネットワーク解析を実施し、過激主義的コンテンツを広めているクラスターやインフルエンサーのアカウントを同定する。
言語的特徴とソーシャルネットワーク特徴を併用することで、検出性能を向上させる。

実験結果

リサーチクエスチョン

RQ1Twitter上でのオンライン・ジャフジスティック・ヘイトスピーチを特徴付ける言語的および修辞的特徴は何か？
RQ2機械学習は、一般の過激的または炎上を誘発する内容とジャフジスティック・ヘイトスピーチを区別するのにどの程度有効か？
RQ3ジャフジスティック・コンテンツを広めているユーザーのソーシャルネットワークにおける構造的パターンは何か？
RQ4テキスト特徴とネットワークベースの特徴を組み合わせることで、テキストのみのモデルよりも検出正確性を向上させられるか？
RQ5短いフォームのソーシャルメディア投稿において、過激化や扇動の兆候となる主な指標は何か？

主な発見

本システムは、オンライン・ジャフジスティック・ヘイトスピーチの検出において、全体で80%以上の正確性を達成した。
テキスト特徴とネットワークベースの特徴の両方を活用することで、テキストのみのモデルと比較して検出性能が顕著に向上した。
宗教的言及、暴力を促す発言、暗号化された言語などの明確な言語的パターンが、ヘイトスピーチのメッセージに一貫して存在した。
ネットワーク解析により、類似した過激主義的ナラティブを促進している密接に接続されたユーザーのクラスタが明らかになった。
45,000件のメッセージからなるデータセットは、将来的な過激主義的コンテンツ検出研究のための貴重なベンチマークを提供する。
本研究は、ソーシャルメディアプラットフォーム上でのジャフジスティック・リテラルの自動的大規模監視の実現可能性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。