QUICK REVIEW

[論文レビュー] Prediction of Cyberbullying Incidents on the Instagram Social Network

Homa Hosseinmardi, Sabrina Arredondo Mattson|arXiv (Cornell University)|Aug 25, 2015

Hate Speech and Cyberbullying Detection参考文献 24被引用数 77

ひとこと要約

本稿では、人間によるラベル付け済みデータを用いて、テキスト、視覚的、およびソーシャルネットワーク特徴を統合することで、Instagramにおけるいじめの検出と予測を目的としたマルチモーダルアプローチを提案する。MaxEnt分類器を用いた予測において、画像およびユーザーメタデータを組み合わせた場合、76%のリcallと62%のプレシジョンを達成しており、検出自体に与える影響は限定的であるものの、予測において非テキスト特徴が極めて重要であることが示された。

ABSTRACT

Cyberbullying is a growing problem affecting more than half of all American teens. The main goal of this paper is to investigate fundamentally new approaches to understand and automatically detect and predict incidents of cyberbullying in Instagram, a media-based mobile social network. In this work, we have collected a sample data set consisting of Instagram images and their associated comments. We then designed a labeling study and employed human contributors at the crowd-sourced CrowdFlower website to label these media sessions for cyberbullying. A detailed analysis of the labeled data is then presented, including a study of relationships between cyberbullying and a host of features such as cyberaggression, profanity, social graph features, temporal commenting behavior, linguistic content, and image content. Using the labeled data, we further design and evaluate the performance of classifiers to automatically detect and pre- dict incidents of cyberbullying and cyberaggression.

研究の動機と目的

Instagramのようなメディアベースのソーシャルネットワークにおけるいじめと一般のサイバーいじめを区別すること。
クラウドソーシングによる人間ラベリングを用いて、3,165K件のInstagramメディアセッション（画像およびコメント）を対象に、いじめおよびサイバーいじめのラベルを収集・ラベル付けすること。
言語的コンテンツ、画像コンテンツ、不適切語彙（profanity）、ソーシャルグラフダイナミクス、および時間的コメント行動といった多様な特徴との関係を分析すること。
テキスト、画像、ユーザーメタデータを統合したマルチモーダル分類器を設計・評価し、いじめの検出および予測の両方を実現すること。
初期の行動的サインを用いて、完全なパターンが形成される前に対象のいじめの発生を予測する予測モデルを開発すること。

提案手法

25,000人のユーザープロフィールから3,165K件のInstagramメディアセッション（画像、関連コメント、メタデータを含む）を収集した。
CrowdFlowerを用いたクラウドソーシングラベリング研究を実施し、いじめおよびサイバーいじめの真のラベルを割り当てた。ラベラーは画像とコメントを同時に表示することで文脈的正確性を確保した。
複数のモダリティにわたる特徴の抽出および分析を実施した：言語的特徴（不適切語彙、感情分析、『死』や『宗教』といったトピックカテゴリ）、画像コンテンツ（手動ラベリングによる）、ソーシャルネットワーク特性（いいね数、フォロワー数、フォロー数、投稿時刻）。
MaxEntおよびSVMを用いたマルチモーダル分類器を設計・評価し、テキスト、画像、ユーザー、時間的特徴の組み合わせを検出および予測タスクに統合した。
コメントの到着間隔およびコメント履歴（例：5、10、15件のコメントウィンドウ）を時間的特徴として用い、行動パターンをモデル化した。
F1スコア、精度、リcallといった標準的な指標を用いて性能を評価し、特徴の重要性を評価するためのアブレーションスタディを実施した。

実験結果

リサーチクエスチョン

RQ1言語的、視覚的、ソーシャルネットワーク特徴は、Instagramにおけるいじめ発生とどのように相関しているか？
RQ2画像コンテンツやユーザーメタデータといった非テキスト的特徴は、テキストのみのモデルに比べて、いじめの予測性能をどの程度向上させるか？
RQ3コメント頻度、タイミング、およびメディアセッションにおけるいじめの有無との関係は何か？
RQ4サイバーいじめといじめの区別は、分類器の性能およびラベリングの一貫性にどのような影響を与えるか？
RQ5コメント行動およびユーザー相互作用における初期の行動パターンは、完全ないじめが発生する前に対象のいじめの発生を予測できるか？

主な発見

ラベラーは、文脈を十分に提供された状態で、いじめおよびサイバーいじめの識別に関して高い合意を示した。これは、文脈を考慮した人間の判断が信頼できることを示している。
多くのメディアセッションに不適切語彙およびサイバーいじめの兆候が含まれていたが、それらはいじめとしてラベル付けされていなかった。これは、単純な不適切語彙検出では、継続的かつパターンに基づくいじめを特定するには不十分であることを示している。
ネガティビティが60–70%を超えるメディアセッションは、いじめと分類される可能性が低かった。これは、極度のネガティビティが、常に権力の不均衡を伴う繰り返しの攻撃を示すわけではない可能性を示唆している。
いじめ発生と関連するメディアセッションでは、コメント頻度が高く、1投稿あたりのいいね数が低く、攻撃的で社会的支援が少ない状況が見られた。
画像コンテンツのカテゴリとして『薬物』はいじめと強く関連していたが、『タトゥー』や『食事』は有意な相関が認められなかった。
MaxEnt分類器は、ユーザーの属性、画像コンテンツ、投稿時刻、キャプション、コメント履歴を組み合わせることで、76%のリcallおよび62%のプレシジョンを達成し、予測において非テキスト特徴が効果的な予測に不可欠であることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。