QUICK REVIEW

[論文レビュー] Detection of Cyberbullying Incidents on the Instagram Social Network

Homa Hosseinmardi, Sabrina Arredondo Mattson|arXiv (Cornell University)|Mar 12, 2015

Hate Speech and Cyberbullying Detection被引用数 91

ひとこと要約

本論文では、テキスト、画像、メタデータ特徴を組み合わせた線形SVM分類器を用いて、Instagram上のサイバーいじめを検出するマルチモーダルアプローチを提案する。人為的ラベルの付与されたデータを統合することで87%の精度を達成し、これは繰り返しの否定的行動と権力の不均衡を特徴とするサイバーいじめと、より広範なサイバー攻撃行動を区別するものである。マルチモーダル特徴は、テキストのみの手法を著しく上回ることが示された。

ABSTRACT

Cyberbullying is a growing problem affecting more than half of all American teens. The main goal of this paper is to investigate fundamentally new approaches to understand and automatically detect incidents of cyberbullying over images in Instagram, a media-based mobile social network. To this end, we have collected a sample Instagram data set consisting of images and their associated comments, and designed a labeling study for cyberbullying as well as image content using human labelers at the crowd-sourced Crowdflower Web site. An analysis of the labeled data is then presented, including a study of correlations between different features and cyberbullying as well as cyberaggression. Using the labeled data, we further design and evaluate the accuracy of a classifier to automatically detect incidents of cyberbullying.

研究の動機と目的

Instagramのような画像中心のソーシャルメディアにおいて、サイバーいじめと一般のサイバー攻撃行動を区別すること。
関連するコメント、画像、ユーザーのメタデータを含む、Instagramメディアセッションの大規模データセットの収集とラベリング。
コメントの数、時間的パターン、画像コンテンツなどの特徴とサイバーいじめの相関関係の分析。
テキストのみのアプローチを上回る検出精度を実現するマルチモーダル分類器の設計と評価。
繰り返しの否定的行動と権力の不均衡を特徴とするサイバーいじめと、一般のサイバー攻撃行動を区別する大規模かつ人為ラベルが付与されたデータセットの提供。

提案手法

スノーボールサンプリングを用いて、25,000人の公開プロフィールから697,000件のInstagramメディアセッションを収集。
Crowdflowerを介したクラウドソーシングラベリング調査を実施。各メディアセッションに対して5名のラベラーが参加し、多数決基準を用いてサイバーいじめを定義。
ユニグラムおよび3-グラムを用いてテキスト特徴を抽出。次に、次元削減のためSVDを適用し、200成分に削減。
フォロワー/フォローリング数、いいね/コメント行動などのメタデータを特徴セットに統合。
SVDで次元削減されたテキスト特徴と併せて、メタデータおよび画像カテゴリーラベルの特徴を、カーネルPCAを用いて20成分に削減。
組み合わせられた次元削減済み特徴セットを用いて線形SVM分類器を訓練。これにより、高精度かつ高再現率のサイバーいじめ検出を実現。

実験結果

リサーチクエスチョン

RQ1Instagramのような画像中心のソーシャルメディアにおいて、サイバーいじめと一般のサイバー攻撃行動の違いは何か？
RQ2コメント数、時間的コメントクラスタリング、画像コンテンツといった特徴が、ラベル付けされたサイバーいじめ事例とどのように相関しているか？
RQ3テキストのみのアプローチと比較して、テキスト・画像・メタデータのマルチモーダル特徴が、サイバーいじめ検出精度をどの程度向上させるか？
RQ4人為ラベラーはサイバーいじめの識別においてどの程度一貫性を示すか？また、合意に影響を与える要因は何か？
RQ5Instagramメディアセッションにおけるネガティブコンテンツのうち、実際にサイバーいじめに該当する割合はどの程度か？

主な発見

高頻度の乱暴な表現を含むメディアセッションの約48%は、多数決基準ではサイバーいじめに分類されず、すべてのネガティブコンテンツがサイバーいじめを意味するわけではないことが示された。
ラベラーの間でサイバーいじめ分類に対して強い合意が得られたことから、繰り返しの否定的行動と権力の不均衡に基づくサイバーいじめの定義は、人間にとって信頼性のある解釈が可能であることが示された。
サイバーいじめの基準を満たさないが、攻撃的行動を示すメディアセッションの有意なサブセットが存在し、両者を区別することが重要であることが浮き彫りになった。
サイバーいじめ検出と、コメント総数および1時間以内のコメントの時間的クラスタリングとの間に強い相関が認められた。これは、一時的なコメントの集中（バースト）が重要なサインであることを示している。
マルチモーダル分類器は87%の精度を達成し、ベースラインの52%から35ポイントも向上した。テキスト、画像、メタデータ特徴を線形SVMで統合することで実現された。
画像カテゴリーやメタデータの追加により、精度はメタデータのみの0.71から0.87に向上した。これは、マルチモーダル統合が高性能な検出に不可欠であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。