[論文レビュー] "Like Sheep Among Wolves": Characterizing Hateful Users on Twitter
本稿は、Twitterにおける嫌悪的ユーザーの特徴を、活動パターン、ネットワーク中心性、言語的コンテンツの分析を通じてユーザー中心のアプローチで提示する。ランダムウォークベースのクローラーを用いて100,386人のユーザーをサンプリングし、4,972人のユーザー(うち544人が嫌悪的)をクラウドソーシングでアノテートした結果、嫌悪的ユーザーはより最近に作成されており、より活発で、リツイートネットワークにおいてもより中心的であり、嫌悪関連の語彙をあまり使用しているにもかかわらず、否定的で乱暴な表現を多く用いている。これは『孤独な狼』のレアリティを覆すものである。
Hateful speech in Online Social Networks (OSNs) is a key challenge for companies and governments, as it impacts users and advertisers, and as several countries have strict legislation against the practice. This has motivated work on detecting and characterizing the phenomenon in tweets, social media posts and comments. However, these approaches face several shortcomings due to the noisiness of OSN data, the sparsity of the phenomenon, and the subjectivity of the definition of hate speech. This works presents a user-centric view of hate speech, paving the way for better detection methods and understanding. We collect a Twitter dataset of $100,386$ users along with up to $200$ tweets from their timelines with a random-walk-based crawler on the retweet graph, and select a subsample of $4,972$ to be manually annotated as hateful or not through crowdsourcing. We examine the difference between user activity patterns, the content disseminated between hateful and normal users, and network centrality measurements in the sampled graph. Our results show that hateful users have more recent account creation dates, and more statuses, and followees per day. Additionally, they favorite more tweets, tweet in shorter intervals and are more central in the retweet network, contradicting the "lone wolf" stereotype often associated with such behavior. Hateful users are more negative, more profane, and use less words associated with topics such as hate, terrorism, violence and anger. We also identify similarities between hateful/normal users and their 1-neighborhood, suggesting strong homophily.
研究の動機と目的
- OSNデータにおけるノイズ、主観性、文脈の問題により、コンテンツベースの嫌悪的発言検出手法に限界があることを是正するため。
- 個々のツイートではなく、嫌悪的ユーザーの特徴づけが、嫌悪的発言の検出と理解をより良く可能にするかを検討するため。
- Twitterにおける嫌悪的ユーザーと通常ユーザーとの間で、ユーザー活動、言語的コンテンツ、ネットワーク上の位置にどのような差があるかを調査するため。
- 嫌悪的ユーザーおよび通常ユーザーの1-近傍における同質性(ホモフィリー)効果を分析するため。
提案手法
- ランダムウォークベースのクローラーを用いて、リツイートネットワークから100,386人のTwitterユーザーのサブグラフをサンプリングした。
- 嫌悪関連語彙の語彙リストとの照合結果に基づき、潜在的に嫌悪的とされるユーザーを特定した。
- 嫌悪語彙ユーザーからの距離が異なるユーザーを段階的サンプリングすることで、アノテーションサンプルの多様性を確保した。
- CrowdFlowerを用いて4,972人のユーザーを手動でアノテートし、アノテーターは文脈的理解を図るため、ユーザーの完全なプロフィールを閲覧した。
- 感情分析および語彙分析ツールを用いて、ユーザーのタイムラインに対する言語的分析を実施し、否定的度、乱暴語の使用頻度、トピック関連性を評価した。
- リツイートグラフにおける嫌悪的ユーザーのグローバルおよびローカルな位置を評価するため、媒介性と次数といったネットワーク中心性指標を計算した。
実験結果
リサーチクエスチョン
- RQ1嫌悪的ユーザーに関連する属性およびコンテンツは、通常ユーザーと顕著に異なるか?
- RQ2嫌悪的ユーザーは、グローバルな中心性およびローカルな近隣構造の観点から、ネットワーク上でどのように位置づけられているか?
- RQ3嫌悪的ユーザーおよびその1-近傍は、行動およびコンテンツの面でどの程度同質性(ホモフィリー)を示しているか?
- RQ4嫌悪的ユーザーの言語的プロファイルは、通常ユーザーと比較して、嫌悪関連語彙および感情的トーンの面でどのように異なるか?
主な発見
- 嫌悪的ユーザーは通常ユーザーと比べて顕著に最近にアカウントが作成されており、中央値でのアカウント年齢が著しく短い。
- 嫌悪的ユーザーは1日あたりのツイート数、1日あたりのフォロー数、お気に入りの数がいずれも多く、より高い関与度を示している。
- 嫌悪的ユーザーはリツイートグラフにおいてより高いネットワーク中心性を示しており、孤立した嫌悪的発信者を表す『孤独な狼』のレアリティを覆している。
- 否定的で乱暴な表現を多く用いているにもかかわらず、嫌悪的ユーザーは通常ユーザーと比べて、嫌悪、テロリズム、暴力、怒りに関連する語彙の使用頻度が少ない。
- 嫌悪的ユーザーおよび通常ユーザーの1-近傍は強いホモフィリーを示しており、近隣の社会的圏で類似した行動的・言語的パターンが観察された。
- 中央値での嫌悪的ユーザーはリツイートネットワークにおいてより中心的であり、より高い媒介性中心性を示しており、情報拡散における影響力が大きいことが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。