QUICK REVIEW

[論文レビュー] Entropy-based Classification of 'Retweeting' Activity on Twitter

Rumi Ghosh, Tawan Surachawala|arXiv (Cornell University)|Jun 2, 2011

Spam and Phishing Detection参考文献 17被引用数 61

ひとこと要約

本稿では、時系列間隔とユーザーエントロピー特徴を用いたエントロピーに基づく内容独立手法を提案し、Twitter上のリツイート行動を分類する。本手法は、報道価値のある情報拡散、広告、キャンペーン、ロボット活動、パラサイト的広告の5つの明確に異なる活動タイプを的確に区別でき、コンテンツや言語に依存せずにスケーラブルなスパム検出とトレンド分析を可能にする。

ABSTRACT

Twitter is used for a variety of reasons, including information dissemination, marketing, political organizing and to spread propaganda, spamming, promotion, conversations, and so on. Characterizing these activities and categorizing associated user generated content is a challenging task. We present a information-theoretic approach to classification of user activity on Twitter. We focus on tweets that contain embedded URLs and study their collective `retweeting' dynamics. We identify two features, time-interval and user entropy, which we use to classify retweeting activity. We achieve good separation of different activities using just these two features and are able to categorize content based on the collective user response it generates. We have identified five distinct categories of retweeting activity on Twitter: automatic/robotic activity, newsworthy information dissemination, advertising and promotion, campaigns, and parasitic advertisement. In the course of our investigations, we have shown how Twitter can be exploited for promotional and spam-like activities. The content-independent, entropy-based activity classification method is computationally efficient, scalable and robust to sampling and missing data. It has many applications, including automatic spam-detection, trend identification, trust management, user-modeling, social search and content classification on online social media.

研究の動機と目的

スパム、プロパガンダ、および自然な情報共有を含む、多様で複雑なTwitter上のユーザ行動を分類する課題に対処すること。
集団的なユーザ反応ダイナミクスに着目した、コンテンツおよび言語に依存しない手法を開発すること。
Twitter上での人間によるリツイート行動と自動化またはボット駆動の活動を区別すること。
オンラインソーシャルメディアプラットフォームにおけるスパム検出、信頼管理、コンテンツ分類といった実用的応用を可能にすること。

提案手法

URLをマーカーとして用い、'RT'を含むかどうかや元の投稿者に従うかどうかにかかわらず、コンテンツの拡散とリツイートの特定を追跡する。
連続するリツイート間の時間間隔と関与する異なるユーザ数の2つの分布を用いて、リツイートダイナミクスを特徴づける。
シャノンエントロピーを用いて、時間間隔分布およびユーザ分布における不確実性またはランダムネスを定量化する。
これらの2つの分布のエントロピーを特徴量として用い、リツイート行動を明確なカテゴリに分類する。
コンテンツや言語、明示的なユーザ評価に依存せず、観測されたユーザ反応パターンにのみ依存する。
得られた特徴空間を用いて、意味的かつ経験的に妥当なカテゴリに分類可能な分類器を学習する。

実験結果

リサーチクエスチョン

RQ1Twitter上でのリツイートダイナミクスをどのように定量的に特徴づけることで、異なるタイプのユーザ行動を区別できるか？
RQ2エントロピーに基づく特徴量は、人間によるリツイートと自動化またはボット駆動の活動を効果的に分離できるか？
RQ3コンテンツに依存しない、ダイナミクスに基づく特徴量が、リツイート行動を意味のあるカテゴリに分類できる程度はどの程度か？
RQ4ニュース、広告、スパムなどの活動において、時間間隔分布およびユーザ分布のエントロピー値はどのように異なるか？
RQ5本手法は、従来のコンテンツベースのフィルタを回避する高度なスパムおよびプロモーションキャンペーンを検出できるか？

主な発見

エントロピーに基づく手法は、報道価値のある情報拡散、広告・プロモーション、キャンペーン、自動的／ロボット的活動、パラサイト的広告の5つの明確に異なるリツイート行動カテゴリを的確に分離できた。
自動化されたリツイートでは、時間間隔エントロピーが顕著に低く、人間による活動と明確に区別された。
ユーザーエントロピーは関与するユーザの多様性を効果的に捉えており、広範なニュース拡散と標的的・反復的なキャンペーン活動を区別できた。
本手法はサンプリングや欠損データに対して頑健であり、コンテンツ分析や言語処理を必要としない。
モデルによってスパムに類似すると特定された複数のアカウントが、後にTwitterによって停止されたことから、本手法の実世界での検出能力が裏付けられた。
本手法は、言語やコンテンツタイプに依存せず、報道価値のあるコンテンツの自動検出が可能であり、低価値またはプロモーションコンテンツとの高精度な分離が実現できた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。