QUICK REVIEW

[論文レビュー] Discovering Emerging Topics in Social Streams via Link Anomaly Detection

Toshimitsu Takahashi, Ryota Tomioka|arXiv (Cornell University)|Oct 13, 2011

Complex Network Analysis Techniques参考文献 14被引用数 29

ひとこと要約

本稿では、ユーザーのメンション行動を確率的プロセスとしてモデル化し、SDNMLおよびKleinbergのバーストモデルを用いてメンションパターンの異常を検出することで、ソーシャルメディアストリームにおける新規トピックを特定するリンク異常検出フレームワークを提案する。この手法は、キーワード頻度に基づくアプローチよりも早期にトピックを検出でき、特にキーワードが曖昧または明確でない場合に顕著である。実際のTwitterデータセットを用いた実験でその有効性が示された。

ABSTRACT

Detection of emerging topics are now receiving renewed interest motivated by the rapid growth of social networks. Conventional term-frequency-based approaches may not be appropriate in this context, because the information exchanged are not only texts but also images, URLs, and videos. We focus on the social aspects of theses networks. That is, the links between users that are generated dynamically intentionally or unintentionally through replies, mentions, and retweets. We propose a probability model of the mentioning behaviour of a social network user, and propose to detect the emergence of a new topic from the anomaly measured through the model. We combine the proposed mention anomaly score with a recently proposed change-point detection technique based on the Sequentially Discounting Normalized Maximum Likelihood (SDNML), or with Kleinberg's burst model. Aggregating anomaly scores from hundreds of users, we show that we can detect emerging topics only based on the reply/mention relationships in social network posts. We demonstrate our technique in a number of real data sets we gathered from Twitter. The experiments show that the proposed mention-anomaly-based approaches can detect new topics at least as early as the conventional term-frequency-based approach, and sometimes much earlier when the keyword is ill-defined.

研究の動機と目的

コンテンツがしばしば非テキスト的（例：画像、URL、動画）であるソーシャルメディアにおける、語句頻度ベースのトピック検出の限界を解消すること。
テキストベースのトピック検出に内在するキーワードの曖昧さや前処理の課題を、ソーシャルネットワーク構造を活用することで克服すること。
ユーザーのメンション行動を確率的異常検出問題としてモデル化することで、従来の手法よりも早期に新規トピックを検出すること。
メッセージのコンテンツタイプに依存しない、スケーラブルなコンテンツに依存しない手法を構築すること。この手法は、唯一、メンション（リンク）パターンに依存する。

提案手法

各投稿におけるメンション数とメンション対象ユーザーの頻度を捉える、ユーザーのメンション行動の確率的モデルを提案する。
提案された確率的モデルに基づき、ユーザーの通常のメンション行動からの逸脱を評価し、各ユーザーのメンション異常スコアを計算する。
数百人のユーザーの異常スコアを集約し、集団的なメンション行動の時系列を形成する。
逐次的割引正規化最大尤度（SDNML）符号化を用いて、集約された異常時系列における変化点を検出する。
異常スコアとKleinbergのバースト検出モデルを組み合わせ、トピック出現を示すバーストパターンを特定する。
有意水準ρに基づく動的最適化しきい値を用いて、変化点検出における誤報を制御する。

実験結果

リサーチクエスチョン

RQ1テキスト的コンテンツや事前定義キーワードに依存せずに、ソーシャルメディアにおけるメンションパターンを用いて新規トピックを検出可能か？
RQ2キーワードが曖昧な場合に、キーワード頻度ベース手法と比較して、リンク異常ベース検出の検出遅延はどの程度改善されるか？
RQ3キーワードが初期段階で明確に定義されていない状況において、提案手法は従来のアプローチよりもトピック出現を早期に検出可能か？
RQ4異常スコアと変化点検出の組み合わせが、トピック検出の正確性と迅速性をどの程度向上させるか？

主な発見

提案されたリンク異常ベース手法は、4つの実際のTwitterデータセットすべてにおいて、キーワード頻度ベース手法と同等以上に早期に新規トピックを検出した。
「NASA」データセットでは、公式発表前に「ヒ素（arsenic）」の初期メンションを捉えたため、キーワードベース手法よりもトピックを早期に検出できた（頻度は低かったが）。
「BBC」データセットでは、リンク異常手法が最初のバースト（多様な用語を用いた反応）を検出できたが、キーワードベース手法は2番目のバースト（統一されたキーワード使用）しか検出できなかった。
ρ = 0.05の場合、NASAデータセットで14件のアラームが発生したが、その多くが新規トピックに関連しており、感度が高いにもかかわらず誤報率が低いことを示している。
曖昧または進化するキーワードを有するトピックの検出において、キーワードベース手法を上回った。これは、現実のノイズが多いソーシャルメディア環境でも、本手法の頑健性を示している。
本フレームワークはコンテンツに依存せず、画像や動画などの非テキスト的コンテンツに対しても、メンションリンクのみに依存することで適用可能であり、広範な適用性を有する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。