[論文レビュー] Discriminative Modeling of Social Influence for Prediction and Explanation in Event Cascades.
本稿では、観察データからイベントカスケードにおける社会的影響を検出するための判別的ランク付け手法を提案する。影響特徴を含まないベースラインと比較して、アウトオブサンプル精度を用いる。合成データおよび実世界のデータ(米国上院共同発起人関係およびヒッグスボソンのうわさ)において、影響を的確に同定し、予測精度を向上させるとともに、交絡要因や欠損データに対しても頑健であることが示された。
The global dynamics of event cascades are often governed by the local dynamics of peer influence. However, detecting social influence from observational data is challenging, due to confounds like homophily and practical issues like missing data. In this work, we propose a novel discriminative method to detect influence from observational data. The core of the approach is to train a ranking algorithm to predict the source of the next event in a cascade, and compare its out-of-sample accuracy against a competitive baseline which lacks access to features corresponding to social influence. Using synthetically generated data, we provide empirical evidence that this method correctly identifies influence in the presence of confounds, and is robust to both missing data and misspecification --- unlike popular alternatives. We also apply the method to two real-world datasets: (1) cascades of co-sponsorship of legislation in the U.S. House of Representatives, on a social network of shared campaign donors; (2) rumors about the Higgs boson discovery, on a follower network of $10^5$ Twitter accounts. Our model identifies the role of peer influence in these scenarios, and uses it to make more accurate predictions about the future trajectory of cascades.
研究の動機と目的
- 交絡要因(同質性の傾向や欠損データなど)が真の影響を曇らせる中で、観察データからイベントカスケードにおける社会的影響を検出する課題に対処すること。
- 現実の社会的ダイナミクスにおける真正のペア影響と誤った相関を区別できる手法を開発すること。
- ネットワークデータにおける社会的影響の同定と活用を通じて、カスケードの進行経路の予測精度を向上させること。
- 複雑な社会的プロセスにおける影響メカニズムを解釈可能に説明すること。
提案手法
- ネットワーク特徴に基づいて、カスケードにおける次のイベントの発信元を予測するランク付けアルゴリズムを訓練する。
- 影響関連特徴を除外したベースラインと比較して、モデルのアウトオブサンプル精度を評価する。
- 交絡要因やデータスパarsityの下でも影響を検出できるかを検証するため、合成データを用いる。
- 実世界のデータセット(米国上院共同発起人ネットワークおよびTwitterのうわさカスケード)にこの手法を適用する。
- 共通の寄付者やフォロワー関係から得られるネットワーク構造を活用して、影響特徴を定義する。
- 生成的尤度ではなく、カスケード進行における予測性能最適化を目的とした判別的トレーニングを用いる。
実験結果
リサーチクエスチョン
- RQ1同質性の傾向などの交絡要因が存在する状況でも、判別的手法はイベントカスケードにおける社会的影響を信頼性高く検出できるか?
- RQ2既存の手法と比較して、欠損データやモデルの誤り指定の下で、この手法はどのように性能を発揮するか?
- RQ3検出された影響を組み込むことで、将来のカスケードイベントの予測精度はどの程度向上するか?
- RQ4立法的共同発起やウイルス的拡散うわさのような実世界のカスケードにおいて、同僚の影響は果たすどのような役割を果たすか?
主な発見
- 本手法は、同質性の傾向や欠損データによって交絡される状況下でも、合成データにおいて社会的影響を正しく同定できる。
- 本手法はデータスパarsityやモデルの誤り指定に対しても頑健であり、これらの状況下で一般的な代替手法を上回る性能を示した。
- 米国上院共同発起人ネットワークでは、寄付者共有関係に基づいて影響力のある議員を同定し、カスケード予測を向上させた。
- Twitterにおけるヒッグスボソンのうわさでは、情報拡散を牽引する重要なリツイート者を同定し、進行経路の予測精度を向上させた。
- 判別的アプローチは、影響特徴を欠いたベースラインよりも高いアウトオブサンプル精度を達成しており、検出された影響の予測的価値を確認した。
- 本手法は、単なる予測を超えてカスケードダイナミクスの説明が可能な、解釈可能なインサイトを提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。