Skip to main content
QUICK REVIEW

[論文レビュー] On the Convexity of Latent Social Network Inference

Seth A. Myers, Jure Leskovec|arXiv (Cornell University)|Oct 26, 2010
Complex Network Analysis Techniques参考文献 27被引用数 174
ひとこと要約

この論文は、感染時刻のみが観測されるが、誰が誰を感染させたかは観測されない拡散データから、潜在的な社会的ネットワークを推定するための凸最適化フレームワークを提案する。感染の広がりを確率的プロセスとしてモデル化し、l1正則化付き最尤推定を用いる。本手法は、ほぼ完全なネットワーク回復を達成し、数千ノード規模のスケーリングにも効率的に対応し、精度と最適性保証の面で先行手法を上回る。

ABSTRACT

In many real-world scenarios, it is nearly impossible to collect explicit social network data. In such cases, whole networks must be inferred from underlying observations. Here, we formulate the problem of inferring latent social networks based on network diffusion or disease propagation data. We consider contagions propagating over the edges of an unobserved social network, where we only observe the times when nodes became infected, but not who infected them. Given such node infection times, we then identify the optimal network that best explains the observed data. We present a maximum likelihood approach based on convex programming with a l1-like penalty term that encourages sparsity. Experiments on real and synthetic data reveal that our method near-perfectly recovers the underlying network structure as well as the parameters of the contagion propagation model. Moreover, our approach scales well as it can infer optimal networks of thousands of nodes in a matter of minutes.

研究の動機と目的

  • 感染経路が観測されない状況下で、ノードの感染時刻のみが利用可能な場合に、非観測の社会的ネットワークを推定する課題に取り組むこと。
  • 均一なエッジ伝播確率を仮定しない一般化可能で、最適かつスケーラブルな潜在ネットワーク推定手法を開発すること。
  • 従来のヒューリスティック的またはしきい値ベースの手法の限界を克服し、最適性が保証される凸最適化問題として問題を定式化すること。
  • 実世界の拡散カスケードから、ネットワークトポロジーとエッジ伝播パラメータの両方を正確に回復できることを可能にすること。

提案手法

  • 潜在ネットワーク上での感染拡散の生成的確率的モデルを定式化し、感染時刻は観測可能だが、伝播経路は非観測であることを想定する。
  • 潜在ネットワーク構造およびエッジ伝播パラメータの最尤推定問題を導出する。
  • 非凸な尤度最大化問題を、一連の数学的再定式化により凸最適化問題に変換する。
  • 推定されたネットワークにおけるスパarsityを促進し、現実的で低密度の構造を促進するために、l1に類似したペナルティ項を導入する。
  • 標準的な凸最適化技術を用いて、得られた凸計画問題を効率的に解き、大規模ネットワークへのスケーリングを実現する。
  • データタイプに応じて、伝搬時間のパラメータ化にべき乗則分布またはワイブル分布モデルを採用する。

実験結果

リサーチクエスチョン

  • RQ1感染時刻のみが利用可能で伝播経路が観測されない状況下でも、元の社会的ネットワーク構造を推定することは可能か?
  • RQ2最適性が保証される形で、ネットワークトポロジーとノード間の伝播確率を同時に推定することは可能か?
  • RQ3従来のヒューリスティック的またはしきい値ベースのネットワーク推定手法と比較して、提案手法の精度とスケーラビリティはどのように異なるか?
  • RQ4実世界の拡散データにおいて、伝播ダイナミクスが未知の状況でも、本手法は真のネットワーク構造とエッジ重みをどの程度正確に回復できるか?

主な発見

  • 合成データおよび実世界のメールネットワークと共同作業ネットワークにおいて、ブレークイーブン点が約0.95に達し、ネットワーク回復における正確性と再現率のほぼ完全な性能を示している。
  • 合成データおよび実データにおいて、エッジ伝播確率推定誤差が0.03未満であり、パラメータ回復の高精度を示している。
  • 593ノードのメールネットワークで示されるように、少数のカスケードしか観測されていなくても、本手法は元のネットワーク構造を高い忠実度で回復できる。
  • 275ユーザーと1,522エッジを有する実際の推薦ネットワークでは、ブレークイーブン点が0.74に達し、精度再現率においてNetInf(0.55)を著しく上回っている。
  • アルゴリズムは効率的にスケーリングでき、数千ノード規模の最適ネットワークを数分で推定可能であり、275ノードの推薦ネットワークも20秒未塔で処理した。
  • 凸定式化のおかげで、NetInfのような近似ベースの手法とは異なり、グローバル最適性を保証する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。