QUICK REVIEW

[論文レビュー] Inferring Networks of Diffusion and Influence

Manuel Gomez-Rodriguez, Jure Leskovec|arXiv (Cornell University)|Jun 1, 2010

Complex Network Analysis Techniques被引用数 236

ひとこと要約

この論文では、感染時刻や採用時刻の観測値から、影響力や拡散ネットワークを推定するスケーラブルなアルゴリズムNetInfを提案する。サブモジュラ最適化を用いて近似的に最適なネットワーク構造を特定する。実世界のニュース拡散は、トピック固有のクラスタを接続する少数の影響力のあるメディアサイトを有するコア・パーサー構造を示すことが明らかになった。

ABSTRACT

Information diffusion and virus propagation are fundamental processes taking place in networks. While it is often possible to directly observe when nodes become infected with a virus or adopt the information, observing individual transmissions (i.e., who infects whom, or who influences whom) is typically very difficult. Furthermore, in many applications, the underlying network over which the diffusions and propagations spread is actually unobserved. We tackle these challenges by developing a method for tracing paths of diffusion and influence through networks and inferring the networks over which contagions propagate. Given the times when nodes adopt pieces of information or become infected, we identify the optimal network that best explains the observed infection times. Since the optimization problem is NP-hard to solve exactly, we develop an efficient approximation algorithm that scales to large datasets and finds provably near-optimal networks. We demonstrate the effectiveness of our approach by tracing information diffusion in a set of 170 million blogs and news articles over a one year period to infer how information flows through the online media space. We find that the diffusion network of news for the top 1,000 media sites and blogs tends to have a core-periphery structure with a small set of core media sites that diffuse information to the rest of the Web. These sites tend to have stable circles of influence with more general news media sites acting as connectors between them.

研究の動機と目的

観測された感染時刻のみから、情報、影響力、ウイルスが拡散する背後にあるネットワークを推定すること。
オンラインメディアのような大規模システムにおける未観測の伝播ネットワークを再構築する課題に対処すること。
部分的観測下でのスケーラブルで、証明可能な近似最適なアルゴリズムを開発すること。
コア・パーサー組織や影響力クラスタを含む、現実世界の拡散ネットワークの構造的性質を解明すること。
時間的採用データのみを用いて、社会的・メディアネットワークにおける情報拡散の大規模分析を可能にすること。

提案手法

キャスケードの生成モデルにおける最尤推定としてネットワーク推定問題を定式化する。
未知の有向ネットワーク上で確率的プロセスとして拡散をモデル化し、各ノードの感染時刻がその近隣に依存することを仮定する。
尤度を最大化するための最適なk本の有向エッジの集合選択問題に再定式化し、これはNP困難であることが示された。
尤度関数のサブモジュラリティを活用して、性能保証付きの貪欲近似アルゴリズムを設計する。
局所的更新とラクティブラベル評価を用いて、数百万ノードおよびキャスケードを含む大規模データセットにも効率的にスケーリングする。
比較のためのヒューリスティックベースラインを採用し、NetInfの優れた正確性とスケーラビリティを示している。

実験結果

リサーチクエスチョン

RQ1オンラインメディアにおける情報が拡散する背後にあるネットワーク構造は、感染時刻のみが与えられた場合にどうなるか？
RQ2部分的観測された採用時刻から、最も可能性の高い影響ネットワークをどのように推定できるか？
RQ3現実世界の拡散ネットワークに、コア・パーサー構造やクラスタリングなどのグローバル構造的性質がどのように現れるか？
RQ4限られたデータから真のネットワークを再構築する際、NetInfはヒューリスティックベースラインと比べてどのように異なるか？
RQ5推定されたネットワークは、個々のメディアサイトの役割（例：コアインフルエンサー、コミュニティ間接続者）を明らかにできるか？

主な発見

NetInfは、合成データにおいて少数のキャスケードのみを用いても、真の背後ネットワークを正確に回復できる。
1億7000万件のブログおよびニュース記事の実データセットにおいて、NetInfは明確なコア・パーサー構造を持つ拡散ネットワークを推定した。
上位1000件のメディアサイトおよびブログがコアネットワークを形成し、広範なブログ・スフィアに情報を拡散している。
安定した影響力圈权限を持つメディアサイトはハブとして機能し、一般ニュース報道機関はトピック固有のクラスタ間の接続者として機能している。
推定されたネットワークは、政治、技術、ゴシップなどの明確なトピックベースのクラスタを示し、少数の影響力のあるコアサイトがそれらを接続している。
合成データおよび実データの両方で、NetInfは最大重みヒューリスティックベースラインを著しく上回り、正確性とスケーラビリティの両面で優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。