QUICK REVIEW

[論文レビュー] Scalable Influence Estimation in Continuous-Time Diffusion Networks

Nan Du, Le Song|arXiv (Cornell University)|Nov 14, 2013

Complex Network Analysis Techniques参考文献 10被引用数 131

ひとこと要約

本稿では、非一様な伝播関数を有する連続時刻拡散ネットワークにおける影響力推定のためのスケーラブルなランダム化アルゴリズム、ConTinEstを提案する。影響力推定をグラフィカルモデルにおける近隣推定問題に再定式化することで、$$O(1/\epsilon^2)$$ 回のランダム化と $$O(n|\mathcal{E}| + n|\mathcal{V}|)$$ の計算量で、$$\epsilon$$-精度の影響力推定を実現し、数百万ノードのネットワークにおいても効率的なグリーディー影響力最大化が可能となり、$(1 - 1/e)\text{OPT} - 2C\epsilon$ の近似保証を達成する。

ABSTRACT

If a piece of information is released from a media site, can it spread, in 1 month, to a million web pages? This influence estimation problem is very challenging since both the time-sensitive nature of the problem and the issue of scalability need to be addressed simultaneously. In this paper, we propose a randomized algorithm for influence estimation in continuous-time diffusion networks. Our algorithm can estimate the influence of every node in a network with |V| nodes and |E| edges to an accuracy of $\varepsilon$ using $n=O(1/\varepsilon^2)$ randomizations and up to logarithmic factors O(n|E|+n|V|) computations. When used as a subroutine in a greedy influence maximization algorithm, our proposed method is guaranteed to find a set of nodes with an influence of at least (1-1/e)OPT-2$\varepsilon$, where OPT is the optimal value. Experiments on both synthetic and real-world data show that the proposed method can easily scale up to networks of millions of nodes while significantly improves over previous state-of-the-arts in terms of the accuracy of the estimated influence and the quality of the selected nodes in maximizing the influence.

研究の動機と目的

非一様な伝播関数を有する連続時刻拡散ネットワークにおけるスケーラブルで高精度な影響力推定の課題に対処すること。
非同期的で時間に依存する情報拡散ダイナミクスを捉えられない離散時刻モデルの限界を克服すること。
大規模ネットワーク（数百万ノードまで）における効率的な影響力最大化をサポートするスケーラブルなアルゴリズムの設計。
影響力推定および最大化タスクにおける高精度を維持しつつ、計算複雑度を低減すること。
ウイルス広告やソーシャルメディアの影響力予測といった実世界の応用における連続時刻モデルの実用的導入を可能にすること。

提案手法

アルゴリズムは影響力推定をグラフィカルモデルの推論問題として扱い、ループを含むグラフにおける近隣推定タスクに還元する。
任意の伝播関数を用いた連続時刻でのカスケードシミュレーションによるランダムサンプリングを用いて、各ノードの影響力を推定する。
推定誤差を$$\epsilon$$ 以内に抑えるために、$$O(1/\epsilon^2)$$ 回のランダム化を用い、確率的保証付きの高精度を実現する。
ネットワークの構造を活用して、$$n = O(1/\epsilon^2)$$ であることを踏まえ、$$O(n|\mathcal{E}| + n|\mathcal{V}|)$$ 時間で影響力推定値を計算する。
グリーディー影響力最大化フレームワークに統合され、$(1 - 1/e)\text{OPT} - 2C\epsilon$ の近似保証を提供する。
非一様なエッジ伝播関数をサポートし、指数的減衰を越えた豊かな時間的ダイナミクスのモデリングを可能にする。

実験結果

リサーチクエスチョン

RQ1大規模ネットワークにおける連続時刻拡散ネットワークの影響力推定を、正確かつスケーラブルに実現できるか。
RQ2伝播関数が任意かつ非一様な場合に、どのように効率的な影響力推定を実行できるか。
RQ3大規模影響力推定における計算コストと推定精度のトレードオフは何か。
RQ4ランダム化アルゴリズムが理論的近似保証付きで高品質な影響力最大化を達成できるか。
RQ5実世界データにおいて、提案手法は最先端の手法と比較して、精度とスケーラビリティの面でどのように優れているか。

主な発見

MemeTrackerデータセットにおいて、ConTinEstは最先端の手法と比較して顕著に低い平均絶対誤差（MAE）を達成した。
アルゴリズムはネットワークサイズに線形にスケーリングされ、最大100万ノードのネットワークを処理可能であり、Influmax や NS はスケールアップで非効率的になる。
コア-パーサー型ネットワークでは、ConTinEstの実行時間はネットワーク密度の上昇に伴いわずかに増加するが、Influmax や NS はそれぞれ指数的および二次的複雑度のため、著しく劣化する。
影響力最大化において、ConTinEstは他の手法よりも真の影響力がより高いソースノードを選択する。特にソース数や時間窓が増加する際の性能が顕著に優れている。
推定誤差が最も敏感な短いカスケード（2〜4ノード）においても、経路全体にわたる一貫性あるパフォーマンスのおかげで、高精度を維持する。
グリーディー影響力最大化において、ConTinEstは少なくとも$(1 - 1/e)\text{OPT} - 2C\epsilon$ の解を保証し、強力な理論的性能バインディングを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。