QUICK REVIEW

[論文レビュー] Stop-and-Stare: Optimal Sampling Algorithms for Viral Marketing in Billion-scale Networks

Hung T. Nguyen, My T. Thai|arXiv (Cornell University)|May 25, 2016

Complex Network Analysis Techniques参考文献 10被引用数 57

ひとこと要約

本稿では、Facebook や Twitter などの数十億規模のネットワークにおける影響拡散最適化（Influence Maximization）のための新規サンプリング手法として、SSA および D-SSA を提案する。これらの手法は、指数的チェックポイントで解の品質を動的に検証する「ストップアンドスタア（Stop-and-Stare）」戦略を採用しており、最先端の手法と同等の (1−1/e−ε)-近似保証を達成するが、最大 1200 倍高速であり、必要な逆到達可能性（RIS）サンプル数を理論的に最小限に抑える。

ABSTRACT

Influence Maximization (IM), that seeks a small set of key users who spread the influence widely into the network, is a core problem in multiple domains. It finds applications in viral marketing, epidemic control, and assessing cascading failures within complex systems. Despite the huge amount of effort, IM in billion-scale networks such as Facebook, Twitter, and World Wide Web has not been satisfactorily solved. Even the state-of-the-art methods such as TIM+ and IMM may take days on those networks. In this paper, we propose SSA and D-SSA, two novel sampling frameworks for IM-based viral marketing problems. SSA and D-SSA are up to 1200 times faster than the SIGMOD'15 best method, IMM, while providing the same $(1-1/e-ε)$ approximation guarantee. Underlying our frameworks is an innovative Stop-and-Stare strategy in which they stop at exponential check points to verify (stare) if there is adequate statistical evidence on the solution quality. Theoretically, we prove that SSA and D-SSA are the first approximation algorithms that use (asymptotically) minimum numbers of samples, meeting strict theoretical thresholds characterized for IM. The absolute superiority of SSA and D-SSA are confirmed through extensive experiments on real network data for IM and another topic-aware viral marketing problem, named TVM. The source code is available at https://github.com/hungnt55/Stop-and-Stare

研究の動機と目的

Facebook や Twitter などの数十億規模のネットワークにおける、従来の影響拡散最適化（IM）アルゴリズムのスケーラビリティの限界を解消すること。
従来手法の2つの主要な欠陥、すなわち、無制限のサンプル生成と理論的最小閾値ではないことの是正。
IM における (1−1/e−ε)-近似を達成するための必要十分条件を特徴づける統一的 RIS フレームワークの構築。
理論的最小数の RIS サンプルを確実に達成するアルゴリズムの設計により、最適なサンプリング効率を保証すること。
重み付き影響を伴うターゲットド・ウイルラルマーケティング（TVM）問題へのフレームワークの拡張を実現し、近似保証を維持すること。

提案手法

IM における (1−1/e−ε) 近似を達成するための必要条件および RIS 閾値のクラスを定義する一般化された RIS フレームワークを導入する。
2種類の最小閾値を定義する：タイプ1（各閾値クラス内での最小値）およびタイプ2（すべてのクラスにおけるグローバル最小値）。
解の品質を指数的間隔でチェックする「ストップアンドスタア・アルゴリズム（SSA）」を提案する。
パラメータを自動的にチューニングして最適なパフォーマンスとサンプリング効率を達成する SSA の動的変種、D-SSA を設計する。
TVM 問題における重み付き RIS（WRIS）を SSA および D-SSA に統合し、トピック関連ユーザー集団に影響を集中させる。
SSA および D-SSA が理論的最小 RIS サンプル数の定数倍近似を達成することを証明するが、実際にそれらを計算する必要はない。

実験結果

リサーチクエスチョン

RQ1IM における (1−1/e−ε) 近似解を保証するための RIS サンプルの最小数を特徴づける統一的フレームワークを定義できるか？
RQ2過剰なサンプリングを避けるために、理論的最小数の RIS サンプルを確実に達成するサンプリングアルゴリズムを設計できるか？
RQ3ストップアンドスタア戦略を IM に効果的に適用し、解の品質を動的に検証することで、サンプリングのオーバーヘッドを低減できるか？
RQ4提案されたアルゴリズムは、数十億規模のネットワークにスケーリング可能であり、強力な理論的保証を維持できるか？
RQ5トピックに敏感な影響拡散を伴うターゲットド・ウイルラルマーケティング（TVM）問題へ、このフレームワークを拡張できるか？

主な発見

SSA および D-SSA は、IMM や TIM+ と同等の (1−1/e−ε)-近似保証を達成するが、k=500 の Friendster ネットワークでは最大 1200 倍高速である。
k=1000 の Twitter ネットワークにおいて、D-SSA は、保証付きの高速勾配アルゴリズム CELF++ より約 2×10^9 倍高速である。
Friendster の極端なケース（36億エッジ）では、IMM が 172 GB のメモリを要したが、D-SSA と SSA はそれぞれ 69 GB および 72 GB にまで削減された。
TVM 問題において、D-SSA および SSA は、Twitter における KB-TIM よりも実行時間を少なくとも2桁以上短縮（最大 500 倍）した。
SSA および D-SSA は、IMM 即ち単一ノード選択時ですら、顕著に少ない逆到達可能性（RR）集合を生成しており、サンプリング効率の高さを裏付けた。
D-SSA の動的パrameter選択は、静的 SSA よりも優れた性能を発揮し、タイプ2最小閾値に近い近似を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。