Skip to main content
QUICK REVIEW

[논문 리뷰] Influence Maximization: Near-Optimal Time Complexity Meets Practical Efficiency

Youze Tang, Xiaokui Xiao|arXiv (Cornell University)|2014. 04. 03.
Complex Network Analysis Techniques참고 문헌 11인용 수 127
한 줄 요약

이 논문은 이론적 시간 복잡도가 거의 최적에 가까운 $O((k+\ell)(n+m)\log n/\varepsilon^{2})$를 달성하면서도 새로운 휴리스틱을 통해 실용적 효율성을 유지하는 영향력 최적화 알고리즘인 TIM을 제안한다. 트리거링 모델(특히 IC 및 LT 포함) 하에서 높은 확률($1-n^{-\ell}$)로 $(1-1/e-\varepsilon)$-근사 해를 제공하며, 일반적인 기계에서 10억 개 간선을 가진 그래프를 한 시간 이내에 처리하여 이전 방법들보다 최대 4개의 지수 차이로 뛰어난 성능을 보인다.

ABSTRACT

Given a social network G and a constant k, the influence maximization problem asks for k nodes in G that (directly and indirectly) influence the largest number of nodes under a pre-defined diffusion model. This problem finds important applications in viral marketing, and has been extensively studied in the literature. Existing algorithms for influence maximization, however, either trade approximation guarantees for practical efficiency, or vice versa. In particular, among the algorithms that achieve constant factor approximations under the prominent independent cascade (IC) model or linear threshold (LT) model, none can handle a million-node graph without incurring prohibitive overheads. This paper presents TIM, an algorithm that aims to bridge the theory and practice in influence maximization. On the theory side, we show that TIM runs in O((k+\ell) (n+m) \log n / ε^2) expected time and returns a (1-1/e-ε)-approximate solution with at least 1 - n^{-\ell} probability. The time complexity of TIM is near-optimal under the IC model, as it is only a \log n factor larger than the Ω(m + n) lower-bound established in previous work (for fixed k, \ell, and ε). Moreover, TIM supports the triggering model, which is a general diffusion model that includes both IC and LT as special cases. On the practice side, TIM incorporates novel heuristics that significantly improve its empirical efficiency without compromising its asymptotic performance. We experimentally evaluate TIM with the largest datasets ever tested in the literature, and show that it outperforms the state-of-the-art solutions (with approximation guarantees) by up to four orders of magnitude in terms of running time. In particular, when k = 50, ε= 0.2, and \ell = 1, TIM requires less than one hour on a commodity machine to process a network with 41.6 million nodes and 1.4 billion edges.

연구 동기 및 목표

  • 영향력 최적화에서 이론적 근사 보장과 실용적 확장성 사이의 격차를 메우기 위해.
  • 일반 트리거링 모델을 지원하는 알고리즘을 개발하여 IC 및 LT 모델을 포함하도록 하기 위해.
  • 대규모 네트워크에서 높은 실용적 효율성을 유지하면서 거의 최적의 시간 복잡도를 달성하기 위해.
  • 비현실적인 근사 보장을 갖는 백만 노드 그래프에서도 영향력 최적화를 가능하게 하기 위해.
  • 실행 시간과 해 품질 측면에서 기존 최첨단 알고리즘들을 능가하기 위해.

제안 방법

  • TIM은 영향력 확산을 효율적으로 추정하기 위해 랜덤화된 역도달 가능 집합(RR 집합) 프레임워크를 사용한다.
  • 알고리즘은 $\lambda / KPT^{+}$개의 랜덤 RR 집합을 생성하며, 여기서 $\lambda$는 $1/\varepsilon^{2}$에 비례하고 $KPT^{+}$는 최적의 영향력 확산에 대한 하한이다.
  • 알고리즘은 RR 집합을 기반으로 높은 영향력의 노드를 식별하기 위해 탐욕적 선택 전략을 적용한다.
  • 비현실적인 성능에 영향을 주지 않으면서도 상수 요소를 줄이는 휴리스틱 최적화를 통합한다.
  • TIM은 일반적인 확산 모델인 트리거링 모델을 지원하며, 이는 IC 및 LT를 특수 케이스로 포함한다.
  • 이론적 분석을 통해 $O((k+\ell)(n+m)\log n/\varepsilon^{2})$의 기대 시간 복잡도와 확률 최소 $1-n^{-\ell}$로 $(1-1/e-\varepsilon)$-근사 해를 입증한다.

실험 결과

연구 질문

  • RQ1대규모 네트워크에서 거의 최적의 이론적 시간 복잡도와 실용적 효율성을 동시에 달성할 수 있는 영향력 최적화 알고리즘이 존재할 수 있는가?
  • RQ2강력한 근사 보장을 유지하면서 트리거링 모델을 효율적으로 지원할 수 있는가?
  • RQ3제안된 알고리즘이 최대 4160만 개의 노드와 14억 개의 간선을 가진 그래프에 어떻게 스케일링되는가?
  • RQ4기존 최첨단 알고리즘들과의 실용적 성능 격차는 approximation 보장이 있는 경우 얼마나 되는가?
  • RQ5휴리스틱 최적화가 이론적 한계를 훼손하지 않으면서도 실용적 효율성을 크게 향상시킬 수 있는가?

주요 결과

  • TIM은 $k=50$, $\varepsilon=0.2$, $\ell=1$ 조건에서 4160만 개의 노드와 14억 개의 간선을 가진 그래프를 한 시간 이내에 처리한다.
  • TIM은 approximation 보장을 갖는 최첨단 솔루션들보다 실행 시간 측면에서 최대 4개의 지수 차이로 뛰어난 성능을 보인다.
  • TIM+ (최적화된 버전)은 $k=50$일 때 IRIE보다 20배 이상 빠르고, SIMPATH보다 1000배 이상 빠르게 작동한다 (LiveJournal에서의 결과).
  • TIM+는 DBLP와 LiveJournal에서 IRIE보다 훨씬 높은 기대 영향력 확산을 달성했으며, LT 모델 하에서 모든 데이터셋에서 SIMPATH의 성능을 매칭하거나 초월한다.
  • IC 모델 하에서는 $KPT^{+}$ 값이 작아져 메모리 소비가 더 높지만, 적응형 RR 집합 크기 제어 덕분에 여전히 관리 가능하다.
  • 알고리즘은 강력한 이론적 보장을 유지한다: 확률 최소 $1-n^{-\ell}$로 $(1-1/e-\varepsilon)$-근사 해를 제공하며, 이론적 하한선에 $\log n$ 요소 내에서 거의 최적의 시간 복잡도를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.