QUICK REVIEW

[논문 리뷰] Stop-and-Stare: Optimal Sampling Algorithms for Viral Marketing in Billion-scale Networks

Hung T. Nguyen, My T. Thai|arXiv (Cornell University)|2016. 05. 25.

Complex Network Analysis Techniques참고 문헌 10인용 수 57

한 줄 요약

이 논문은 페이스북과 트위터와 같은 빌리언 스케일 네트워크에서 영향력 확산 최적화를 위한 새로운 샘플링 알고리즘인 SSA 및 D-SSA를 제안한다. 이 알고리즘은 지수적 체크 포인트에서 동적으로 해법 품질을 검증하는 스톱-앤드-스터 전략을 사용한다. 이 방법들은 최신 기술과 동일한 (1−1/e−ε)-근사 보장을 달성하지만, 최대 1200배 빠르며, 이론적으로 필요한 역방향 도달 가능성(RIS) 샘플 수를 최소화한다.

ABSTRACT

Influence Maximization (IM), that seeks a small set of key users who spread the influence widely into the network, is a core problem in multiple domains. It finds applications in viral marketing, epidemic control, and assessing cascading failures within complex systems. Despite the huge amount of effort, IM in billion-scale networks such as Facebook, Twitter, and World Wide Web has not been satisfactorily solved. Even the state-of-the-art methods such as TIM+ and IMM may take days on those networks. In this paper, we propose SSA and D-SSA, two novel sampling frameworks for IM-based viral marketing problems. SSA and D-SSA are up to 1200 times faster than the SIGMOD'15 best method, IMM, while providing the same $(1-1/e-ε)$ approximation guarantee. Underlying our frameworks is an innovative Stop-and-Stare strategy in which they stop at exponential check points to verify (stare) if there is adequate statistical evidence on the solution quality. Theoretically, we prove that SSA and D-SSA are the first approximation algorithms that use (asymptotically) minimum numbers of samples, meeting strict theoretical thresholds characterized for IM. The absolute superiority of SSA and D-SSA are confirmed through extensive experiments on real network data for IM and another topic-aware viral marketing problem, named TVM. The source code is available at https://github.com/hungnt55/Stop-and-Stare

연구 동기 및 목표

페이스북과 트위터와 같은 빌리언 스케일 네트워크에서 기존의 영향력 확산(IM) 알고리즘의 확장성 한계를 해결한다.
이전 방법의 두 가지 핵심 단점인 무제한 샘플 과잉 생성 및 이론적 최소 기준이 아닌 것을 극복한다.
(1−1/e−ε)-근사 보장을 달성하기 위한 필요조건과 충분조건을 기술하는 통합된 RIS 프레임워크를 개발한다.
이론적으로 최소한의 RIS 샘플 수를 확보하는 알고리즘을 설계하여 최적의 샘플링 효율성을 보장한다.
가중치가 부여된 영향력 전파를 고려한 대상 지정 바이러설 마케팅(TVM) 문제로 프레임워크를 확장한다.

제안 방법

IM에서 (1−1/e−ε) 근사 보장을 달성하기 위한 필수 조건과 RIS 임계값의 클래스를 정의하는 일반화된 RIS 프레임워크를 도입한다.
두 가지 유형의 최소 임계값을 정의한다: 유형-1(각 임계값 클래스 내 최소값) 및 유형-2(모든 클래스에서의 전역 최소값).
스톱-앤드-스터 알고리즘(SSA)을 제안한다. 이 알고리즘은 지수 간격으로 RIS 샘플을 생성하고 해법 품질을 점검하여 종료 조건을 검증한다.
D-SSA를 설계한다. 이는 자동으로 파라미터를 튜닝하여 최적의 성능과 샘플링 효율성을 달성하는 SSA의 동적 변종이다.
TVM 문제에 대해 가중치가 부여된 RIS(WRIS)를 SSA 및 D-SSA에 통합하여 주제 관련 사용자 그룹에 영향력을 집중시킨다.
SSA 및 D-SSA가 이론적으로 최소한의 RIS 샘플 수에 대해 일정 요인의 근사치를 달성함을 증명한다. 이는 명시적인 계산 없이도 가능하다.

실험 결과

연구 질문

RQ1영향력 확산(IM)에서 (1−1/e−ε)-근사 해를 보장하기 위해 필요한 RIS 샘플 수의 최소값을 특징짓는 통합 프레임워크를 정의할 수 있는가?
RQ2과잉 샘플링을 방지하면서도 이론적으로 최소한의 RIS 샘플 수를 확보하는 샘플링 알고리즘을 설계할 수 있는가?
RQ3스톱-앤드-스터 전략은 IM에 효과적으로 적용되어 해법 품질을 동적으로 검증하고 샘플링 오버헤드를 줄일 수 있는가?
RQ4제안된 알고리즘은 강력한 이론적 보장을 유지하면서도 빌리언 스케일 네트워크로 확장 가능한가?
RQ5주제 인식 영향력 전파를 고려한 대상 지정 바이러설 마케팅(TVM) 문제로 프레임워크를 확장할 수 있는가?

주요 결과

SSA 및 D-SSA는 IMM 및 TIM+와 동일한 (1−1/e−ε)-근사 보장을 달성하지만, k=500일 때 프렌드스터 네트워크에서 최대 1200배 빠르게 작동한다.
k=1000일 때 트위터 네트워크에서 D-SSA는 보장이 있는 빠른 그레디 알고리즘인 CELF++보다 약 2×10^9배 빠르다.
프렌드스터에서 가장 극단적인 경우(36억 개 간선), IMM은 172GB의 메모리가 필요로 했지만, D-SSA와 SSA는 각각 69GB와 72GB만 사용했다.
TVM 문제에서 D-SSA 및 SSA는 트위터에서 KB-TIM보다 최소 두 배수의 실행 시간 단축(최대 500배)을 달성했다.
SSA 및 D-SSA는 IMM조차도 단일 노드 선택 케이스에서보다 훨씬 적은 역방향 도달 가능성(RR) 집합을 생성하여 샘플링 효율성을 확인했다.
D-SSA의 동적 파라미터 선택은 정적 SSA보다 더 뛰어난 성능을 내며, 유형-2 최소 임계값에 더 가까운 근사치를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.