Skip to main content
QUICK REVIEW

[논문 리뷰] Infinite Edge Partition Models for Overlapping Community Detection and Link Prediction

Mingyuan Zhou|arXiv (Cornell University)|2015. 01. 25.
Complex Network Analysis Techniques참고 문헌 19인용 수 44
한 줄 요약

이 논문은 비가중치, 무방향 네트워크에서의 겹치는 커뮤니티 탐지 및 링크 예측을 위한 계층적 감마 프로세스 간선 분할 모델(HGP-EPM)을 제안한다. 베르누이-포아송 링크를 통해 관측된 간선들만 분할하고 비모수 베이지안 프레임워크를 사용함으로써, 대규모 희박 네트워크에서 확장 가능한 추론이 가능해지며, 커뮤니티 수를 자동으로 추론하고 네 가지 실세계 네트워크에서 커뮤니티 탐지 및 링크 예측 모두에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

A hierarchical gamma process infinite edge partition model is proposed to factorize the binary adjacency matrix of an unweighted undirected relational network under a Bernoulli-Poisson link. The model describes both homophily and stochastic equivalence, and is scalable to big sparse networks by focusing its computation on pairs of linked nodes. It can not only discover overlapping communities and inter-community interactions, but also predict missing edges. A simplified version omitting inter-community interactions is also provided and we reveal its interesting connections to existing models. The number of communities is automatically inferred in a nonparametric Bayesian manner, and efficient inference via Gibbs sampling is derived using novel data augmentation techniques. Experimental results on four real networks demonstrate the models' scalability and state-of-the-art performance.

연구 동기 및 목표

  • 기존 커뮤니티 탐지 모델이 상호배제적인 커뮤니티를 가정하거나 커뮤니티 수를 사전에 지정해야 하는 한계를 해결하기 위해.
  • 겹치는 커뮤니티를 지원하고 비모수 베이지안 방식으로 커뮤니티 수를 자동으로 추론할 수 있는 생성 모델을 개발하기 위해.
  • 관측된 간선들에만 집중함으로써 계산을 최적화하여 대규모 희박 네트워크에서 효율적인 추론과 링크 예측을 가능하게 하기 위해.
  • 관계 네트워크에서 동질성(집합적 성향)과 확률적 동치성(비집합적 성향)을 동시에 모델링하기 위해.
  • MMSB와 같은 이차 복잡도 모델의 대안이 되는 스케일러블한 모델을 제공하기 위해, 모든 노드 쌍이 아닌 간선들만 분할하는 방식을 사용하기 위해.

제안 방법

  • 각 관측된 간선을 잠재 카운트와 연결하는 베르누이-포아송 링크를 사용하는 계층적 감마 프로세스(HGP) 간선 분할 모델(EPM)을 제안한다.
  • 무한한 수의 커뮤니티와 커뮤니티 간 상호작용 비율을 지원하기 위해 잠재 $N \times N$ 카운트 행렬을 계층적 감마 프로세스로 인수분해한다.
  • 데이터 증강 기법을 사용하여 모든 잠재 변수에 대해 닫힌 형태의 조건부 업데이트를 갖는 효율적인 깁스 샘플링을 유도한다.
  • 더 빠른 추론을 위해 상호작용 항목을 생략한 단순화된 감마 프로세스 EPM을 도입하며, 모델링 능력은 약간 희생한다.
  • 데이터에 따라 커뮤니티 수가 자동으로 증가할 수 있도록 비모수 베이지안 사전분포(계층적 감마 프로세스)를 사용하여 수동 조정을 피한다.
  • 간선 존재 여부를 포아송 분포를 갖는 잠재 카운트로 모델링하는 방식으로 이진 인접 행렬에 모델을 적용한다.

실험 결과

연구 질문

  • RQ1비모수 베이지안 모델이 커뮤니티 수를 사전에 지정하지 않고도 대규모 희박 네트워크에서 겹치는 커뮤니티를 효과적으로 탐지할 수 있는가?
  • RQ2생성 모델이 어떻게 관계 네트워크에서 동질성과 확률적 동치성을 동시에 포착할 수 있는가?
  • RQ3관측된 간선들에만 집중하는 간선 분할 방식이 노드나 간선 쌍 기반 모델에 비해 확장 가능하고 정확한 커뮤니티 탐지 및 링크 예측을 가능하게 하는가?
  • RQ4제안된 모델이 실세계 네트워크에서 SBM, MMSB, IRM, Eigenmodel과 같은 기존 모델에 비해 성능이 어떠한가?
  • RQ5상호작용 항목을 생략한 단순화된 감마 프로세스 EPM은 전체 HGP-EPM에 비해 성능과 확장성에서 어떻게 비교되는가?

주요 결과

  • HGP-EPM은 NIPS12 공동저자 네트워크에서 AUC-ROC 0.9762 ± 0.0081과 AUC-PR 0.4493 ± 0.0229의 최신 기술 수준 성능을 달성하여 IRM, AGM, GP-EPM를 모두 능가한다.
  • 효모 단백질 상호작용 네트워크에서는 HGP-EPM가 AUC-ROC 0.9367 ± 0.0012와 AUC-PR 0.2628 ± 0.0184를 기록하여 확률적 동치성이 있는 네트워크에서 강력한 성능을 보였다.
  • HGP-EPM과 GP-EPM 모델은 효율적으로 확장되며, NIPS12 네트워크(2037개 노드, 3134개 간선)에서 1000회의 MCMC 반복을 수행하는 데 각각 32분과 12분이 소요되었다.
  • 반면 IRM 모델은 적은 수의 더 큰 커뮤니티를 추론하며, 저도수 노드들을 몇몇 지배적인 커뮤니티에 묶는 경향이 있어 세분화된 커뮤니티 구조를 놓친다.
  • HGP-EPM과 GP-EPM는 Eigenmodel과 ILA보다 현저히 빠르며, 이들은 $O(N^2)$ 계산이 필요하여 NIPS234 네트워크에서 18시간 이상 소요되었다.
  • 단순화된 GP-EPM는 NIPS12와 같은 집합적 성향 네트워크에서 높은 AUC-PR(0.4705 ± 0.0362)를 기록하여 상호작용 항목이 덜 중요한 경우 강력한 링크 예측 능력을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.