Skip to main content
QUICK REVIEW

[논문 리뷰] Layered Label Propagation: A MultiResolution Coordinate-Free Ordering for Compressing Social Networks

Paolo Boldi, Marco Rosa|arXiv (Cornell University)|2010. 11. 24.
Complex Network Analysis Techniques인용 수 41
한 줄 요약

이 논문은 사회적 네트워크에서 그래프 압축을 크게 향상시키기 위해 다중 해상도 군집화를 활용하는 확장 가능하고 좌표 기반이 아닌 노드 순서 정렬 알고리즘인 계층적 레이블 전파(LLP)를 제안한다. 외부 메타데이터에 의존하지 않고 노드 이웃의 국소성과 유사성을 활용함으로써, uk 데이터셋에서 링크당 비트 수를 최소 1.8까지 감소시켰으며, 기존 최고 수준의 외부 메타데이터 기반 방법을 뛰어넘고, 수십억 노드의 그래프를 주 메모리에서 분석할 수 있게 한다.

ABSTRACT

We continue the line of research on graph compression started with WebGraph, but we move our focus to the compression of social networks in a proper sense (e.g., LiveJournal): the approaches that have been used for a long time to compress web graphs rely on a specific ordering of the nodes (lexicographical URL ordering) whose extension to general social networks is not trivial. In this paper, we propose a solution that mixes clusterings and orders, and devise a new algorithm, called Layered Label Propagation, that builds on previous work on scalable clustering and can be used to reorder very large graphs (billions of nodes). Our implementation uses overdecomposition to perform aggressively on multi-core architecture, making it possible to reorder graphs of more than 600 millions nodes in a few hours. Experiments performed on a wide array of web graphs and social networks show that combining the order produced by the proposed algorithm with the WebGraph compression framework provides a major increase in compression with respect to all currently known techniques, both on web graphs and on social networks. These improvements make it possible to analyse in main memory significantly larger graphs.

연구 동기 및 목표

  • 기존 URL 기반 노드 순서 정렬이 적용되지 않는 대규모 사회적 네트워크의 압축 문제를 해결한다.
  • 그래프의 구조를 유지하면서 효과적인 압축을 위해 외부 좌표에 의존하지 않는 내재적 노드 순서 정렬 방법을 개발한다.
  • 웹그래프 프레임워크에서 웹 그래프 및 사회적 네트워크 양쪽 모두에 대해 현재 최고 수준의 기술을 뛰어넘는 압축 비율을 향상시킨다.
  • 우수한 압축을 통해 메모리 사용량을 줄여 수십억 노드의 그래프를 효율적이고 확장 가능한 방식으로 처리할 수 있도록 한다.
  • 내재적 군집화 기반 순서 정렬이 실제 사회적 네트워크 데이터셋에서 외부 메타데이터 기반 순서 정렬(예: URL 기반)을 능가할 수 있음을 입증한다.

제안 방법

  • 다중 해상도 군집화 알고리즘인 계층적 레이블 전파(LLP)를 제안하여 노드 간 레이블 전파를 통해 다양한 척도에서 커뮤니티를 식별한다.
  • 다중 코어 아키텍처에서의 병렬 실행을 가능하게 하기 위해 작업 분해 기법을 사용하여 6억 개 이상의 노드를 몇 시간 내에 처리할 수 있도록 한다.
  • LLP로 순서를 정한 그래프에 대해 웹그래프 압축 프레임워크를 적용하여 유사성과 국소성 특성을 활용해 링크당 비트 수를 최소화한다.
  • 레이어드 군집화와 레이블 전파를 통합하여 외부 좌표 없이도 구조적 이웃 관계를 반영한 노드 순서를 생성한다.
  • 반복적 정밀 조정과 갭 비용 분석을 통해 링크당 비트 수를 최소화함으로써 순서를 최적화한다.
  • 압축 성능 평가를 위해 LLP를 기준 순서 정렬(BFS, 랜덤, 그레이, 스킨들) 및 다른 군집화 방법(APM, APM+그레이)과 비교한다.

실험 결과

연구 질문

  • RQ1좌표 기반이 아닌 내재적 노드 순서 정렬 방법이 사회적 네트워크에서 어휘적 URL 순서 정렬과 같은 외부 메타데이터 기반 방법보다 더 나은 압축을 달성할 수 있는가?
  • RQ2다중 해상도 군집화가 그래프 압축을 위한 노드 순서 정렬에서 국소성과 유사성을 얼마나 향상시킬 수 있는가?
  • RQ3제안된 LLP 알고리즘이 수십억 노드의 그래프에 대해 확장 가능하면서도 높은 압축 효율성을 유지할 수 있는가?
  • RQ4다양한 사회적 네트워크 및 웹 그래프 데이터셋에서 LLP와 웹그래프 프레임워크를 조합했을 때 달성 가능한 압축 비율 향상은 어느 정도인가?
  • RQ5외부 메타데이터(예: URL)가 없더라도 내재적 구조적 특성만으로도 효과적인 압축을 달성할 수 있는가, 아니면 그 부재가 압축 성능을 저해하는가?

주요 결과

  • uk 데이터셋에서 LLP는 링크당 비트 수를 1.8로 줄였으며, 이는 BFS 기준값인 2.84에서 33% 향상된 결과이다.
  • LiveJournal 데이터셋에서 LLP는 링크당 10.90비트를 기록했으며, BFS 기준값(15.10비트/링크) 대비 28% 감소하였다.
  • in 데이터셋에서 LLP는 링크당 2.46비트를 기록했으며, BFS 기준값(3.51비트/링크) 대비 30% 감소했고, 랜덤 순서 정렬 대비 15% 우수했다.
  • eu 데이터셋에서 LLP는 링크당 3.90비트로 줄였으며, BFS 기준값(4.93비트/링크) 대비 21% 향상되었고, 자연 순서 기반 압축 대비 303%의 압축 성능 향상을 달성했다.
  • LLP와 BV 압축 프레임워크의 조합은 uk 데이터셋에서 링크당 최대 1.21비트의 압축을 달성했으며, 이는 최대 압축 시 Apostolico–Drovandi 방법(1.44비트/링크)을 뛰어넘는 성능이다.
  • 실험 결과, 모든 테스트 데이터셋에서 LLP는 BFS, 랜덤, 스킨들, 그레이와 같은 다른 순서 정렬 방식을 일관되게 능가했으며, 링크당 비트 수에서 10%에서 100% 이상의 향상률을 기록했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.