Skip to main content
QUICK REVIEW

[논문 리뷰] A Local Clustering Algorithm for Massive Graphs and its Application to Nearly-Linear Time Graph Partitioning

Daniel A. Spielman, Shang‐Hua Teng|ArXiv.org|2008. 09. 18.
Data Management and Algorithms참고 문헌 12인용 수 45
한 줄 요약

이 논문은 Nibble를 제시하며, 클러스터 크기의 거의 선형 시간 내에서 대규모 그래프에서 낮은 도전도 클러스터를 찾는 국소 클러스터링 알고리즘을 제공한다. 이 알고리즘은 근사적으로 최적의 균형을 갖춘 거의 선형 시간 그래프 분할 알고리즘을 가능하게 하며, 대칭적이고 대각선 우세한 행렬에서 스펙트럼 스퍼피어피케이션과 선형 시스템 해법에 효율적이다.

ABSTRACT

We study the design of local algorithms for massive graphs. A local algorithm is one that finds a solution containing or near a given vertex without looking at the whole graph. We present a local clustering algorithm. Our algorithm finds a good cluster--a subset of vertices whose internal connections are significantly richer than its external connections--near a given vertex. The running time of our algorithm, when it finds a non-empty local cluster, is nearly linear in the size of the cluster it outputs. Our clustering algorithm could be a useful primitive for handling massive graphs, such as social networks and web-graphs. As an application of this clustering algorithm, we present a partitioning algorithm that finds an approximate sparsest cut with nearly optimal balance. Our algorithm takes time nearly linear in the number edges of the graph. Using the partitioning algorithm of this paper, we have designed a nearly-linear time algorithm for constructing spectral sparsifiers of graphs, which we in turn use in a nearly-linear time algorithm for solving linear systems in symmetric, diagonally-dominant matrices. The linear system solver also leads to a nearly linear-time algorithm for approximating the second-smallest eigenvalue and corresponding eigenvector of the Laplacian matrix of a graph. These other results are presented in two companion papers.

연구 동기 및 목표

  • 전체 그래프를 검토하지 않고도 대규모 그래프에서 고품질 클러스터를 효율적으로 식별할 수 있는 국소 클러스터링 알고리즘을 설계하는 것.
  • 국소 클러스터링 프리미티브를 활용하여 거의 선형 시간 내에 근사적으로 최적의 균형을 갖춘 그래프 분할을 가능하게 하는 것.
  • 대칭적이고 대각선 우세한 선형 시스템을 해결하고 스펙트럼 스퍼피어피케이션을 위한 거의 선형 시간 알고리즘의 개발을 지원하는 것.
  • 국소 클러스터링 과정의 성공 확률과 도전도에 대한 이론적 보장을 수립하는 것.

제안 방법

  • 알고리즘은 입력 정점에서의 짧은 걷기에서 자주 나타나는 정점에 대한 확률 분포를 유지하기 위해 절단된 랜덤 워크를 사용한다.
  • 확률 분포에서 높은 확률을 가진 정점을 기반으로 클러스터를 선택함으로써 출력 민감도와 작은 지지 크기를 보장한다.
  • 측도와 간선 확장성에 기반한 잠재 함수를 사용하여 반복적으로 낮은 도전도 집합을 고립하는 재귀적 분할 과정을 활용한다.
  • 도전도 임계값에 기반한 정지 조건을 도입하고, 다중 반복 동안 실패 확률을 제한하기 위해 확률적 분석을 수행한다.
  • 상수 확률로 출력 클러스터가 관심 있는 목표 클러스터 내에 대부분 포함되어 있으며 도전도가 낮다는 것을 보장한다.
  • 그래프 라플라시안의 스펙트럼 성질을 활용하고, 랜덤 워크 동역학을 사용하여 두 번째로 작은 고유값과 그에 해당하는 고유벡터를 근사한다.

실험 결과

연구 질문

  • RQ1입력 정점에서 클러스터 크기 비례 시간 내에 좋은 클러스터를 찾을 수 있는 국소 클러스터링 알고리즘이 존재하는가?
  • RQ2좋은 클러스터에서 샘플링된 입력 정점이 낮은 도전도 클러스터를 찾는 데 성공할 확률은 얼마인가?
  • RQ3국소 클러스터링을 활용하여 근사적으로 최적의 균형을 갖춘 거의 선형 시간 그래프 분할 알고리즘을 설계할 수 있는가?
  • RQ4국소 클러스터링을 어떻게 확장하여 스펙트럼 스퍼피어피케이터를 효율적으로 생성하고 선형 시스템을 해결할 수 있는가?
  • RQ5알고리즘이 반환하는 클러스터의 도전도와 측도에 대해 어떤 이론적 보장을 도출할 수 있는가?

주요 결과

  • 모든 목표 도전도 φ에 대해, α > 0 인 상수가 존재하며, φ²/log³n 이하의 도전도를 갖는 C₀ 클러스터에 대해, C₀에서 도수 가중 랜덤 정점을 입력으로 주었을 때 Nibble는 도전도가 최대 φ 이하이고 C₀에 대부분 포함된 클러스터 C를 최소 1/2 확률로 반환한다.
  • Nibble의 실행 시간은 출력 클러스터 크기의 거의 선형 시간 내에서 이루어지므로, 출력에 민감하고 대규모 그래프에 대해 효율적이다.
  • 알고리즘은 주어진 도전도를 근사하는 데 거의 선형 시간 내에 균형이 거의 최적화된 그래프 분할 방법을 가능하게 한다.
  • 이 분할 알고리즘은 스펙트럼 스퍼피어피케이터를 거의 선형 시간 내에 구성할 수 있게 하며, 이는 대칭적이고 대각선 우세한 선형 시스템에 대해 거의 선형 시간 해법을 가능하게 한다.
  • 이 방법은 그래프 라플라시안의 두 번째로 작은 고유값과 그에 해당하는 고유벡터를 거의 선형 시간 내에 근사하는 데도 기여한다.
  • 분석 결과, O(m log(1/p)) 반복 후에 분할 알고리즘이 높은 확률로 다음 두 조건 중 하나를 만족함을 증명한다: 또는 컷의 측도가 총 측도의 1/4 이상이거나, 목표 집합 S와의 교차는 S의 측도의 최소 절반 이상이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.