QUICK REVIEW

[논문 리뷰] Simple Distributed Graph Clustering using Modularity and Map Equation.

Michael Hamann, Ben Strasser|arXiv (Cornell University)|2017. 10. 26.

Complex Network Analysis Techniques참고 문헌 19인용 수 4

한 줄 요약

이 논문은 무게가 부여된 대규모 무향 그래프를 대상으로 모듈러리티와 지도 방정식을 최적화하기 위해 Thrill 프레임워크를 사용하는 간단한 분산 그래프 클러스터링 알고리즘인 DSLM-Mod와 DSLM-Map을 제안한다. 이 방법들은 실세계 및 시뮬레이션 기반 벤치마크에서 높은 품질의 클러스터링을 달성하면서도 효율적이고 확장 가능한 성능을 보인다.

ABSTRACT

We study large-scale, distributed graph clustering. Given an undirected, weighted graph, our objective is to partition the nodes into disjoint sets called clusters. Each cluster should contain many internal edges. Further, there should only be few edges between clusters. We study two established formalizations of this internally-dense-externally-sparse principle: modularity and map equation. We present two versions of a simple distributed algorithm to optimize both measures. They are based on Thrill, a distributed big data processing framework that implements an extended MapReduce model. The algorithms for the two measures, DSLM-Mod and DSLM-Map, differ only slightly. Adapting them for similar quality measures is easy. In an extensive experimental study, we demonstrate the excellent performance of our algorithms on real-world and synthetic graph clustering benchmark graphs.

연구 동기 및 목표

대규모, 가중치가 부여된, 무향 그래프에서 확장성 있고 높은 품질의 그래프 클러스터링을 해결하기 위해.
모듈러리티와 지도 방정식으로 형식화된 내부 밀도-외부 희소성 원칙을 최적화하는 분산 알고리즘을 개발하기 위해.
Thrill 프레임워크를 통해 MapReduce 모델의 경량 확장 방식을 이용해 효율적이고 확장 가능한 클러스터링을 가능하게 하기 위해.
다양한 실세계 및 시뮬레이션 기반 그래프 벤치마크에서 제안된 방법의 효과성과 적응 가능성 확인하기 위해.

제안 방법

알고리즘은 대규모 데이터 처리에 효율적인 빅데이터 처리를 위한 MapReduce 모델을 확장한 Thrill 프레임워크 기반의 분산 반복적 접근을 사용한다.
DSLM-Mod는 모듈러리티 증가를 최대화하는 클러스터로 노드를 반복적으로 재할당하여 모듈러리티를 최적화한다.
DSLM-Map은 무작위 보행에 대한 기대 기술 길이를 최소화하기 위해 지도 방정식을 사용하여 클러스터 할당을 안내한다.
두 알고리즘 모두 분산 시스템 전반에 걸쳐 클러스터 업데이트를 전파하기 위해 국소 계산과 메시지 전달에 의존한다.
이들 방법은 동일한 내부-외부 간선 밀도 원칙에 기반한 다른 품질 측정 기준에도 쉽게 적용 가능하도록 설계되었다.
스케일링을 보장하기 위해 효율적인 데이터 분할 및 로드 밸런싱을 구현하여 분산 노드 간 성능을 극대화한다.

실험 결과

연구 질문

RQ1모듈러리티와 지도 방정식 기반의 분산 그래프 클러스터링 알고리즘이 대규모에서 높은 품질의 결과를 달성할 수 있는가?
RQ2제안된 DSLM-Mod와 DSLM-Map 알고리즘이 실세계 및 시뮬레이션 기반 그래프에서 기존 방법과 비교해 어떻게 성능을 내는가?
RQ3동일한 알고리즘 프레임워크가 다양한 클러스터링 품질 측정 기준에 얼마나 잘 적응 가능한가?
RQ4Thrill 프레임워크를 사용할 때 대규모 그래프 워크로드에서 알고리즘의 확장성과 성능은 어떠한가?

주요 결과

제안된 DSLM-Mod와 DSLM-Map 알고리즘은 실세계 및 시뮬레이션 기반 그래프 벤치마크에서 모두 높은 클러스터링 품질을 달성한다.
Thrill 분산 처리 프레임워크에서 실행되었을 때 알고리즘은 뛰어난 확장성과 성능을 보여준다.
두 알고리즘이 구현상으로는 매우 유사하므로, 다양한 품질 측정 기준 간의 모듈성과 재사용성 수준이 매우 높음을 시사한다.
Thrill에서 확장된 MapReduce 모델을 활용함으로써 효율적이고 대규모의 클러스터링이 가능하다.
모듈러리티와 지도 방정식이 분산 환경에서 최소한의 알고리즘 변경으로도 효과적으로 최적화될 수 있음을 결과가 확인한다.
내부-외부 간선 밀도 원칙에 기반한 다른 클러스터링 품질 측정 기준에도 프레임워크가 쉽게 확장 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.