Skip to main content
QUICK REVIEW

[논문 리뷰] Clustering Signed Networks with the Geometric Mean of Laplacians

Pedro Mercado, Francesco Tudisco|arXiv (Cornell University)|2017. 01. 03.
Complex Network Analysis Techniques참고 문헌 20인용 수 25
한 줄 요약

이 논문은 긍정 및 부정 그래프 라플라시안의 기하 평균을 사용하여 서명된 네트워크를 위한 새로운 스펙트럴 클러스터링 방법을 제안한다. 이 방법은 한쪽 네트워크 유형(긍정 또는 부정)이 노이즈가 없는 경우에도 기존 산술 평균 기반 접근 방식보다 더 잘 진정된 커뮤니티를 복원한다. 이 방법은 확장된 크릴로프 부분공간을 사용하는 역거듭제곱 방법을 통해 효율적인 계산을 가능하게 하여 실제 및 시뮬레이션된 서명된 네트워크에서 강력한 클러스터링 성능을 달성한다.

ABSTRACT

Signed networks allow to model positive and negative relationships. We analyze existing extensions of spectral clustering to signed networks. It turns out that existing approaches do not recover the ground truth clustering in several situations where either the positive or the negative network structures contain no noise. Our analysis shows that these problems arise as existing approaches take some form of arithmetic mean of the Laplacians of the positive and negative part. As a solution we propose to use the geometric mean of the Laplacians of positive and negative part and show that it outperforms the existing approaches. While the geometric mean of matrices is computationally expensive, we show that eigenvectors of the geometric mean can be computed efficiently, leading to a numerical scheme for sparse matrices which is of independent interest.

연구 동기 및 목표

  • 기존 스펙트럴 클러스터링 방법이 서명된 네트워크에서 실패하는 문제를 해결하기 위해, 특히 긍정 또는 부정 그래프 중 하나가 노이즈가 없는 경우에도 적용 가능하도록 한다.
  • 스토케스틱 블록 모델에서 산술 평균 기반 라플라시안 확장이 진정된 클러스터를 복원하지 못하는 이유를 규명한다.
  • 긍정 및 부정 라플라시안의 기하 평균에 기반한 새로운 스펙트럴 클러스터링 프레임워크를 개발하여 더 나은 클러스터 복원을 보장한다.
  • 기하 평균 라플라시안의 주요 고유벡터를 직접 행렬을 형성하지 않고도 효율적으로 계산할 수 있는 수치 알고리즘을 설계한다.
  • 실제 서명된 네트워크 및 벤치마크 데이터셋에서 방법을 검증하여 뛰어난 클러스터링 성능을 입증한다.

제안 방법

  • 이 방법은 긍정 및 부정 그래프 라플라시안의 기하 평균으로 새로운 서명된 그래프 라플라시안을 정의하며, 이는 $ L_{GM} = L^+ \# L^- $로 표기된다. 이는 양의 준정의 행렬이며 균형 잡힌 커뮤니티 구조를 더 정확하게 포착한다.
  • 기하 평균 라플라시안 $ L_{GM} $ 의 주요 고유벡터를 직접 행렬을 형성하지 않고도 계산하기 위해 역거듭제곱 방법과 확장된 크릴로프 부분공간 기법을 결합한다.
  • 기하 평균 행렬을 직접 계산하는 데 드는 계산 비용을 피하기 위해 $ L^+ $ 및 $ L^- $ 에 관여하는 선형 시스템을 푸는 방식을 사용하여 희박한 서명된 네트워크로의 확장성을 확보한다.
  • 임베딩에서 클러스터 구조에 해당하는 가장 작은 고유값을 타겟으로 하기 위해 시프트-인버트 전략을 사용한다.
  • 표준 스펙트럴 클러스터링 파ip라인에 통합된다: $ L_{GM} $ 의 고유벡터를 계산하고, 노드를 $ \mathbb{R}^k $ 에 임bedding한 후 $ k $-means 클러스터링을 적용한다.
  • 프레임워크는 MATLAB로 구현되었으며 실제 및 UCI 데이터셋에서 테스트되었으며, $ L_{SN}, L_{BN}, L_{AM} $ 과의 비교가 이루어졌다.

실험 결과

연구 질문

  • RQ1기존의 서명된 네트워크 스펙트럴 클러스터링 방법은 노이즈가 없는 설정에서도 왜 진정된 클러스터를 복원하지 못하는가?
  • RQ2긍정 및 부정 그래프 라플라시안의 기하 평균은 산술 평균 기반 대안보다 더 강건하고 정확한 스펙트럴 임베딩을 제공할 수 있는가?
  • RQ3대규모 희박한 서명된 네트워크에서 기하 평균 라플라시안의 주요 고유벡터를 계산하는 것은 계산적으로 가능할 수 있는가?
  • RQ4실제 서명된 네트워크에서 기하 평균 라플라시안은 기존 방법보다 어떻게 성능을 발휘하는가?
  • RQ5한쪽 네트워크(긍정 또는 부정)에 상당한 노이즈가 포함되어 있을 때도 기하 평균 접근 방식은 강건한가?

주요 결과

  • 기하 평균 라플라시안 $ L_{GM} $ 은 한쪽 네트워크 $ G^+ $ 또는 $ G^- $ 가 완전히 구조화되어 있는 경우에도 스토케스틱 블록 모델에서 진정된 클러스터를 성공적으로 복원한다. 반면 산술 평균 기반 방법은 이를 실패한다.
  • 위키백과 관리자 선거 데이터셋에서 $ L_{GM} $ 은 첫 번째로 클러스터링 구조를 성공적으로 식별하는 방법이었으며, $ L_{AM}, L_{BN}, L_{SN} $ 은 어떤 커뮤니티 구조도 탐지하지 못했다.
  • UCI 데이터셋에서 $ L_{GM} $ 은 모든 테스트된 $ k^+, k^- $ 조합에서 59.4%에서 87.5%의 경우에 최고 또는 엄밀히 최고의 클러스터링 오차를 기록하며 기존 방법을 크게 능가한다.
  • 음성 그래프에 노이즈가 포함되어 있어도 방법은 강건하다: $ W^- $ 가 $ k^{-} $-가장 먼 이웃 그래프를 통해 구성된 노이즈가 많은 대체 자료일 경우에도 $ L_{GM} $ 은 낮은 클러스터링 오차를 유지하지만, $ L_{SN} $ 과 $ L_{BN} $ 은 높은 오차를 겪는다.
  • 역거듭제곱 및 확장된 크릴로프 방법을 사용한 제안된 알고리즘의 계산 시간은 표준 스펙트럴 클러스터링과 비교해도 상수 배수 이내로 유사하며, 최대 70,000개의 노드를 가진 그래프에서도 성능이 유지된다.
  • 기하 평균 행렬 $ L_{GM} $ 을 직접 계산하지 않기 때문에 메모리 오버플로우 문제를 피할 수 있어 대규모 희박한 서명된 네트워크로의 확장성이 보장된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.