Skip to main content
QUICK REVIEW

[논문 리뷰] Hierarchical clustering better than average-linkage

Moses Charikar, Vaggos Chatziafratis|arXiv (Cornell University)|2019. 01. 06.
Complex Network Analysis Techniques인용 수 34
한 줄 요약

이 논문은 최근에 제안된 유사도 기반 및 이질도 기반 목적함수에 대해 평균 연결 계층적 군집화가 각각 1/3 및 2/3 이하의 근사 비율을 달성할 뿐 아니라 이를 초월할 수 없음을 보여준다. 이를 해결하기 위해 저자는 두 가지 새로운 정수형 프로그래밍 기반 알고리즘을 제안하며, 이는 엄밀히 더 나은 근사 보장을 달성함으로써 계층적 군집화가 평균 연결 방식을 뛰어넘어 크게 향상될 수 있음을 입증한다.

ABSTRACT

Hierarchical Clustering (HC) is a widely studied problem in exploratory data analysis, usually tackled by simple agglomerative procedures like average-linkage, single-linkage or complete-linkage. In this paper we focus on two objectives, introduced recently to give insight into the performance of average-linkage clustering: a similarity based HC objective proposed by [21] and a dissimilarity based HC objective proposed by [9]. In both cases, we present tight counterexamples showing that average-linkage cannot obtain better than 1/3 and 2/3 approximations respectively (in the worst-case), settling an open question raised in [21]. This matches the approximation ratio of a random solution, raising a natural question: can we beat average-linkage for these objectives? We answer this in the affirmative, giving two new algorithms based on semidefinite programming with provably better guarantees.

연구 동기 및 목표

  • 최근에 제안된 두 가지 계층적 군집화 목적함수—유사도 기반 목적함수와 이질도 기반 목적함수—에 대해 평균 연결 군집화의 최악의 경우 근사 성능을 조사하는 것.
  • 현재 무작위 해와 동일한 성능을 보이는 평균 연결 군집화가 이러한 목적함수에 대해 랜덤 근사 비율을 초월할 수 있는지 여부를 확인하는 것.
  • 기존 문헌에서 열려 있던 문제를 해결하기 위해 평균 연결의 한계를 보여주는 날카로운 반례를 구성하는 것.
  • 더 나은 근사 보장을 확보하기 위해 정수형 프로그래밍을 활용한 새로운 알고리즘을 설계하는 것.

제안 방법

  • 저자는 평균 연결 군집화가 유사도 기반 목적함수에 대해 최대 1/3의 근사 비율을 달성할 수 있음을 입증하기 위해 최악의 경우 반례를 철저히 구성한다.
  • 그들은 계층적 군집화 목적함수의 구조를 활용하여 엄밀히 더 나은 근사 보장을 달성하는 새로운 두 가지 정수형 프로그래밍(SDP) 기반 알고리즘을 제안한다.
  • SDP 풀이는 계층적 군집화 문제를 볼록 최적화 문제로 모델링하도록 설계되어 더 강력한 이론적 한계를 제공한다.
  • 해결책의 타당성과 평균 연결보다 최악의 경우에서 엄밀히 우수한 성능을 보장하기 위해 이중성과 반올림 기법을 활용한 분석을 수행한다.
  • 이론적 분석 결과, 새로운 알고리즘은 각 목적함수에 대해 1/3 및 2/3을 초월하는 엄밀히 더 나은 근사 비율을 확보함을 입증한다.

실험 결과

연구 질문

  • RQ1평균 연결 군집화는 최악의 경우 유사도 기반 계층적 군집화 목적함수에 대해 1/3을 초월하는 근사 비율을 달성할 수 있는가?
  • RQ2평균 연결 군집화는 최악의 경우 이질도 기반 계층적 군집화 목적함수에 대해 2/3을 초월하는 근사 비율을 달성할 수 있는가?
  • RQ3이러한 목적함수에 대해 평균 연결보다 엄밀히 뛰어난 성능을 보장하는 계층적 군집화 알고리즘을 설계하는 것이 가능한가?
  • RQ4이 목적함수에 대해 평균 연결의 최악의 경우 성능 한계를 보여주는 날카로운 반례가 존재하는가?

주요 결과

  • 유사도 기반 목적함수에 대해 평균 연결 군집화는 최악의 경우 1/3의 근사 비율을 초월할 수 없으며, 이 한계는 날카로운 것이다.
  • 이질도 기반 목적함수에 대해 평균 연결 군집화는 최악의 경우 2/3의 근사 비율에 머무르며, 이 한계 역시 날카로운 것이다.
  • 저자는 이러한 한계의 날카로움을 입증하기 위해 명시적인 최악의 경우 인스턴스를 구성하였으며, 이는 기존 문헌에서 열려 있던 문제를 해결한다.
  • 두 가지 새로운 정수형 프로그래밍 기반 알고리즘이 제안되었으며, 이는 두 목적함수에 대해 평균 연결보다 엄밀히 더 나은 근사 보장을 달성한다.
  • 새로운 알고리즘은 평균 연결의 최악의 성능을 초월하는 보증된 근사 비율을 제공함으로써 이론적 우수성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.