[논문 리뷰] Revisiting k-means: New Algorithms via Bayesian Nonparametrics
이 논문은 디리클레 프로세스 및 계층적 디리클레 프로세스 혼합 모델에서 유도된 베이지안 비모수 모델 기반의 확장 가능한 하드 클러스터링 알고리즘인 DP-means와 하드 가우시안 HDP를 제안한다. 성분의 공분산을 0으로 수렴시키는 극한을 취할 때, 이러한 모델의 깁스 샘플러는 수반된 페널티 항을 통해 자동으로 클러스터 수를 결정하는 k-means 유사 알고리즘으로 수렴하며, 국소 최적해로 단조롭게 수렴하면서도 비모수 베이지안 클러스터링의 유연성을 유지한다.
Bayesian models offer great flexibility for clustering applications---Bayesian nonparametrics can be used for modeling infinite mixtures, and hierarchical Bayesian models can be utilized for sharing clusters across multiple data sets. For the most part, such flexibility is lacking in classical clustering methods such as k-means. In this paper, we revisit the k-means clustering algorithm from a Bayesian nonparametric viewpoint. Inspired by the asymptotic connection between k-means and mixtures of Gaussians, we show that a Gibbs sampling algorithm for the Dirichlet process mixture approaches a hard clustering algorithm in the limit, and further that the resulting algorithm monotonically minimizes an elegant underlying k-means-like clustering objective that includes a penalty for the number of clusters. We generalize this analysis to the case of clustering multiple data sets through a similar asymptotic argument with the hierarchical Dirichlet process. We also discuss further extensions that highlight the benefits of our analysis: i) a spectral relaxation involving thresholded eigenvectors, and ii) a normalized cut graph clustering algorithm that does not fix the number of clusters in the graph.
연구 동기 및 목표
- k-me안의 확장성과 베이지안 비모수 클러스터링의 유연성 사이의 격차를 메우기 위해, 디리클레 프로세스 혼합 모델에서 하드 클러스터링 알고리즘을 유도한다.
- 계층적 디리클레 프로세스를 사용하여 이 프레임워크를 다수의 데이터 세트로 확장함으로써, 각 데이터 세트 내의 국소 클러스터와 데이터 세트 간 공유되는 글로벌 클러스터를 동시에 학습하면서도 자동으로 클러스터 수를 선택할 수 있도록 한다.
- 샘플링 기반 추론의 실용적이고 확장 가능한 대안을 개발하여, 베이지안 모델링의 이론적 이점을 유지한다.
- 유도된 알고리즘이 k-means 유사 목적 함수를 최소화하며 클러스터 수에 대한 페널티 항을 포함함으로써 단조롭게 수렴함을 보여준다.
- 표준 k-means을 초월하는 일반화를 위해 스펙트럼 및 그래프 기반의 허술화를 제공하며, 고정된 클러스터 수 없이 정규화 컷 알고리즘을 포함한다.
제안 방법
- 각 성분의 공분산이 0으로 수렴하는 극한을 취함으로써, 디리클레 프로세스 혼합 모델에서 하드 클러스터링 알고리즘을 유도하여 깁스 샘플러를 클러스터 수 자동 생성 기능이 있는 k-means 유사 알고리즘으로 변환한다.
- 클러스터 수에 대한 페널티 항을 포함한 k-means 유사 목적 함수를 제안하며, 이 알고리즘이 단조롭게 최소화하는 것을 보장한다.
- 계층적 디리클레 프로세스(HDP)를 사용하여 다수의 데이터 세트로 프레임워크를 확장함으로써, 각 데이터 세트 내의 국소 클러스터와 데이터 세트 간 공유되는 글로벌 클러스터를 동시에 학습하는 모델을 도출한다.
- DP 기반 목적 함수를 위한 스펙트럼 허술화를 제안하며, 상위-k 고유벡터 대신 임계값을 적용한 고유벡터를 사용함으로써, 비모수 베이지안 모델링과 스펙트럼 클러스터링 간의 새로운 연결 고리를 드러낸다.
- 동일한 페널티 목적 함수를 기반으로 하되, 고정된 클러스터 수 없이 작동하는 정규화 컷 기반의 그래프 클러스터링 알고리즘을 설계한다.
- 합성 및 실세계 데이터에 대해 DP-means와 하드 가우시안 HDP를 구현하고 평가하며, k-means, 깁스 샘플링 및 기준 클러스터링 방법과 비교한다.
실험 결과
연구 질문
- RQ1디리클레 프로세스 혼합 모델과 같은 비모수 베이지안 모델을 사용하여, 자동으로 클러스터 수를 결정하는 확장 가능한 하드 클러스터링 알고리즘을 도출할 수 있는가?
- RQ2디리클레 프로세스 혼합 모델에서 깁스 샘플러의 점근적 행동은 성분의 공분산이 0으로 수렴할 때 k-means 알고리즘과 어떻게 관련이 있는가?
- RQ3계층적 디리클레 프로세스를 사용하여, 각 데이터 세트의 국소 클러스터와 데이터 세트 간 공유되는 글로벌 클러스터를 동시에 학습하는 k-means 유사 알고리즘을 도출할 수 있는가?
- RQ4유도된 알고리즘이 최적화하는 페널티가 부여된 k-means 목적 함수와 기반 비모수 베이지안 모델 간의 관계는 무엇인가?
- RQ5유도된 목적 함수의 스펙트럼 및 그래프 기반 허술화는 고정된 클러스터 수 없이 작동하는 새로운 클러스터링 알고리즘을 이끌 수 있는가?
주요 결과
- DP-means는 UCI 데이터 세트 8개 중 5개에서 k-means보다 높은 정규화 상호정보량(NMI)을 기록했으며, 8개 중 4개에서 깁스 샘플링보다 우수하여 훨씬 더 빠른 수렴 속도를 유지하면서도 유사하거나 더 높은 정확도를 보였다.
- 312,320개의 이미지 패치로 구성된 Photo Tourism 데이터 세트에서 DP-means는 63회 반복 내에 수렴했고, 깁스 샘플링은 타당한 시간 내에 수렴하지 못해 제안된 방법의 확장성 우수성을 입증했다.
- 합성 다중 데이터 세트 문제에서 하드 가우시안 HDP는 평균 NMI 0.81을 기록하여 전체 데이터 세트에 대해 k-means(0.77)와 DP-means(0.73)를 모두 압도했으며, 클러스터 공유 없이 개별적으로 클러스터링한 결과보다 뛰어난 성능을 보였다.
- 하드 가우시안 HDP는 평균적으로 17개의 글로벌 클러스터와 4.4개의 국소 클러스터를 생성하여 데이터 세트 간 효과적인 클러스터 공유를 실현하면서도 높은 클러스터링 정확도를 유지했다.
- DP 기반 목적 함수를 위한 스펙트럼 허술화는 상위-k 고유벡터 대신 임계값을 적용한 고유벡터를 사용함으로써, 비모수 베이지안 모델링과 스펙트럼 클러스터링 간의 새로운 연결 고리를 드러냈다.
- 페널티 목적 함수에서 유도된 정규화 컷 기반의 그래프 클러스터링 알고리즘은 사전에 고정된 클러스터 수 없이 작동하여 표준 정규화 컷에 대한 민첩한 대안을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.