QUICK REVIEW

[논문 리뷰] From Subspaces to Metrics and Beyond: Toward Multi-Diversified Ensemble Clustering of High-Dimensional Data

Dong Huang, Chang‐Dong Wang|arXiv (Cornell University)|2017. 10. 09.

Advanced Clustering Algorithms Research인용 수 1

한 줄 요약

이 논문은 고차원 데이터를 위한 다중 다각도 통합 클러스터링 프레임워크를 제안한다. 이 프레임워크는 유사도 측도와 부분공간의 다양성을 동시에 활용하여 성능을 향상시킨다. 스케일된 지수 함수 커널을 무작위화하여 다양한 유사도 측도를 생성하고, 이를 무작위 부분공간과 조합함으로써 기반 클러스터링의 풍부한 앙상블을 구성한다. 이는 유전자 발현 및 이미지/음성 데이터를 포함한 30개의 고차원 데이터셋에서 최신 기술(SOTA) 수준의 성능을 달성한다.

ABSTRACT

The rapid emergence of high-dimensional data in various areas has brought new challenges to current ensemble clustering research. To deal with the curse of dimensionality, recently considerable efforts in ensemble clustering have been made by means of different subspace-based techniques. However, besides the emphasis on subspaces, rather limited attention has been paid to the potential diversity in similarity/dissimilarity metrics. It remains a surprisingly open problem in ensemble clustering how to create and aggregate a large population of diversified metrics, and furthermore, how to jointly investigate the multi-level diversity in the large populations of metrics, subspaces, and clusters in a unified framework. To tackle this problem, this paper proposes a novel multi-diversified ensemble clustering approach. In particular, we create a large number of diversified metrics by randomizing a scaled exponential similarity kernel, which are then coupled with random subspaces to form a large set of metric-subspace pairs. Based on the similarity matrices derived from these metric-subspace pairs, an ensemble of diversified base clusterings can thereby be constructed. Further, an entropy-based criterion is utilized to explore the cluster-wise diversity in ensembles, based on which three specific ensemble clustering algorithms are presented by incorporating three types of consensus functions. Extensive experiments are conducted on 30 high-dimensional datasets, including 18 cancer gene expression datasets and 12 image/speech datasets, which demonstrate the superiority of our algorithms over the state-of-the-art. The source code is available at this https URL.

연구 동기 및 목표

고차원 데이터의 통합 클러스터링에서 측도 다양성에 대한 주목 부족을 해결한다.
측도, 부분공간, 클러스터링의 다양성을 동시에 활용하여 차원의 극복의 고통을 극복한다.
측도, 부분공간, 클러스터링 간의 다수 수준의 다양성을 탐색할 수 있는 통합 프레임워크를 개발한다.
엔트로피 기반 다양성 평가 및 공통 결정 기능 통합을 통해 클러스터링 성능을 향상시킨다.
암 유전자 발현 및 이미지/음성 데이터를 포함한 다양한 고차원 데이터셋에서의 효과성을 입증한다.

제안 방법

다양한 유사도 측도를 생성하기 위해 스케일된 지수 함수 유사도 커널을 무작위화한다.
각 무작위 측도를 무작위 선택된 부분공간과 조합하여 측도-부분공간 쌍을 형성한다.
각 측도-부분공간 쌍에서 유사도 행렬을 구성하여 기반 클러스터링을 유도한다.
앙상블 내에서 클러스터별 다양성을 측정하고 활용하기 위해 엔트로피 기반 기준을 적용한다.
세 가지 유형의 공통 결정 기능을 프레임워크에 통합하여 최종 클러스터링을 생성한다.
결과로 도출된 앙상블을 통해 고차원 데이터에서의 강인성과 정확도를 향상시킨다.

실험 결과

연구 질문

RQ1어떻게 하면 고차원 공간에서의 통합 클러스터링 성능을 향상시키기 위해 효과적으로 다양한 유사도 측도를 생성할 수 있는가?
RQ2측도와 부분공간의 공동 다양성이 클러스터링 성능에 어느 정도 기여하는가?
RQ3엔트로피 기반 다양성 측정이 기반 클러스터링의 선택 및 조합을 효과적으로 이끌 수 있는가?
RQ4다양한 공통 결정 기능은 다각도 측도-부분공간 쌍과 함께 어떻게 성능을 발휘하는가?
RQ5제안된 프레임워크는 다양한 고차원 데이터셋에서 최신 기술(SOTA) 방법을 일관되게 능가하는가?

주요 결과

제안된 방법은 18개의 암 유전자 발현 및 12개의 이미지/음성 데이터를 포함한 30개의 고차원 데이터셋에서 뛰어난 클러스터링 성능을 달성한다.
무작위화된 측도와 무작위 부분공간의 통합은 다양성과 클러스터링 정확도를 크게 향상시킨다.
엔트로피 기반 다양성 기준은 앙상블 내에서 클러스터별 다양성을 효과적으로 캡처하고 활용한다.
제안된 프레임워크와 함께 사용할 때, 세 가지 공통 결정 기능은 기준 방법 대비 일관된 성능 향상을 이룬다.
이 방법은 다양한 데이터 유형과 고차원 환경에서 강인성과 일반화 능력을 보여준다.
소스 코드가 공개되어 재현성과 향후 연구를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.