Skip to main content
QUICK REVIEW

[論文レビュー] From Subspaces to Metrics and Beyond: Toward Multi-Diversified Ensemble Clustering of High-Dimensional Data

Dong Huang, Chang‐Dong Wang|arXiv (Cornell University)|Oct 9, 2017
Advanced Clustering Algorithms Research被引用数 1
ひとこと要約

本稿では、高次元データにおける類似度尺度と部分空間の両方の多様性を統合的に活用する、マルチ多様性アンサンブルクラスタリングフレームワークを提案する。スケーリングされた指数関数的カーネルをランダム化して多様な尺度を生成し、それらをランダム部分空間と組み合わせることで、豊富な基本クラスタリングのアンサンブルを構築する。30個の高次元データセット(遺伝子発現データや画像/音声データを含む)において、最先端の性能を達成する。

ABSTRACT

The rapid emergence of high-dimensional data in various areas has brought new challenges to current ensemble clustering research. To deal with the curse of dimensionality, recently considerable efforts in ensemble clustering have been made by means of different subspace-based techniques. However, besides the emphasis on subspaces, rather limited attention has been paid to the potential diversity in similarity/dissimilarity metrics. It remains a surprisingly open problem in ensemble clustering how to create and aggregate a large population of diversified metrics, and furthermore, how to jointly investigate the multi-level diversity in the large populations of metrics, subspaces, and clusters in a unified framework. To tackle this problem, this paper proposes a novel multi-diversified ensemble clustering approach. In particular, we create a large number of diversified metrics by randomizing a scaled exponential similarity kernel, which are then coupled with random subspaces to form a large set of metric-subspace pairs. Based on the similarity matrices derived from these metric-subspace pairs, an ensemble of diversified base clusterings can thereby be constructed. Further, an entropy-based criterion is utilized to explore the cluster-wise diversity in ensembles, based on which three specific ensemble clustering algorithms are presented by incorporating three types of consensus functions. Extensive experiments are conducted on 30 high-dimensional datasets, including 18 cancer gene expression datasets and 12 image/speech datasets, which demonstrate the superiority of our algorithms over the state-of-the-art. The source code is available at this https URL.

研究の動機と目的

  • 高次元データにおけるアンサンブルクラスタリングにおいて、尺度の多様性に十分な注意が払われていないという問題に取り組む。
  • 尺度、部分空間、クラスタリングの多様性を統合的に活用することで、次元の呪いを克服する。
  • 尺度、部分空間、クラスタリングの多段階的多様性を探索する統一フレームワークを構築する。
  • エントロピーに基づく多様性評価とコンSENSUS関数の統合を通じて、クラスタリング性能を向上させる。
  • がんの遺伝子発現データや画像/音声データを含む多様な高次元データセットにおいて、有効性を実証する。

提案手法

  • スケーリングされた指数関数的類似度カーネルをランダム化して、多様な類似度尺度の大量生成を行う。
  • 各ランダム化された尺度を、ランダムに選択された部分空間とペアリングする。
  • 各尺度-部分空間ペアから類似度行列を構築し、基本クラスタリングを導出する。
  • エントロピーに基づく基準を用いて、アンサンブル内のクラスタごとの多様性を測定・活用する。
  • 3種類のコンセンサス関数をフレームワークに統合し、最終的なクラスタリングを生成する。
  • 得られたアンサンブルを用いて、高次元データにおけるロバストネスと精度を向上させる。

実験結果

リサーチクエスチョン

  • RQ1どのようにして、高次元空間におけるアンサンブルクラスタリングの性能を向上させる多様な類似度尺度を効果的に生成できるか?
  • RQ2尺度と部分空間の両方における多様性の統合的活用が、クラスタリング性能にどの程度寄与するか?
  • RQ3エントロピーに基づく多様性測定が、基本クラスタリングの選択と組み合わせを効果的に導くことができるか?
  • RQ4異なるコンセンサス関数は、マルチ多様性の尺度-部分空間ペアと組み合わせた際に、どのように性能を示すか?
  • RQ5提案フレームワークは、多様な高次元データセットにおいて一貫して最先端手法を上回るか?

主な発見

  • 提案手法は、18個のがん遺伝子発現データと12個の画像/音声データを含む30個の高次元データセットにおいて、優れたクラスタリング性能を達成した。
  • ランダム化された尺度とランダム部分空間の統合により、多様性とクラスタリング精度が顕著に向上した。
  • エントロピーに基づく多様性基準は、アンサンブル内のクラスタごとの多様性を効果的に捉え、活用できた。
  • 3種類のコンセンサス関数を提案フレームワークと組み合わせることで、ベースライン手法を一貫して上回る改善が得られた。
  • 本手法は、多様なデータタイプと高次元設定において、ロバストネスと一般化性能を示した。
  • ソースコードは公開されており、再現性とさらなる研究を可能にしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。