QUICK REVIEW

[論文レビュー] Randomized Dimensionality Reduction for k-means Clustering

Christos Boutsidis, Anastasios Zouzias|arXiv (Cornell University)|Oct 13, 2011

Face and Expression Recognition参考文献 28被引用数 29

ひとこと要約

本稿では、k-meansクラスタリングにおける最初の理論的に保証された特徴選択手法を提示するとともに、ランダム射影と高速な近似SVDを用いた2つの改善された特徴抽出手法を提案する。提案されたランダム化アルゴリズムは、k-means目的関数に対して定数倍近似の保証を達成しつつ、計算コストと次元数を顕著に低減し、高次元データにおける効率的で正確なクラスタリングを可能にする。

ABSTRACT

We study the topic of dimensionality reduction for $k$-means clustering. Dimensionality reduction encompasses the union of two approaches: \emph{feature selection} and \emph{feature extraction}. A feature selection based algorithm for $k$-means clustering selects a small subset of the input features and then applies $k$-means clustering on the selected features. A feature extraction based algorithm for $k$-means clustering constructs a small set of new artificial features and then applies $k$-means clustering on the constructed features. Despite the significance of $k$-means clustering as well as the wealth of heuristic methods addressing it, provably accurate feature selection methods for $k$-means clustering are not known. On the other hand, two provably accurate feature extraction methods for $k$-means clustering are known in the literature; one is based on random projections and the other is based on the singular value decomposition (SVD). This paper makes further progress towards a better understanding of dimensionality reduction for $k$-means clustering. Namely, we present the first provably accurate feature selection method for $k$-means clustering and, in addition, we present two feature extraction methods. The first feature extraction method is based on random projections and it improves upon the existing results in terms of time complexity and number of features needed to be extracted. The second feature extraction method is based on fast approximate SVD factorizations and it also improves upon the existing results in terms of time complexity. The proposed algorithms are randomized and provide constant-factor approximation guarantees with respect to the optimal $k$-means objective value.

研究の動機と目的

k-meansクラスタリングにおける理論的根拠に基づいた特徴選択手法の欠如に起因し、これまでの手法はヒューリスティック的手法に限られていたことに対処する。
クラスタ構造を保ちながら計算複雑性を低減する、理論的に保証された次元削減技術の開発。
時間計算量と必要な特徴数の観点で、従来のランダム射影およびSVDに基づく特徴抽出手法を改善すること。
効率的なアルゴリズム設計のため、k-meansクラスタリングと低ランク行列近似との間の理論的関係を確立すること。
合成データおよび実世界のデータセットを用いた実験的検証を通じて、低次元化された表現が与えられた次元数で高い正確性と高速性を達成することを示すこと。

提案手法

k-means目的関数への寄与度に基づいて元の特徴のサブセットを選択するランダム化特徴選択手法を提案。近似保証を確保するためのサンプリング手法を用いる。
ランダム射影に基づく特徴抽出手法を導入。次元削減を実現しつつ、k-means目的関数が定数倍以内に保たれるようにし、従来手法よりも時間計算量が改善されている。
高速な近似SVDを用いてデータ行列の低ランク近似を計算する第二の特徴抽出手法を開発。これにより、計算がより高速になり、スケーラビリティが向上する。
k-meansクラスタリングと低ランク行列近似との間の理論的分析を活用し、性能保証が理論的に保証されたアルゴリズムの設計を可能にする。
正確な手法に比べて実行時間の改善を実現するため、必要な射影および低ランク要因をランダム化アルゴリズムで効率的に計算する。
2段階のプロセスを採用：まず特徴選択または特徴抽出による次元削減を行い、その後、低次元化されたデータ上で標準的なk-meansクラスタリングを実行する。

実験結果

リサーチクエスチョン

RQ1先行研究においてこのような手法が存在しなかったにもかかわらず、k-meansクラスタリングにおける理論的に保証された特徴選択手法を設計することは可能か？
RQ2ランダム射影による特徴抽出を、最適k-means目的関数に対する定数倍近似を維持しつつ、より効率的にすることは可能か？
RQ3高速な近似SVDを活用して、k-meansクラスタリングのためのより高速で理論的に保証された特徴抽出手法を設計することは可能か？
RQ4提案手法のランダム化次元削減技術が、既存手法と比較して目的関数値、実行時間、クラスタリング正確性の観点でどのように異なるか？
RQ5低次元表現が、理論的保証を伴って高次元データのクラスタ構造をどの程度正確に保持できるか？

主な発見

提案された特徴選択手法は、k-meansクラスタリングにおける最初の理論的に保証された手法であり、最適目的関数値に対して定数倍近似を保証する。
ランダム射影に基づく特徴抽出手法は、時間計算量を低減し、従来手法よりも必要な特徴数を減らす一方で、近似保証を維持している。
高速な近似SVDに基づく手法は、さらに時間計算量を改善し、大規模データセットへのスケーラビリティを向上させている。
合成データおよび実世界のデータセット（PIE, ORL, COIL20）を用いた実験では、20〜30次元程度の投影次元でほぼ最適な目的関数値が達成されている。
Laplacian Scoresを除き、大多数のケースで提案手法が優れた性能を示している。PIEおよびCOIL20データセットではLaplacian Scoresが優れた正確性を示したが、これはデータが十分に分離されていなかった可能性がある。
実行時間は次元数に比例して単調に増加しない。これは、次元削減後のk-meansの収束速度の変動に起因するが、評価の焦点ではなかった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。