Skip to main content
QUICK REVIEW

[論文レビュー] Revisiting k-means: New Algorithms via Bayesian Nonparametrics

Brian Kulis, Michael I. Jordan|arXiv (Cornell University)|Nov 2, 2011
Bayesian Methods and Mixture Models参考文献 28被引用数 265
ひとこと要約

本稿では、ベイジアン非パラメトリックモデル——特にディリクレ過程および階層的ディリクレ過程混合モデル——に基づいて導出されたスケーラブルなハードクラスタリングアルゴリズム、DP-meansおよびハードガウス型HDPを提案する。各成分の共分散をゼロに近づける極限をとることで、これらのモデルにおけるギブスサンプラーは、クラスタ数をペナルティ項によって自動的に決定するk-meansに類似したアルゴリズムに収束する。このアルゴリズムは局所最適解への単調収束を達成するとともに、非パラメトリックベイズクラスタリングの柔軟性を維持する。

ABSTRACT

Bayesian models offer great flexibility for clustering applications---Bayesian nonparametrics can be used for modeling infinite mixtures, and hierarchical Bayesian models can be utilized for sharing clusters across multiple data sets. For the most part, such flexibility is lacking in classical clustering methods such as k-means. In this paper, we revisit the k-means clustering algorithm from a Bayesian nonparametric viewpoint. Inspired by the asymptotic connection between k-means and mixtures of Gaussians, we show that a Gibbs sampling algorithm for the Dirichlet process mixture approaches a hard clustering algorithm in the limit, and further that the resulting algorithm monotonically minimizes an elegant underlying k-means-like clustering objective that includes a penalty for the number of clusters. We generalize this analysis to the case of clustering multiple data sets through a similar asymptotic argument with the hierarchical Dirichlet process. We also discuss further extensions that highlight the benefits of our analysis: i) a spectral relaxation involving thresholded eigenvectors, and ii) a normalized cut graph clustering algorithm that does not fix the number of clusters in the graph.

研究の動機と目的

  • k-meansのスケーラビリティとベイジアン非パラメトリッククラスタリングの柔軟性の間のギャップを埋めるために、ディリクレ過程混合モデルからハードクラスタリングアルゴリズムを導出すること。
  • 階層的ディリクレ過程を用いて複数のデータセットにこのフレームワークを拡張し、データセット間で共有されるクラスタ構造を可能にするとともに、自動的なクラスタ数選択を維持すること。
  • サンプリングに基づく推論の代替手段として実用的でスケーラブルな手法を提供し、ベイジアンモデリングの理論的利点を維持すること。
  • 導出されたアルゴリズムがk-meansに類似した目的関数を最適化し、クラスタ数に対するペナルティ項を含むことで、単調収束を保証することを示すこと。
  • スペクトル的およびグラフベースの緩和手法を提供し、標準的なk-meansを超えた一般化を図り、事前に固定されたクラスタ数を持たないノーマライズドカットアルゴリズムを含むこと。

提案手法

  • 各成分の共分散がゼロに近づく極限をとることで、ディリクレ過程混合モデルからハードクラスタリングアルゴリズムを導出し、ギブスサンプラーをクラスタ数を自動的に生成するk-meansに類似したアルゴリズムに変換する。
  • クラスタ数に対するペナルティ項を含むk-meansに類似した目的関数を定式化し、アルゴリズムが単調に最小化することを保証する。
  • 階層的ディリクレ過程(HDP)を用いて複数のデータセットにフレームワークを拡張し、各データセットの局所クラスタと複数データセット間で共有されるグローバルクラスタを学習するモデルを構築する。
  • DPに基づく目的関数のスペクトル的緩和を提案し、上位k個の固有ベクトルではなく、しきい値を適用した固有ベクトルを用いることで、ベイジアン非パラメトリクスとスペクトルクラスタリングの新たな接点を示す。
  • 同じペナルティ付き目的関数に基づく、事前にクラスタ数を固定しないノーマライズドカットベースのグラフクラスタリングアルゴリズムを設計する。
  • 合成データおよび実世界のデータに対してDP-meansおよびハードガウス型HDPを実装・評価し、k-means、ギブスサンプリング、およびベースラインクラスタリング手法と比較する。

実験結果

リサーチクエスチョン

  • RQ1ディリクレ過程混合モデルのようなベイジアン非パラメトリックモデルを用いて、クラスタ数を自動的に決定するスケーラブルなハードクラスタリングアルゴリズムを導出できるか?
  • RQ2成分の共分散がゼロに近づく極限において、ディリクル過程混合モデルにおけるギブスサンプラーの漸近的挙動は、k-meansアルゴリズムとどのように関係するか?
  • RQ3階層的ディリクル過程を用いて、複数のデータセットに共通するグローバルクラスタと各データセット固有のローカルクラスタを持つk-meansに類似したアルゴリズムを導出できるか?
  • RQ4導出されたアルゴリズムが最適化するペナルティ付きk-means目的関数と、元のベイジアン非パラメトリックモデルとの関係は何か?
  • RQ5導出された目的関数のスペクトル的およびグラフベースの緩和は、事前にクラスタ数を固定しない新しいクラスタリングアルゴリズムを導くことができるか?

主な発見

  • DP-meansは、UCIデータセットの8つ中5つでk-meansよりも高い正規化相互情報量(NMI)を達成し、4つ中4つでギブスサンプリングを上回った。収束がはるかに速いため、同等またはそれ以上の精度を達成している。
  • 312,320枚の画像パッチからなるPhoto Tourismデータセットでは、DP-meansは63イテレーションで収束したが、ギブスサンプリングは実行可能時間内に収束しなかった。これにより、提案手法のスケーラビリティの優位性が明確になった。
  • 合成された複数データセット問題において、ハードガウス型HDPは平均NMIが0.81を達成し、全データセットに対するk-means(0.77)およびDP-means(0.73)を大きく上回り、クラスタ共有なしの個別クラスタリングよりも優れた性能を示した。
  • ハードガウス型HDPは平均して17のグローバルクラスタと1データセットあたり4.4のローカルクラスタを生成し、データセット間での効果的なクラスタ共有と高いクラスタリング精度を両立した。
  • DPに基づく目的関数のスペクトル的緩和では、上位k個の固有ベクトルではなく、しきい値を適用した固有ベクトルを用いることで、ベイジアン非パラメトリクスとスペクトルクラスタリングの新たな接点が明らかになった。
  • ペナルティ付き目的関数に基づくノーマライズドカットベースのグラフクラスタリングアルゴリズムは、事前にクラスタ数を固定しない。これにより、標準的なノーマライズドカットとは対照的に柔軟な代替手法が提供された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。