Skip to main content
QUICK REVIEW

[論文レビュー] k-Means Clustering Is Matrix Factorization

Christian Bauckhage|arXiv (Cornell University)|Dec 23, 2015
Face and Expression Recognition参考文献 6被引用数 42
ひとこと要約

この論文は、従来のk-meansクラスタリングが、低ランク行列分解問題と数学的に同等であることを確立している。k-meansの目的関数が、データ行列Xとその低ランク近似XZ^T(ZZ^T)^{-1}Zとの差のフロベニウスノルムに等しいことが示されている。主な貢献は、k-meansの最小化が、二値割り当てインジケータと重心制約を伴う制約付き行列分解に等価であることを厳密に導出したことである。

ABSTRACT

We show that the objective function of conventional k-means clustering can be expressed as the Frobenius norm of the difference of a data matrix and a low rank approximation of that data matrix. In short, we show that k-means clustering is a matrix factorization problem. These notes are meant as a reference and intended to provide a guided tour towards a result that is often mentioned but seldom made explicit in the literature.

研究の動機と目的

  • k-meansクラスタリングと行列分解の間の同等性を形式的に確立すること。これはしばしば引用されるが、詳細な導出がほとんどなされない関係である。
  • k-meansの目的関数を行列形式で表現することで、その数学的基盤を明確にすること。
  • k-meansの目的関数が、データとクラスタ割り当てを含む行列差の二乗フロベニウスノルムとして再書き換え可能であることを示すこと。
  • k-meansにおける最適なクラスタ重心が、二値インジケータ制約を伴う行列分解問題の解に正確に対応することを示すこと。
  • k-meansの行列分解解釈を明確かつアクセス可能な形で、研究者や学生が自立的かつ段階的に理解できるように、完全な導出を提供すること。

提案手法

  • 論文は、k-meansの目的関数をデータポイントとクラスタの和として表現する:∑ᵢ∑ⱼ zᵢⱼ‖xⱼ − μᵢ‖²。
  • この和を、X(データ行列)、M(重心行列)、Z(二値割り当て行列)を用いた二乗フロベニウスノルム‖X − MZ‖²として再定式化する。
  • 両辺を展開し、トレースの恒等式とインジケータ行列Zの性質を用いて、k-means目的関数と行列分解形式の同等性を証明する。
  • 重心μᵢの閉形式解μᵢ = (1/nᵢ)∑ₓⱼ∈Cᵢ xⱼを導出し、M = XZ^T(ZZ^T)^{-1}が最適な因子化行列であることを示す。
  • トレースの巡回不変性とZZ^Tの対角構造を活用して、展開におけるトレース項を一致させる。
  • Mの解がクラスタ平均に正確に対応することを確認し、行列分解解釈の妥当性を裏付ける。

実験結果

リサーチクエスチョン

  • RQ1k-meansクラスタリングの目的関数は、標準的な行列ノルムを用いて行列分解問題として表現可能か?
  • RQ2k-means目的関数と行列差のフロベニウスノルムの間の明確な数学的関係は何か?
  • RQ3二値インジケータ行列Zは、行列分解フレームワーク内でどのようにクラスタ割り当てを強制するか?
  • RQ4XとZを用いて重心行列Mの閉形式解は何か?また、それはクラスタ平均とどのように関係するか?
  • RQ5k-meansの行列分解定式化は、最適に解かれた場合に、標準的なk-meansアルゴリズムを回復するか?

主な発見

  • k-means目的関数は、クラスタ重心を含む行列Mと二値割り当て行列Zを用いた、二乗フロベニウスノルム‖X − MZ‖²と数学的に同等である。
  • 目的関数は‖X − XZ^T(ZZ^T)^{-1}Z‖²として再書き換え可能であり、k-meansが制約付き低ランク行列分解であることが示された。
  • 最適な重心行列MはM = XZ^T(ZZ^T)^{-1}として与えられ、これは各クラスタの平均に正確に対応する。
  • フロベニウスノルムの展開におけるトレース項が、標準的なk-means目的関数の項と一対一で一致することが確認された。
  • 行列分解定式化により、k-meansの最小化が、二値割り当て制約の下でクラスタ重心が張る低ランク部分空間へのデータの射影であることが明らかになった。
  • この結果により、k-meansが行列近似の一形態として理解されるための形式的な代数的基盤が提供され、クラスタリングと低ランク分解の統合が実現された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。