Skip to main content
QUICK REVIEW

[论文解读] k-Means Clustering Is Matrix Factorization

Christian Bauckhage|arXiv (Cornell University)|Dec 23, 2015
Face and Expression Recognition参考文献 6被引用 42
一句话总结

本文证明了传统k-means聚类在数学上等价于一个低秩矩阵分解问题,其中k-means的目标函数被证明等于数据矩阵X与其低秩近似XZ^T(ZZ^T)^{-1}之间差值的Frobenius范数。其主要贡献在于通过严格推导证明了k-means最小化问题等价于具有二值分配指示符和质心约束的约束矩阵分解。

ABSTRACT

We show that the objective function of conventional k-means clustering can be expressed as the Frobenius norm of the difference of a data matrix and a low rank approximation of that data matrix. In short, we show that k-means clustering is a matrix factorization problem. These notes are meant as a reference and intended to provide a guided tour towards a result that is often mentioned but seldom made explicit in the literature.

研究动机与目标

  • 正式建立k-means聚类与矩阵分解之间的等价性,这一关系虽常被引用但极少有详细推导。
  • 通过将k-means的目标函数以矩阵形式表达,阐明其数学基础。
  • 证明k-means目标函数可重写为涉及数据与聚类分配的矩阵差的平方Frobenius范数。
  • 表明k-means中的最优聚类质心恰好对应于具有二值指示符约束的矩阵分解问题的解。
  • 提供一个自包含的、逐步推导的过程,使k-means的矩阵分解解释清晰明确,便于研究人员和学生理解。

提出的方法

  • 本文将k-means目标函数表示为对数据点和聚类的求和形式:∑ᵢ∑ⱼ zᵢⱼ‖xⱼ − μᵢ‖²。
  • 将其重写为平方Frobenius范数‖X − MZ‖²,其中X为数据矩阵,M为质心矩阵,Z为二值分配矩阵。
  • 通过展开两边并利用迹恒等式及指示矩阵Z的性质,证明k-means目标函数与矩阵分解形式的等价性。
  • 推导出质心μᵢ的闭式解μᵢ = (1/nᵢ)∑ₓⱼ∈Cᵢ xⱼ,表明M = XZ^T(ZZ^T)^{-1}为最优分解矩阵。
  • 利用迹的循环不变性及ZZ^T的对角结构,使展开中的迹项相互对应。
  • 确认M的解对应于聚类均值,从而验证了矩阵分解的解释。

实验结果

研究问题

  • RQ1k-means聚类目标函数能否通过标准矩阵范数表达为矩阵分解问题?
  • RQ2k-means目标函数与矩阵差的Frobenius范数之间的确切数学关系是什么?
  • RQ3二值指示矩阵Z在矩阵分解框架中如何实现聚类分配的约束?
  • RQ4质心矩阵M关于X和Z的闭式解是什么?它与聚类均值有何关系?
  • RQ5当最优求解时,k-means的矩阵分解公式是否能恢复标准k-means算法?

主要发现

  • k-means目标函数在数学上等价于平方Frobenius范数‖X − MZ‖²,其中M包含聚类质心,Z为二值分配矩阵。
  • 目标函数可重写为‖X − XZ^T(ZZ^T)^{-1}Z‖²,表明k-means是一种具有约束的低秩矩阵分解。
  • 最优质心矩阵M由M = XZ^T(ZZ^T)^{-1}给出,其恰好对应于每个聚类的均值。
  • 推导确认了Frobenius范数展开中的迹项与标准k-means目标函数逐项匹配。
  • 矩阵分解公式揭示,k-means最小化等价于在二值分配约束下,将数据投影到由聚类质心张成的低秩子空间上。
  • 该结果为将k-means理解为一种矩阵逼近形式提供了正式的代数基础,统一了聚类与低秩分解。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。