Skip to main content
QUICK REVIEW

[论文解读] The K-modes algorithm for clustering

Miguel Á. Carreira-Perpiñán, Weiran Wang|arXiv (Cornell University)|Apr 24, 2013
Advanced Clustering Algorithms Research参考文献 21被引用 22
一句话总结

本文提出 K-modes 算法,一种聚类方法,通过结合密度最大化(类似均值漂移)与聚类分配(类似 K-means),在数据中精确找出 K 个代表性且有效的模式(模态)。该方法即使在非凸聚类中也能生成可解释、抗噪声的质心,其质心有效性与鲁棒性优于 K-means 和均值漂移,同时保持计算效率。

ABSTRACT

Many clustering algorithms exist that estimate a cluster centroid, such as K-means, K-medoids or mean-shift, but no algorithm seems to exist that clusters data by returning exactly K meaningful modes. We propose a natural definition of a K-modes objective function by combining the notions of density and cluster assignment. The algorithm becomes K-means and K-medoids in the limit of very large and very small scales. Computationally, it is slightly slower than K-means but much faster than mean-shift or K-medoids. Unlike K-means, it is able to find centroids that are valid patterns, truly representative of a cluster, even with nonconvex clusters, and appears robust to outliers and misspecification of the scale and number of clusters.

研究动机与目标

  • 为解决缺乏一种能返回恰好 K 个有意义、有效模式(模态)作为质心的聚类算法的问题,特别是在非凸或流形结构数据中。
  • 克服 K-means 的局限性,即在非凸聚类中产生无效质心(如平均化噪声模式),以及均值漂移在高维空间中对带宽与聚类数量的混淆问题。
  • 开发一种方法,确保质心在聚类内部具有代表性,且在输入空间中为有效模式,即使聚类形状不规则或具有流形结构。
  • 提供一种计算效率高的替代方案,相较于均值漂移和 K-medoids,保持高质量质心,且无需质心必须为实际数据点。
  • 将聚类数量(K)与平滑程度(带宽)的角色解耦,实现对聚类数量与质心中噪声平均程度的独立控制。

提出的方法

  • 提出一种 K-modes 目标函数,结合 K-means 聚类分配与通过核密度估计(KDE)实现的密度最大化,使用带宽 σ 控制平滑程度。
  • 采用同伦算法,将带宽 σ 从大到小逐步减小,追踪模态演化过程,确保收敛至 K 个不同的模态。
  • 质心通过每个聚类中数据点的加权平均计算,使用核函数(如高斯核),权重取决于与当前模态估计的距离。
  • 当 σ 很大时,K-modes 退化为 K-means;当 σ 很小时,其行为趋近于 K-medoids,此时质心接近实际数据点。
  • 采用每聚类独立的局部带宽策略,实现自适应平滑,平衡噪声抑制与模式保真度。
  • 依赖类似 EM 的迭代更新机制:先将点分配给最近的模态,再将每个模态重新计算为分配点的核加权均值,确保收敛至局部最优解。

实验结果

研究问题

  • RQ1能否设计一种聚类算法,使其在非凸或流形结构数据中仍能返回恰好 K 个有效、可解释的模式(模态)作为质心?
  • RQ2如何将聚类数量(K)与平滑程度(带宽)的角色解耦,以提升与均值漂移和 K-means 相比的鲁棒性与可解释性?
  • RQ3将聚类分配与密度最大化相结合,是否能产生更具代表性且对异常值不敏感的质心,优于 K-means 或均值漂移?
  • RQ4该算法能否在保持 K-means 水平计算效率的同时,实现均值漂移的代表性与 K-medoids 的有效性?
  • RQ5在结果质心中,如何选择最优带宽策略以平衡噪声平均与模式保真度?

主要发现

  • K-modes 生成的质心为有效模式(如可识别的手写数字图像),即使在 K-means 因平均不同方向而失效的非凸聚类中亦然。
  • 该算法对异常值和参数误设具有鲁棒性,表现为在不同 K 和 σ 下质心行为稳定。
  • 在中等带宽下,K-modes 生成的质心能平均掉噪声与个体差异,产生比单个数据点更具典型性与代表性的模式。
  • 计算效率方面,K-modes 略慢于 K-means,但显著快于均值漂移,其复杂度与多次运行 K-means 相当。
  • 同伦算法实现了从粗粒度到细粒度聚类的平滑过渡,呈现了在平滑谱上的质心序列,适用于探索性数据分析。
  • K-modes 可扩展为使用局部带宽与非高斯核(如 Epanechnikov 核),未来实现中可能进一步提升速度与鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。