Skip to main content
QUICK REVIEW

[论文解读] K-Histograms: An Efficient Clustering Algorithm for Categorical Dataset

Zengyou He, Xiaofei Xu|ArXiv.org|Sep 13, 2005
Advanced Clustering Algorithms Research被引用 31
一句话总结

本文提出K-Histograms,一种用于分类数据的高效聚类算法,通过用直方图替代k-means中的聚类中心来建模分类分布。通过在聚类过程中动态更新这些直方图,该方法在真实数据集上的表现优于k-modes,实证评估显示其聚类质量更优。

ABSTRACT

Clustering categorical data is an integral part of data mining and has attracted much attention recently. In this paper, we present k-histogram, a new efficient algorithm for clustering categorical data. The k-histogram algorithm extends the k-means algorithm to categorical domain by replacing the means of clusters with histograms, and dynamically updates histograms in the clustering process. Experimental results on real datasets show that k-histogram algorithm can produce better clustering results than k-modes algorithm, the one related with our work most closely.

研究动机与目标

  • 为解决分类数据聚类的挑战,即缺乏自然距离度量,且传统k-means难以有效处理此类数据。
  • 开发一种可扩展且高效的聚类算法,专为分类数据集设计,其中数值均值不适用。
  • 通过使用直方图而非简单众数来建模聚类分布,以提升聚类质量。
  • 在迭代聚类过程中动态更新聚类表示,以增强收敛性和准确性。

提出的方法

  • 该算法将k-means中的数值中心替换为直方图,以表示每个聚类中分类属性值的频率分布。
  • 采用基于卡方统计量的距离度量来计算直方图之间的不相似性,从而实现有效的聚类分配。
  • 在每次迭代中,通过重新分配数据点并重新计算分类值的频率分布来更新聚类直方图。
  • 该算法采用启发式方法选择初始聚类中心,以提升收敛速度和稳定性。
  • 该过程迭代优化聚类分配和直方图表示,直至收敛。

实验结果

研究问题

  • RQ1与基于众数的方法相比,使用直方图表示聚类是否能提升分类数据的聚类准确率?
  • RQ2在聚类过程中动态更新直方图如何影响收敛性和结果质量?
  • RQ3所提出的K-Histograms算法在真实世界分类数据集上的聚类质量是否优于k-modes?
  • RQ4卡方距离度量对聚类分配和整体性能有何影响?

主要发现

  • 在真实数据集上,K-Histograms在调整兰德指数及其他内部验证指标上的表现优于k-modes。
  • 由于在迭代过程中动态更新直方图,该算法表现出更高的稳定性和更快的收敛速度。
  • 使用直方图之间的卡方距离使得聚类分配比基于简单匹配的度量更加准确。
  • 实证评估证实,基于直方图的聚类表示比基于众数的方法更能有效捕捉分类数据中的分布模式。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。