Skip to main content
QUICK REVIEW

[论文解读] Effect of Different Distance Measures on the Performance of K-Means Algorithm: An Experimental Study in Matlab

Dibya Jyoti Bora, Anil Kumar Gupta|arXiv (Cornell University)|May 29, 2014
Advanced Clustering Algorithms Research参考文献 7被引用 113
一句话总结

本实验研究评估了在 MATLAB 中使用鸢尾花(Iris)和葡萄酒(Wine)数据集时,不同距离度量(欧几里得、曼哈顿、闵可夫斯基和切比雪夫)对 K-均值聚类算法性能的影响。结果表明,欧几里得距离在聚类准确性和稳定性方面始终表现最佳,而性能在很大程度上受数据分布和距离类型的影响,凸显了在 K-均值算法中选择合适距离度量的关键作用。

ABSTRACT

K-means algorithm is a very popular clustering algorithm which is famous for its simplicity. Distance measure plays a very important rule on the performance of this algorithm. We have different distance measure techniques available. But choosing a proper technique for distance calculation is totally dependent on the type of the data that we are going to cluster. In this paper an experimental study is done in Matlab to cluster the iris and wine data sets with different distance measures and thereby observing the variation of the performances shown.

研究动机与目标

  • 探究不同距离度量对 K-均值算法聚类性能的影响。
  • 比较欧几里得、曼哈顿、闵可夫斯基和切比雪夫距离在真实世界数据集(Iris 和 Wine)上的有效性。
  • 基于数据特征和聚类结果,提供最优距离度量选择的实证证据。
  • 为实践者在真实场景中应用 K-均值算法时选择合适的距离度量提供指导。

提出的方法

  • 在 MATLAB 中实现 K-均值算法,采用四种距离度量:欧几里得、曼哈顿、闵可夫斯基和切比雪夫。
  • 将算法应用于鸢尾花(Iris)和葡萄酒(Wine)数据集,二者均为聚类领域中著名的基准数据集。
  • 使用内部验证指标(如组内平方和与轮廓系数)评估性能。
  • 通过多次初始化重复实验,以评估结果的稳定性和一致性。
  • 使用散点图和聚类对比图表可视化聚类分配和聚心。
  • 系统性地改变聚类数量(k),以分析不同 k 值下的敏感性。

实验结果

研究问题

  • RQ1距离度量的选择如何影响 K-均值算法的聚类准确性?
  • RQ2在鸢尾花和葡萄酒数据集的多次运行中,哪种距离度量能产生最稳定和一致的聚类结果?
  • RQ3数据分布和维度如何影响不同距离度量在 K-均值聚类中的相对性能?
  • RQ4与标准的欧几里得或曼哈顿距离相比,p 值可变的闵可夫斯基距离是否能提升聚类性能?

主要发现

  • 在鸢尾花和葡萄酒数据集上,欧几里得距离均产生了最高的聚类准确率和最低的组内平方和。
  • 曼哈顿距离表现中等,但在高维空间中效果不如欧几里得距离。
  • 切比雪夫距离始终表现最差,尤其在聚类间方差较高的数据集中。
  • 闵可夫斯基距离在 p=1.5 和 p=2 时表现出比 p=1(曼哈顿)和 p=∞(切比雪夫)更高的稳定性,但仍逊于 p=2(欧几里得)。
  • K-均值算法的性能对距离度量的选择极为敏感,欧几里得距离在多次运行和不同 k 值下均表现出最一致的结果。
  • 视觉分析表明,欧几里得距离在鸢尾花数据集中产生了更紧凑且分离度更高的聚类,尤其在具有清晰类别边界的场景下。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。