Skip to main content
QUICK REVIEW

[论文解读] A comparison of bandwidth selectors for mean shift clustering

José E. Chacón, Pablo Monfort|arXiv (Cornell University)|Oct 29, 2013
Advanced Clustering Algorithms Research被引用 8
一句话总结

本文评估了十种原本为密度梯度估计设计的自动带宽选择方法在均值漂移聚类中的应用,表明尽管没有一种方法在所有模型中始终优于其他方法,但CVU和PIU由于在各种密度结构下表现出均衡且可靠的表现,成为最稳健的选择。

ABSTRACT

We explore the performance of several automatic bandwidth selectors, originally designed for density gradient estimation, as data-based procedures for nonparametric, modal clustering. The key tool to obtain a clustering from density gradient estimators is the mean shift algorithm, which allows to obtain a partition not only of the data sample, but also of the whole space. The results of our simulation study suggest that most of the methods considered here, like cross validation and plug in bandwidth selectors, are useful for cluster analysis via the mean shift algorithm.

研究动机与目标

  • 评估原本为密度梯度估计设计的自动带宽选择方法在均值漂移聚类中的表现。
  • 确定哪些带宽选择方法能通过均值漂移算法产生最准确且最稳定的聚类划分。
  • 比较带约束与无约束带宽矩阵在聚类准确性和计算成本方面的表现。
  • 为模态聚类应用中的带宽选择提供实用建议。

提出的方法

  • 使用带宽矩阵H的核密度和梯度估计器来估计密度f及其梯度Df。
  • 利用归一化梯度Df/f应用均值漂移算法,通过yj+1 = Σ ωi,H(yj)Xi迭代更新聚类分配,其中权重ωi,H基于马氏距离计算。
  • 采用十种带宽选择方法:交叉验证(CV, CVU, CVD)、插值法(PI, PIU)、平滑交叉验证(SCV, SCVU)、迭代法(IT)以及两种参考规则(NR, AT)。
  • 通过距离测度和中位数误差指标,在五种密度模型(断裂圆环、眼睛、双和四弯月形、双峰/三峰混合)上评估性能。
  • 开展全面的模拟研究,比较不同密度配置下的聚类准确性和聚类数量保真度。
  • 分析无约束和对角带宽矩阵,以评估准确性和计算效率之间的权衡。

实验结果

研究问题

  • RQ1在不同密度形状下,哪种带宽选择方法能为均值漂移算法产生最准确的聚类划分?
  • RQ2在聚类性能和计算成本方面,带约束(标量)与无约束带宽矩阵相比如何?
  • RQ3为密度梯度估计设计的带宽选择方法能否有效应用于模态聚类任务?
  • RQ4为何某些方法在特定模型(如四弯月形或三峰混合模型)上失败,这对其基本假设意味着什么?
  • RQ5是否存在一种带宽选择方法可作为均值漂移聚类的通用解决方案?

主要发现

  • CVU和PIU带宽选择方法表现出最一致的性能,各自仅在一个五种密度模型中失败,因此是通用应用中最可靠的选择。
  • 四弯月形模型最具挑战性,PIU和CVU表现最佳,而NR和AT等其他方法未能正确捕捉聚类数量。
  • 交叉验证(CV)和插值法(PI)在正态混合模型中表现良好,但在四弯月形等复杂特征上表现不佳,常高估聚类数量。
  • 无约束带宽矩阵在聚类准确性上始终优于对角矩阵,尽管对角版本在计算效率上具有显著优势,且在部分情况下性能相近。
  • 没有一种带宽选择方法在所有模型中均表现更优,表明均值漂移聚类的带宽选择与密度梯度估计的带宽选择存在本质差异。
  • 本研究证实,在凸性递减核轮廓下,均值漂移算法具有递增性,确保沿序列的密度估计收敛。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。