Skip to main content
QUICK REVIEW

[论文解读] Stability of Density-Based Clustering

Alessandro Rinaldo, Aarti Singh|arXiv (Cornell University)|Nov 11, 2010
Advanced Clustering Algorithms Research参考文献 31被引用 52
一句话总结

本文基于核密度估计,提出并分析了两种不稳定性度量——用于密度水平集的Ξn(h)和用于聚类树的Γn(h),以评估基于密度的聚类对带宽选择的敏感性。研究建立了这些度量的理论界,表明Γn(h)比Ξn(h)更稳定且更易处理,并提出了一种基于总变差的带宽选择方法,确保在不同数据子样本中聚类结构的一致性。

ABSTRACT

High density clusters can be characterized by the connected components of a level set <em>L(λ) = {x: p(x)&gt;λ}</em> of the underlying probability density function <em>p</em> generating the data, at some appropriate level <em>λ ≥ 0</em>. The complete hierarchical clustering can be characterized by a cluster tree <em>T= ∪<sub>λ</sub>L(λ)</em>. In this paper, we study the behavior of a density level set estimate <em>L̂(λ)</em> and cluster tree estimate <em>T̂</em> based on a kernel density estimator with kernel bandwidth <em>h</em>. We define two notions of instability to measure the variability of <em>L̂(λ)</em> and <em>T̂</em> as a function of <em>h</em>, and investigate the theoretical properties of these instability measures.

研究动机与目标

  • 将基于密度的聚类不稳定性形式化为核带宽h的函数。
  • 在密度的正则性条件下,为不稳定性度量Ξn(h)和Γn(h)建立理论界。
  • 利用总变差稳定性提出一种构造性的带宽选择程序。
  • 解释为何在不同带宽下Γn(h)比Ξn(h)更简单且更稳定这一经验观察。
  • 在高密度聚类检测中,弥合理论稳定性与实际聚类参数选择之间的差距。

提出的方法

  • 使用带宽h的核密度估计定义水平集估计量bL(λ)和聚类树估计量bT。
  • 将Ξn(h)定义为从两个独立数据子样本中估计的水平集之间的期望对称差。
  • 提出Γn(h)作为基于密度估计之间总变差距离的全局不稳定性度量。
  • 利用Bernstein不等式和经验过程理论推导Ξn(h)的集中不等式。
  • 在Lipschitz连续性和局部密度正则性假设(A1, A2)下,建立Ξn(h)和Γn(h)的界。
  • 利用Berry-Esséen界和Donsker类性质推导不稳定性度量的渐近行为。

实验结果

研究问题

  • RQ1密度基水平集的不稳定性如何随核带宽h变化?
  • RQ2为何全局不稳定性度量Γn(h)比局部度量Ξn(h)更简单且更稳定?
  • RQ3基于总变差的不稳定性能否导出一种聚类的构造性带宽选择规则?
  • RQ4在核密度估计下,聚类树估计的稳定性可提供哪些理论保证?
  • RQ5在不同密度正则性条件下,不稳定性度量的行为如何?

主要发现

  • Ξn(h)在不同带宽下表现出复杂且非单调的行为,解释了其在实践中不稳定的缘由。
  • Γn(h)显著比Ξn(h)更平滑且更可预测,因此适用于带宽选择。
  • 理论界表明,在满足正则性条件时,Ξn(h)和Γn(h)均随n → ∞和h → 0收敛于零。
  • Γn(h)受密度估计误差的L∞-范数有界,从而可通过经验过程理论获得集中界。
  • 在A1和A2条件下,Ξn(h)被界为P(Uh,2˜ϵ,α)Ah,ϵ,α + C(h,ϵ,n),并能对误差项进行显式控制。
  • 基于总变差的不稳定性度量导出了一种带宽选择规则,可确保在不同数据子样本中聚类结构的稳定性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。