Skip to main content
QUICK REVIEW

[论文解读] Ward's Hierarchical Clustering Method: Clustering Criterion and Agglomerative Algorithm

Fionn Murtagh, Pierre Legendre|arXiv (Cornell University)|Nov 27, 2011
Advanced Clustering Algorithms Research参考文献 14被引用 1,316
一句话总结

本文通过区分两种变体——Ward1 与 Ward2,澄清了长期存在的 Ward 层次聚类方法实现中的混淆,二者在输入中使用平方距离或非平方距离上存在差异。研究表明,仅当使用原始差异性时,Ward2 才能正确最小化 Ward 准则;而 Ward1 则需要输入平方距离。当正确对齐时,两者产生的聚类拓扑结构完全相同,节点高度通过平方根变换相关联。其主要贡献在于为不同软件工具提供了统一的、一致的实现框架。

ABSTRACT

The Ward error sum of squares hierarchical clustering method has been very widely used since its first description by Ward in a 1963 publication. It has also been generalized in various ways. However there are different interpretations in the literature and there are different implementations of the Ward agglomerative algorithm in commonly used software systems, including differing expressions of the agglomerative criterion. Our survey work and case studies will be useful for all those involved in developing software for data analysis using Ward's hierarchical clustering method.

研究动机与目标

  • 解决文献和软件中关于 Ward 层次聚类方法正确实现的广泛混淆。
  • 识别并解释 Ward1 与 Ward2 实现之间的关键差异,特别是输入距离缩放方式与准则优化行为。
  • 证明仅当使用原始差异性时,Ward2 才能正确最小化 Ward 聚类准则;而 Ward1 需要输入平方距离。
  • 为软件开发者和用户提供指导,以实现在不同实现中的一致且正确的结果。
  • 强调区分聚类准则值(平方与非平方)的重要性,以准确解释树状图高度与相关性系数。

提出的方法

  • 本文分析了 Ward 方法的两种实现:Ward1 基于平方距离之和作为准则,Ward2 基于距离之和作为准则。
  • 推导了 Ward 方法的 Lance-Williams 更新公式,表明 Ward1 实现基于涉及平方距离的准则,而 Ward2 使用非平方形式。
  • 通过使用相同的输入差异性矩阵对比两种算法,证明仅当应用于原始距离时,Ward2 才能最小化 Ward 准则。
  • 研究显示,将 Ward1 应用于平方距离(D²)时,其产生的聚类拓扑结构与 Ward2 应用于原始距离(D)时完全相同,且节点高度满足平方根变换关系。
  • 本文通过案例研究和实验(例如实验1和实验2)说明了树状图输出在形态和数值上的差异。
  • 提供了方差分解(T = B + W)的形式化推导,并将其与 Ward 准则关联,阐明输入选择如何影响优化过程。

实验结果

研究问题

  • RQ1为何不同软件包在对相同输入数据应用 Ward 层次聚类时产生不同结果?
  • RQ2Ward 方法的正确输入格式(平方或非平方距离)是什么,才能使 Ward 聚类准则被正确最小化?
  • RQ3Ward1 与 Ward2 实现方式在算法结构和优化行为上存在哪些差异?
  • RQ4为何当输入正确对齐时,Ward1 准则值的平方根等价于 Ward2 的准则值?
  • RQ5软件开发者如何确保在不同平台和库中实现 Ward 方法时的一致性与正确性?

主要发现

  • 仅当使用原始差异性作为输入时,Ward2 实现才能正确最小化 Ward 聚类准则。
  • Ward1 实现需要输入平方距离(D²)才能产生与 Ward2 使用原始距离(D)时相同的聚类拓扑结构。
  • 当 Ward1 应用于 D² 且 Ward2 应用于 D 时,两者产生完全相同的聚类拓扑结构,且 Ward1 的节点高度等于 Ward2 节点高度的平方。
  • 对 Ward1 输出的节点高度取平方根,可得到与 Ward2 节点高度相同的值,从而可直接比较树状图层级。
  • 使用 Ward2 时,cophenetic 相关系数更具可解释性,因为其节点高度与输入差异性处于同一量纲。
  • R 语言中的约束聚类包 const.clust 提供了 Ward1 和 Ward2 两种选项,证实了区分这两种实现的实用价值。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。