Skip to main content
QUICK REVIEW

[论文解读] Chamfer-Linkage for Hierarchical Agglomerative Clustering

Kishen N. Gowda, Willem Fletcher|arXiv (Cornell University)|Feb 11, 2026
Advanced Clustering Algorithms Research被引用 0
一句话总结

该论文为 HAC 引入 Chamfer 连接,给出 O(n^2) 时间算法,并在经验上证明其聚类质量优于经典连接,树状图更平衡。

ABSTRACT

Hierarchical Agglomerative Clustering (HAC) is a widely-used clustering method based on repeatedly merging the closest pair of clusters, where inter-cluster distances are determined by a linkage function. Unlike many clustering methods, HAC does not optimize a single explicit global objective; clustering quality is therefore primarily evaluated empirically, and the choice of linkage function plays a crucial role in practice. However, popular classical linkages, such as single-linkage, average-linkage and Ward's method show high variability across real-world datasets and do not consistently produce high-quality clusterings in practice. In this paper, we propose \emph{Chamfer-linkage}, a novel linkage function that measures the distance between clusters using the Chamfer distance, a popular notion of distance between point-clouds in machine learning and computer vision. We argue that Chamfer-linkage satisfies desirable concept representation properties that other popular measures struggle to satisfy. Theoretically, we show that Chamfer-linkage HAC can be implemented in $O(n^2)$ time, matching the efficiency of classical linkage functions. Experimentally, we find that Chamfer-linkage consistently yields higher-quality clusterings than classical linkages such as average-linkage and Ward's method across a diverse collection of datasets. Our results establish Chamfer-linkage as a practical drop-in replacement for classical linkage functions, broadening the toolkit for hierarchical clustering in both theory and practice.

研究动机与目标

  • 推动对比单连接/完全连接/平均/Ward 之外的更可靠的 HAC 连接需求,因为不同数据集具有较高的变异性。
  • 提出 Chamfer-linkage 作为一个概念- 表征感知、高效的 HAC 替代方案。
  • 给出 Chamfer-linkage HAC 的精确 O(n^2) 时间算法以及时空权衡。
  • 在多样化数据集上展示经验上的聚类质量提升和树状图平衡性。

提出的方法

  • 将 Chamfer 距离定义为 Ch(A,B)=sum_{a in A} min_{b in B} d(a,b)。
  • 在 HAC-NN 框架中嵌入基于 Chamfer 距离的连接,提供 O(n^2) 时间实现。
  • 证明 Chamfer-linkage HAC 的正确性并推导 O(n^2) 时间/空间(以及 O(n^2/t) 空间、O(n^2 t) 时间)的权衡。
  • 扩展到 Chamfer 变体(Ch_N、Ch_S、Ch_NS),给出相应的时间/空间影响。
  • 提供带 Python 绑定的快速 C++ 实现,并与经典连接进行对比。
(a) HAC Clustering.
(a) HAC Clustering.

实验结果

研究问题

  • RQ1Chamfer-linkage 是否在多样化的真实数据集上始终比经典连接产生更高质量的聚类?
  • RQ2Chamfer-linkage 是否能够以与经典 HAC 相同的渐近效率实现?
  • RQ3Chamfer 变体在质量、平衡性和计算资源方面是否存在权衡?
  • RQ4在实际中 Chamfer-linkage 的树高与基线相比如何?

主要发现

  • Chamfer-linkage(非对称、未归一化的 Ch)在 ARI 指标上对19个数据集持续优于经典连接,最高提升可达 57%,平均提升约 6%。
  • 没有一个经典基线表现始终可靠(Ward 在 ARI 上甚至可能比最佳方法差最多 29%)。
  • Chamfer-linkage 能生成平衡的树状图,树高与平均值和 Ward 方法相近。
  • 作者提供了优化的 C++ 实现,并显示在 fastcluster 和 scikit-learn 上的加速比为 5.75–9.28 倍,Chamfer-linkage 达到 O(n^2) 时间。
  • 一个时空权衡允许在任意 t ∈ [1,n] 时以 O(n^2/t) 空间换取 O(n^2 t) 时间。
  • Chamfer 变体(Ch_N、Ch_S、Ch_NS)表现多样,Ch 有时在某些数据集(如 emnist)实现显著的最佳情况增益,而在其他情况下则不那么稳定。
(b) Dendrogram.
(b) Dendrogram.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。