[论文解读] Chamfer-Linkage for Hierarchical Agglomerative Clustering
该论文为 HAC 引入 Chamfer 连接,给出 O(n^2) 时间算法,并在经验上证明其聚类质量优于经典连接,树状图更平衡。
Hierarchical Agglomerative Clustering (HAC) is a widely-used clustering method based on repeatedly merging the closest pair of clusters, where inter-cluster distances are determined by a linkage function. Unlike many clustering methods, HAC does not optimize a single explicit global objective; clustering quality is therefore primarily evaluated empirically, and the choice of linkage function plays a crucial role in practice. However, popular classical linkages, such as single-linkage, average-linkage and Ward's method show high variability across real-world datasets and do not consistently produce high-quality clusterings in practice. In this paper, we propose \emph{Chamfer-linkage}, a novel linkage function that measures the distance between clusters using the Chamfer distance, a popular notion of distance between point-clouds in machine learning and computer vision. We argue that Chamfer-linkage satisfies desirable concept representation properties that other popular measures struggle to satisfy. Theoretically, we show that Chamfer-linkage HAC can be implemented in $O(n^2)$ time, matching the efficiency of classical linkage functions. Experimentally, we find that Chamfer-linkage consistently yields higher-quality clusterings than classical linkages such as average-linkage and Ward's method across a diverse collection of datasets. Our results establish Chamfer-linkage as a practical drop-in replacement for classical linkage functions, broadening the toolkit for hierarchical clustering in both theory and practice.
研究动机与目标
- 推动对比单连接/完全连接/平均/Ward 之外的更可靠的 HAC 连接需求,因为不同数据集具有较高的变异性。
- 提出 Chamfer-linkage 作为一个概念- 表征感知、高效的 HAC 替代方案。
- 给出 Chamfer-linkage HAC 的精确 O(n^2) 时间算法以及时空权衡。
- 在多样化数据集上展示经验上的聚类质量提升和树状图平衡性。
提出的方法
- 将 Chamfer 距离定义为 Ch(A,B)=sum_{a in A} min_{b in B} d(a,b)。
- 在 HAC-NN 框架中嵌入基于 Chamfer 距离的连接,提供 O(n^2) 时间实现。
- 证明 Chamfer-linkage HAC 的正确性并推导 O(n^2) 时间/空间(以及 O(n^2/t) 空间、O(n^2 t) 时间)的权衡。
- 扩展到 Chamfer 变体(Ch_N、Ch_S、Ch_NS),给出相应的时间/空间影响。
- 提供带 Python 绑定的快速 C++ 实现,并与经典连接进行对比。

实验结果
研究问题
- RQ1Chamfer-linkage 是否在多样化的真实数据集上始终比经典连接产生更高质量的聚类?
- RQ2Chamfer-linkage 是否能够以与经典 HAC 相同的渐近效率实现?
- RQ3Chamfer 变体在质量、平衡性和计算资源方面是否存在权衡?
- RQ4在实际中 Chamfer-linkage 的树高与基线相比如何?
主要发现
- Chamfer-linkage(非对称、未归一化的 Ch)在 ARI 指标上对19个数据集持续优于经典连接,最高提升可达 57%,平均提升约 6%。
- 没有一个经典基线表现始终可靠(Ward 在 ARI 上甚至可能比最佳方法差最多 29%)。
- Chamfer-linkage 能生成平衡的树状图,树高与平均值和 Ward 方法相近。
- 作者提供了优化的 C++ 实现,并显示在 fastcluster 和 scikit-learn 上的加速比为 5.75–9.28 倍,Chamfer-linkage 达到 O(n^2) 时间。
- 一个时空权衡允许在任意 t ∈ [1,n] 时以 O(n^2/t) 空间换取 O(n^2 t) 时间。
- Chamfer 变体(Ch_N、Ch_S、Ch_NS)表现多样,Ch 有时在某些数据集(如 emnist)实现显著的最佳情况增益,而在其他情况下则不那么稳定。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。