Skip to main content
QUICK REVIEW

[論文レビュー] Chamfer-Linkage for Hierarchical Agglomerative Clustering

Kishen N. Gowda, Willem Fletcher|arXiv (Cornell University)|Feb 11, 2026
Advanced Clustering Algorithms Research被引用数 0
ひとこと要約

要旨: 本論文は HAC の Chamfer-linkage を提案し、O(n^2) 時間アルゴリズムを示し、従来のリンクに比べてクラスタリング品質と樹形図のバランスが優れていることを実証的に示しています。

ABSTRACT

Hierarchical Agglomerative Clustering (HAC) is a widely-used clustering method based on repeatedly merging the closest pair of clusters, where inter-cluster distances are determined by a linkage function. Unlike many clustering methods, HAC does not optimize a single explicit global objective; clustering quality is therefore primarily evaluated empirically, and the choice of linkage function plays a crucial role in practice. However, popular classical linkages, such as single-linkage, average-linkage and Ward's method show high variability across real-world datasets and do not consistently produce high-quality clusterings in practice. In this paper, we propose \emph{Chamfer-linkage}, a novel linkage function that measures the distance between clusters using the Chamfer distance, a popular notion of distance between point-clouds in machine learning and computer vision. We argue that Chamfer-linkage satisfies desirable concept representation properties that other popular measures struggle to satisfy. Theoretically, we show that Chamfer-linkage HAC can be implemented in $O(n^2)$ time, matching the efficiency of classical linkage functions. Experimentally, we find that Chamfer-linkage consistently yields higher-quality clusterings than classical linkages such as average-linkage and Ward's method across a diverse collection of datasets. Our results establish Chamfer-linkage as a practical drop-in replacement for classical linkage functions, broadening the toolkit for hierarchical clustering in both theory and practice.

研究の動機と目的

  • 単純/完全/平均/Ward 以外の HAC リンクの信頼性不足がデータセット間で大きく変動することを動機づける。
  • Chamfer-linkage を概念表現を意識した、HAC の効率的な代替として提案する。
  • Chamfer-linkage HAC の正確な O(n^2)-時間アルゴリズムと空間-時間のトレードオフを提供する。
  • 多様なデータセットにわたり経験的なクラスタリング品質の向上と balanced な樹形図を示す。

提案手法

  • Chamfer 距離を Ch(A,B)=∑_{a∈A} min_{b∈B} d(a,b) と定義する。
  • Chamfer 距離に基づくリンクを HAC-NN フレームワークに組み込み、O(n^2) 時間実装を行う。
  • Chamfer-linkage HAC の正しさを証明し、O(n^2) 時間/空間のトレードオフ(および O(n^2/t) 空間、O(n^2 t) 時間)を導出する。
  • Chamfer バリアント(Ch_N, Ch_S, Ch_NS)へ拡張し、それぞれの時間/空間影響を示す。
  • Python バインディング付きの高速な C++ 実装を提供し、古典的リンクと比較する。
(a) HAC Clustering.
(a) HAC Clustering.

実験結果

リサーチクエスチョン

  • RQ1Chamfer-linkage は多様な実データセットで古典的リンクより一貫して高品質なクラスタリングを生むか。
  • RQ2Chamfer-linkage を古典的 HAC と同じ漸近効率で実装できるか。
  • RQ3Chamfer バリアントは品質・バランス・計算資源のトレードオフを提供するか。
  • RQ4Chamfer-linkage の樹形図の高さは実際の基準と比較してどうか。

主な発見

  • Chamfer-linkage(非対称・非正規化の Ch) は ARI において 19 データセットで古典的リンクを一貫して上回り、最大 57% の改善と平均 6% の利益を示す。
  • 古典的なベースラインは一貫して信頼できない(Ward がベスト法に比べ ARI で最大 29% 低い場合がある)。
  • Chamfer-linkage は高さが低く、平均および Ward の方法と同等程度のバランスの取れた樹形図を生む。
  • 著者は最適化された C++ 実装を提供し、fastcluster および scikit-learn に対して 5.75–9.28 倍の速度アップを示し、Chamfer-linkage は O(n^2) 時間と一致。
  • 空間-時間のトレードオフにより、任意の t ∈ [1,n] に対して O(n^2/t) 空間、O(n^2 t) 時間が可能。
  • Chamfer バリアント(Ch_N, Ch_S, Ch_NS)は多様な性能を示し、時には emnist などで最良ケースの大きな利得を達成する一方、他のケースでは一貫性が低い。
(b) Dendrogram.
(b) Dendrogram.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。