Skip to main content
QUICK REVIEW

[論文レビュー] Ward's Hierarchical Clustering Method: Clustering Criterion and Agglomerative Algorithm

Fionn Murtagh, Pierre Legendre|arXiv (Cornell University)|Nov 27, 2011
Advanced Clustering Algorithms Research参考文献 14被引用数 1,316
ひとこと要約

本稿は、Wardの階層的クラスタリング手法の実装に関する長年の混乱を解消し、二つのバリエーション—Ward1とWard2—を区別することで、入力に二乗距離か非二乗距離を使用するかの違いを明らかにする。Ward2は原始的な非類似度を用いた場合にのみWard基準を最小化するが、Ward1は二乗距離を必要とする。適切に整合させた場合、両者は同一のクラスタリングトポロジーを生成し、ノードの高さは平方根変換によって関連づけられる。主な貢献は、ソフトウェアツール間で一貫した実装を可能にする統一されたフレームワークの提供である。

ABSTRACT

The Ward error sum of squares hierarchical clustering method has been very widely used since its first description by Ward in a 1963 publication. It has also been generalized in various ways. However there are different interpretations in the literature and there are different implementations of the Ward agglomerative algorithm in commonly used software systems, including differing expressions of the agglomerative criterion. Our survey work and case studies will be useful for all those involved in developing software for data analysis using Ward's hierarchical clustering method.

研究の動機と目的

  • Wardの階層的クラスタリング手法の正しい実装について、文献およびソフトウェアにおいて広く見られる混乱を解消すること。
  • Ward1とWard2の実装の間で、特に入力距離のスケーリングと基準の最適化に関する、重要な差異を特定し説明すること。
  • 原始的な非類似度を用いた場合にのみWard2がWardクラスタリング基準を正しく最小化することを示すこと。一方、Ward1は二乗距離を必要とする。
  • ソフトウェア開発者およびユーザーが、異なる実装間で一貫性があり正しい結果を得るためのガイドラインを提供すること。
  • ダンドグラムの高さや共変性相関の正確な解釈のため、クラスタリング基準値(二乗対非二乗)を区別することの重要性を強調すること。

提案手法

  • 本稿は、Ward1(二乗距離の和を基準とする)とWard2(距離の和を基準とする)の二つのWard法の実装を分析する。
  • Lance-Williamsの更新式を導出し、Ward1の実装が二乗距離を含む基準に基づいているのに対し、Ward2は非二乗形を用いることを示す。
  • 同一の入力非類似度行列を用いて二つのアルゴリズムを比較し、原始的な距離を用いた場合にのみWard2がWard基準を最小化することを実証する。
  • Ward1に二乗距離(D²)を入力し、Ward2に原始的な距離(D)を入力した場合、両者とも同一のクラスタリングトポロジーを生成し、ノードの高さは平方根変換によって関連づけられることを示す。
  • ケーススタディおよび実験(例:実験1および実験2)を用いて、ダンドグラム出力の形態的および数値的差異を説明する。
  • 分散分解(T = B + W)の形式的導出を提供し、これとWard基準を結びつけ、入力の選択が最適化に与える影響を示す。

実験結果

リサーチクエスチョン

  • RQ1同じ入力データに対して、異なるソフトウェアパッケージがWardの階層的クラスタリングを適用した際に、なぜ異なる結果を生じるのか?
  • RQ2Wardクラスタリング基準を最小化するための正しい入力形式(二乗距離か非二乗距離か)は何か?
  • RQ3Ward1とWard2の実装は、アルゴリズム的構造と最適化行動においてどのように異なるのか?
  • RQ4入力が適切に整合された場合、なぜWard1の基準値の平方根がWard2の基準値に等しくなるのか?
  • RQ5ソフトウェア開発者は、異なるプラットフォームやライブラリ間でWard法の実装を一貫性と正確性を保って行うにはどうすればよいか?

主な発見

  • 原始的な非類似度を入力として用いた場合、Ward2の実装のみがWardクラスタリング基準を正しく最小化する。
  • Ward1の実装は、同じクラスタリングトポロジーをWard2が原始的な距離(D)を入力として得るのと同じように得るためには、二乗距離(D²)を入力として必要とする。
  • Ward1にD²を、Ward2にDを入力した場合、両者とも同一のクラスタリングトポロジーを生成し、Ward1のノード高さはWard2のノード高さの二乗に等しい。
  • Ward1の出力ノード高さの平方根を取ると、Ward2のノード高さと同一の値が得られ、ダンドグラムのレベルを直接比較可能になる。
  • Ward2を用いることで、ノード高さが入力非類似度と同じスケールにあるため、共変性相関がより直接的に解釈可能になる。
  • Rの制約付きクラスタリングパッケージ const.clust はWard1およびWard2の両方のオプションを提供しており、二つの実装を区別することの実用的意義を裏付けている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。