Skip to main content
QUICK REVIEW

[論文レビュー] Center-based Clustering under Perturbation Stability

Pranjal Awasthi, Avrim Blum|arXiv (Cornell University)|Sep 18, 2010
Facility Location and Emergency Management参考文献 14被引用数 3
ひとこと要約

本稿では、摂動安定性の下で中心に基づくクラスタリングの最適解を求める多項式時間アルゴリズムを提示する。有限距離空間では3-摂動安定性、一般距離空間では2+√3-摂動安定性があれば、正確な回復が可能であることが示された。本手法は、単一連結階層的クラスタリングと動的計画法を組み合わせ、得られた階層的木構造(デンドログラム)内から最適なk-クラスタリングを特定する。このように、やや安定性の高い条件下でも、正確な解が効率的に得られることを証明した。

ABSTRACT

Clustering under most popular objective functions is NP-hard, even to approximate well, and so unlikely to be efficiently solvable in the worst case. Recently, Bilu and Linial \cite{Bilu09} suggested an approach aimed at bypassing this computational barrier by using properties of instances one might hope to hold in practice. In particular, they argue that instances in practice should be stable to small perturbations in the metric space and give an efficient algorithm for clustering instances of the Max-Cut problem that are stable to perturbations of size $O(n^{1/2})$. In addition, they conjecture that instances stable to as little as O(1) perturbations should be solvable in polynomial time. In this paper we prove that this conjecture is true for any center-based clustering objective (such as $k$-median, $k$-means, and $k$-center). Specifically, we show we can efficiently find the optimal clustering assuming only stability to factor-3 perturbations of the underlying metric in spaces without Steiner points, and stability to factor $2+\sqrt{3}$ perturbations for general metrics. In particular, we show for such instances that the popular Single-Linkage algorithm combined with dynamic programming will find the optimal clustering. We also present NP-hardness results under a weaker but related condition.

研究の動機と目的

  • 最悪ケース条件下での中心に基づくクラスタリングの計算困難性に対処するため、現実的で安定性の仮定を導入すること。
  • 特に、小さな乗法的距離の摂動に対して安定である「摂動安定性」が、多項式時間の正確なアルゴリズムを可能にするかどうかを調査すること。
  • k-メディアンやk-平均といった分離可能な中心に基づく目的関数に対して、摂動安定性の係数α ≥ 3(有限距離空間)またはα ≥ 2+√3(一般距離空間)が、効率的な正確なクラスタリングを保証することを証明すること。
  • 一般距離空間下でα < 3の場合にk-メディアン問題がNP困難であることを示し、3の摂動閾値がタイトであることを確立すること。
  • 標準的な単一連結法(kクラスタで早期終了)が安定なインスタンスでは失敗することを示し、正しく動作させるには完全な階層的クラスタリングと動的計画法が必要であることを示すこと。

提案手法

  • すべての点が1つのクラスタに結合するまで単一連結クラスタリングを実行し、完全なデンドログラム(階層的クラスタリング木)を構築する。
  • 動的計画法を用いて、デンドログラム内から最適なk-クラスタリングを特定する。左部分木と右部分木の最適解を再帰的に組み合わせる。
  • 最適なk-刈込(pruning)を、左部分木にk′個、右部分木にk−k′個のクラスタがある場合のスコアの合計(またはk-センターの場合は最大)の最小値として定義する。
  • 摂動安定性の性質を活用し、真の最適クラスタリングがデンドログラム内での有効な刈込として現れることを保証する。
  • Balcanら(2010)の結果を用いて、動的計画法の出力が実際にグローバル最適なクラスタリングであることを証明する。
  • 安定なインスタンスの幾何的構造を分析し、中心への近接性が摂動に対して最適クラスタリングが保持されることを示す。

実験結果

リサーチクエスチョン

  • RQ1n1/2未満の定数係数αにおける摂動安定性が、k-メディアンやk-平均といった中心に基づく目的関数に対して、多項式時間の正確なクラスタリングを可能にするか?
  • RQ2α-摂動安定性が中心に基づく問題における正確なクラスタリングのための効率的アルゴリズムの存在を保証するような閾値αが存在するか?
  • RQ3標準的な単一連結法(kクラスタで早期終了)が安定なインスタンスで失敗するのはなぜか?何を修正すれば正しく動作するようになるか?
  • RQ4有限距離空間では3未満、一般距離空間では2+√3未満の摂動閾値に低下させても、依然として効率的な正確なクラスタリングが可能か?
  • RQ5摂動安定性と中心への近接性の関係は何か?また、NP困難性の観点から、その境界はどの程度タイトか?

主な発見

  • 任意の分離可能な中心に基づくクラスタリング目的関数に対して、有限距離空間ではα ≥ 3の摂動安定性が、最適クラスタリングを多項式時間で見つけられることを保証する。
  • 一般距離空間では、α ≥ 2+√3の摂動安定性が、多項式時間での正確なクラスタリングに十分である。
  • 提案されたアルゴリズム(単一連結クラスタリングに続く、完全なデンドログラム上の動的計画法)は、これらの安定性条件下で、正しく最適なk-クラスタリングを回復する。
  • α < 3の場合、一般距離空間におけるα-中心近接性下でのk-メディアン問題がNP困難であることを証明し、有限距離空間におけるα = 3の閾値がタイトであることを示した。
  • 標準的な単一連結法(kクラスタで停止)は、安定なインスタンスですら、誤った結合順序により失敗する。
  • 解析により、摂動安定性が強い中心への近接性を意味し、その結果、最適クラスタリングがすべてのα-摂動に対して保持されることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。