QUICK REVIEW

[論文レビュー] Hierarchical Clustering via Spreading Metrics

Aurko Roy, Sebastian Pokutta|arXiv (Cornell University)|Oct 28, 2016

Complexity and Algorithms in Graphs参考文献 18被引用数 30

ひとこと要約

本稿では、スプライディングメトリクスに基づくコスト関数を用いた階層的クラスタリングの $O(\log n)$-近似アルゴリズムを提示する。これは、以前の $O(\log^{3/2}n)$ の境界を改善したものである。この手法は、誘導された超距離の組合せ的特徴づけを活用し、整数線形計画法（ILP）を定式化し、球成長を用いた反復的LP丸めを適用することで、改善された近似保証を達成する。

ABSTRACT

We study the cost function for hierarchical clusterings introduced by [arXiv:1510.05043] where hierarchies are treated as first-class objects rather than deriving their cost from projections into flat clusters. It was also shown in [arXiv:1510.05043] that a top-down algorithm returns a hierarchical clustering of cost at most $O\left(α_n \log n ight)$ times the cost of the optimal hierarchical clustering, where $α_n$ is the approximation ratio of the Sparsest Cut subroutine used. Thus using the best known approximation algorithm for Sparsest Cut due to Arora-Rao-Vazirani, the top down algorithm returns a hierarchical clustering of cost at most $O\left(\log^{3/2} n ight)$ times the cost of the optimal solution. We improve this by giving an $O(\log{n})$-approximation algorithm for this problem. Our main technical ingredients are a combinatorial characterization of ultrametrics induced by this cost function, deriving an Integer Linear Programming (ILP) formulation for this family of ultrametrics, and showing how to iteratively round an LP relaxation of this formulation by using the idea of \emph{sphere growing} which has been extensively used in the context of graph partitioning. We also prove that our algorithm returns an $O(\log{n})$-approximate hierarchical clustering for a generalization of this cost function also studied in [arXiv:1510.05043]. Experiments show that the hierarchies found by using the ILP formulation as well as our rounding algorithm often have better projections into flat clusters than the standard linkage based algorithms. We also give constant factor inapproximability results for this problem.

研究の動機と目的

既存手法よりも優れた近似比を達成する多項式時間近似アルゴリズムの開発。
スプライスカットのサブルーチンに依存する従来のアルゴリズムの制限、特に近似要因が最適でない点の解決。
木を最初のクラスの対象として扱い、平坦なクラスタリングへの射影ではなく、階層的クラスタリングのコスト関数に理論的基盤を提供すること。
元の定式化を超えてコスト関数を一般化し、同じ丸め枠組みで $O(\log n)$ の近似保証を維持すること。
クラスタリング品質の観点から、標準的なリンクエージョン法および $k$-means 法と比較して、アルゴリズムの実験的妥当性を検証すること。

提案手法

スプライディングメトリクスコスト関数によって誘導される超距離の組合せ的性質を用いて、木構造の性質を特徴づける。
有効な超距離の族に対する整数線形計画法（ILP）の緩和として問題を定式化する。
ILPを線形計画法（LP）に緩和し、グラフ分割分野の技術である球成長を用いた反復的丸めを適用することで、妥当性と近似比を維持する。
厳密に増加する関数 $f$ を用いてコスト関数を一般化し、同じ丸め枠組みで $O(\log n)$ の近似を保証する。
合成データおよび実世界のデータセット上で、ILP、そのLP緩和、および丸めアルゴリズムを実装し、最適解およびベースライン手法と比較して解の品質を評価する。
多項式サイズのLPまたはSDPでは定数因子近似が達成できないこと、およびSmall Set Expansion仮説のもとでは多項式時間アルゴリズムでも同様に不可能であることを証明する。

実験結果

リサーチクエスチョン

RQ1Dasguptaのスプライディングメトリクスコスト関数のもとで、多項式時間アルゴリズムが $O(\log n)$ 近似を達成できるか。
RQ2$O(\log n)$ 近似は、部分木サイズの厳密に増加関数 $f$ を用いた一般化コスト関数へ拡張可能か。
RQ3スプライディングメトリクスコスト関数によって誘導される超距離の背後にある組合せ的構造は何か。
RQ4LPまたはSDP緩和によって定数因子近似を達成する根本的な障壁は存在するか。
RQ5平坦クラスタリングに削減した場合、提案手法はリンクエージョンベースおよび $k$-means クラスタリングと比べて実際のクラスタリング品質でどのように差をつけるか。

主な発見

提案手法は、スプライディングメトリクスコスト関数における $O(\log n)$-近似を達成し、以前の $O(\log^{3/2}n)$ の境界を改善した。
コストが部分木サイズの厳密に増加関数 $f$ によって重み付けされた一般化コスト関数に対しても、$O(\log n)$ の近似を維持する。
ILP定式化は、スプライディングメトリクスによって誘導される有効な超距離の族を正確に捉えており、最適化を可能にする。
球成長を用いた反復的丸めにより、LP緩和が有界なコスト偏差を伴う整数解にうまく変換された。
実験の結果、本手法が生成する階層は、リンクエージョン法や $k$-means 法と比較して、より平坦なクラスタリングを生み出し、誤差が低くなることが示された。
本稿では、多項式サイズのLPまたはSDPでは定数因子近似が達成できないこと、またSmall Set Expansion仮説のもとでは多項式時間アルゴリズムでも同様に不可能であることが確立された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。