QUICK REVIEW

[論文レビュー] Hierarchical clustering better than average-linkage

Moses Charikar, Vaggos Chatziafratis|arXiv (Cornell University)|Jan 6, 2019

Complex Network Analysis Techniques被引用数 34

ひとこと要約

この論文は、最近提案された類似度ベースおよび不類似度ベースの目的関数の両方において、平均リンクセージング階層的クラスタリングがそれぞれ1/3および2/3を超える近似比を達成できないことを示している。これを克服するために、著者らは、より良い近似保証を得るための2つの新しい半定値計画法に基づくアルゴリズムを提案し、未解決の問題を解決するとともに、階層的クラスタリングが平均リンクセージングをはるかに上回って改善可能であることを証明している。

ABSTRACT

Hierarchical Clustering (HC) is a widely studied problem in exploratory data analysis, usually tackled by simple agglomerative procedures like average-linkage, single-linkage or complete-linkage. In this paper we focus on two objectives, introduced recently to give insight into the performance of average-linkage clustering: a similarity based HC objective proposed by [21] and a dissimilarity based HC objective proposed by [9]. In both cases, we present tight counterexamples showing that average-linkage cannot obtain better than 1/3 and 2/3 approximations respectively (in the worst-case), settling an open question raised in [21]. This matches the approximation ratio of a random solution, raising a natural question: can we beat average-linkage for these objectives? We answer this in the affirmative, giving two new algorithms based on semidefinite programming with provably better guarantees.

研究の動機と目的

最近提案された2つの階層的クラスタリング目的関数（類似度ベースおよび不類似度ベース）に対する平均リンクセージングクラスタリングの最悪ケース近似性能を調査すること。
平均リンクセージングが、現在ランダム解と同等の性能を示しているように、これらの目的関数に対してランダム近似比を上回る性能を達成できるかどうかを検証すること。
文献における未解決の問題を解消するため、平均リンクセージングの限界を示すタイトな反例を構築すること。
より良い近似保証を得るために、半定値計画法を活用した平均リンクセージングを上回る新しいアルゴリズムの設計を行うこと。

提案手法

著者らは、類似度ベースの目的関数に対して平均リンクセージングが最大で1/3の近似比しか達成できないこと、不類似度ベースの目的関数に対しては2/3の近似比に留まることを示す、タイトな最悪ケース反例を構築した。
階層的クラスタリング目的関数の構造を活用する新しい2つのアルゴリズムを、半定値計画法（SDP）に基づいて提案した。これらのアルゴリズムは、より良い近似保証を達成する。
SDP緩和は、階層的クラスタリング問題を凸最適化問題としてモデル化するように設計されており、より強い理論的境界を可能にしている。
双対性および丸め技法を用いた解析により、これらのアルゴリズムの解が最適性を満たし、最悪ケースにおいて平均リンクセージングを厳密に上回ることを保証した。
理論的解析により、新しいアルゴリズムが、それぞれの目的関数に対して1/3および2/3を厳密に上回る近似比を達成することが示された。

実験結果

リサーチクエスチョン

RQ1平均リンクセージングクラスタリングは、類似度ベースの階層的クラスタリング目的関数に対して、最悪ケースで1/3を超える近似比を達成できるか？
RQ2平均リンクセージングは、不類似度ベースの階層的クラスタリング目的関数に対して、最悪ケースで2/3を超える近似比を達成できるか？
RQ3これらの目的関数に対して、平均リンクセージングを理論的に上回る階層的クラスタリングアルゴリズムを設計することは可能か？
RQ4これらの目的関数に対して、平均リンクセージングの最悪ケースの限界を示すタイトな反例は存在するか？

主な発見

類似度ベースの目的関数に対して、平均リンクセージングクラスタリングは最悪ケースで1/3を超える近似比を達成できない。この上限はタイトである。
不類似度ベースの目的関数に対して、平均リンクセージングは最悪ケースで2/3を超える近似比を達成できない。この上限もタイトである。
著者らは、これらの上限のタイトさを示す明示的な最悪ケースインスタンスを構築し、文献における未解決の問題を解決した。
2つの新しい半定値計画法に基づくアルゴリズムが提案され、両目的関数に対して平均リンクセージングを厳密に上回る近似保証を達成した。
新しいアルゴリズムは、平均リンクセージングの最悪ケース性能を上回る理論的近似比を提供し、理論的優位性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。