QUICK REVIEW

[論文レビュー] Fast Exact k-Means, k-Medians and Bregman Divergence Clustering in 1D

Allan Grønlund, Kasper Green Larsen|arXiv (Cornell University)|Jan 25, 2017

Automated Road and Building Extraction参考文献 23被引用数 48

ひとこと要約

本稿では、動的計画法と二分探索技術を用いて、1次元k-平均法、k-メディアン、およびBregman散発クラスタリングの高速かつ正確なアルゴリズムを提示する。空間使用量の削減、任意のBregman散発への一般化、および大規模なnおよびkにおいて、二分探索に基づくアルゴリズムが動的計画法を上回ることを示している。また、k' ≤ k であるすべてのk' について最適クラスタリングを効率的に報告可能である。

ABSTRACT

The $k$-Means clustering problem on $n$ points is NP-Hard for any dimension $d\ge 2$, however, for the 1D case there exists exact polynomial time algorithms. Previous literature reported an $O(kn^2)$ time dynamic programming algorithm that uses $O(kn)$ space. It turns out that the problem has been considered under a different name more than twenty years ago. We present all the existing work that had been overlooked and compare the various solutions theoretically. Moreover, we show how to reduce the space usage for some of them, as well as generalize them to data structures that can quickly report an optimal $k$-Means clustering for any $k$. Finally we also generalize all the algorithms to work for the absolute distance and to work for any Bregman Divergence. We complement our theoretical contributions by experiments that compare the practical performance of the various algorithms.

研究の動機と目的

従来のO(kn²)時間およびO(kn)空間の動的計画法に起因する制限を克服し、1次元k-平均クラスタリングのためのより高速かつ空間効率の良い正確なアルゴリズムを開発すること。
既存の1次元k-平均アルゴリズムをk-メディアンおよび任意のBregman散発に一般化し、多様なクラスタリング問題への応用可能性を広げること。
標準的な動的計画法ではネイティブにサポートされていないが、線形空間を用いてすべてのk' ≤ k について最適クラスタリングを効率的に報告できるようにすること。
さまざまな1次元クラスタリングアルゴリズム（動的計画法および二分探索に基づく手法を含む）の性能を実験的に評価・比較すること。
特に1980年代の量子化アルゴリズムを含む、これまで見過ごされていた先行研究を特定・解決すること。このアルゴリズムは、後に知られる解決策をすでに包含しており、かつそれより前駆的である。

提案手法

O(kn²)時間およびO(kn)空間を要する動的計画法アルゴリズムを提案。その後、DPテーブルの最後の列のみを保持することで、O(kn)時間およびO(k)空間に最適化した。
kクラスタの最適コストλを特定するための二分探索に基づくアルゴリズムを導入。O(n lg U)時間および線形空間を達成し、Uはユニバースサイズを表す。
コスト関数の下に凸性を活用し、λの二分探索を効率的に行い、任意のkについて最適クラスタリングを高速に計算可能にする。
絶対距離を用いたk-メディアンおよび任意のBregman散発に適応したコスト関数を導入することで、同じアルゴリズム的構造を維持したまま一般化を実現。
線形空間ですべてのk' ≤ k について最適クラスタリングを効率的に計算できるように、1次元k-平均問題の正則化版を用いる。このフレームワークは二分探索に統合される。
最悪計算量の理論的保証がないものの、実用的性能が優れていることを示すために、改良型のウィルバー風補間探索を用い、二分探索プロセスを高速化する。

実験結果

リサーチクエスチョン

RQ11次元k-平均クラスタリングの空間計算量をO(kn)からO(k)に削減しつつ、最適な性能を維持できるか？
RQ2nおよびkが増加するに従い、よりスケーラブルである実用的かつ効率的な動的計画法の代替策が存在するか？
RQ3動的計画法アプローチを、すべてのk' ≤ k について最適クラスタリングを効率的に報告できるように拡張できるか？また、二分探索に基づく手法と比較してどうなるか？
RQ4時間および空間計算量を維持したまま、k-メディアンおよびBregman散発に一般化できるか？
RQ5特にnおよびkが大きい場合に、二分探索に基づくアルゴリズムの実用的性能（実行時間およびメモリ使用量）は動的計画法と比べてどうなるか？

主な発見

二分探索に基づくアルゴリズムは、O(n lg U)時間および線形空間を達成し、特に大規模なnおよびkにおいて、O(kn²)の動的計画法アプローチを実際の実行で大きく上回る。
一様分布および正規分布のデータセットにおいて、k ≥ 20 では、中程度のnに対しても、二分探索アルゴリズムは動的計画法よりも著しく高速である。
動的計画法は、DPテーブルの最後の列のみを保持することで、O(k)空間に最適化可能であり、これによりすべてのk' ≤ k について最適クラスタリングを効率的に報告できる。
二分探索アルゴリズムは、探索プロセス中に複数のk値について最適クラスタリングコストを報告可能であり、コスト曲線のインタラクティブまたは段階的な可視化を可能にする。
補間に基づく二分探索ヒューリスティクスは、最悪計算量のO(n²)という理論的上限よりもはるかに優れた実用的性能を示しており、強い実験的効率性を示している。
本稿では、1980年に発表された1次元重み付き量子化に関するこれまで見過ごされていた研究を特定・統合し、最適解がすでに数十年も前に知られていたこと、かつ後続の結果を包含していることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。