QUICK REVIEW

[論文レビュー] Relational Algorithms for k-Means Clustering

Benjamin Moseley, Kirk Pruhs|arXiv (Cornell University)|Aug 1, 2020

Data Management and Algorithms参考文献 29被引用数 2

ひとこと要約

この論文は、完全な設計行列を物性せずに、正規化されたリレーショナルデータベース上で直接動作する関係的k-meansクラスタリングアルゴリズムを提示している。循環のないデータベースでは、多項式時間O(1)-近似を達成する。反復的サンプリングとk-means++初期化を組み合わせることで、クラスタ中心を効率的にサンプリングしつつ、定数因子近似の保証を維持し、従来の結合ベース処理による指数的データサイズの増大を回避する。

ABSTRACT

This paper gives a k-means approximation algorithm that is efficient in the relational algorithms model. This is an algorithm that operates directly on a relational database without performing a join to convert it to a matrix whose rows represent the data points. The running time is potentially exponentially smaller than N, the number of data points to be clustered that the relational database represents. Few relational algorithms are known and this paper offers techniques for designing relational algorithms as well as characterizing their limitations. We show that given two data points as cluster centers, if we cluster points according to their closest centers, it is NP-Hard to approximate the number of points in the clusters on a general relational input. This is trivial for conventional data inputs and this result exemplifies that standard algorithmic techniques may not be directly applied when designing an efficient relational algorithm. This paper then introduces a new method that leverages rejection sampling and the k-means++ algorithm to construct a O(1)-approximate k-means solution.

研究の動機と目的

標準k-meansがリレーショナルデータベース上で非効率である問題を解決し、データサイズが指数的に増大する可能性がある完全なテーブル結合を回避すること。
完全な設計行列のサイズではなく、入力テーブルのサイズに多項式時間で動作する関係的アルゴリズムを設計すること。
密度行列表現に変換せずに、リレーショナルデータ上で直接k-meansクラスタリングの定数因子近似を提供すること。
一般のリレーショナル入力において、クラスタサイズの近似がNP困難であることを証明することで、関係的アルゴリズムの限界を特定すること。
証明可能な近似保証を持つ効率的な関係的アルゴリズムの設計フレームワークを確立すること。

提案手法

完全なデータポイントを物性せずに、リレーショナルスキーマから候補クラスタ中心を効率的にサンプリングするための反復的サンプリングを活用する。
リレーショナルデータに適応した修正版k-means++初期化戦略を採用し、良好な中心の分離とカバーを保証する。
データグラフ内のパスを通じて、ポイントを中心に割り当てるコストを制限するための重み伝搬メカニズムを用いる。重み関数は流れに似た∆′(p)を用いる。
緩い三角不等式の境界を適用し、サンプリングされた中心へのポイントの割り当てコストが最適解と関連づけられることを保証し、定数近似を達成する。
重みを複数の中心に分散させるための分数割り当てスキームω(p, ci)を用い、サンプリングされた中心における重み付きk-meansを通じたコスト解析を可能にする。
データポイントの系列を経由するパスベースの課金法的議論を用い、合計コストを最適解の観点から評価する。パスに沿って重みが指数関数的に増加する。

実験結果

リサーチクエスチョン

RQ1完全な設計行列を物性せずに、関係的アルゴリズムモデル上でk-meansクラスタリングを効率的に解くことは可能か？
RQ2元のテーブル上で多項式時間の操作のみを用いて、リレーショナルデータ上のk-meansで定数因子近似を達成することは可能か？
RQ3k-meansにおけるクラスタサイズやコストの近似において、関係的アルゴリズムの根本的限界は何か？
RQ4k-means++のようなサンプリング技法を、正規化されたリレーショナルスキーマに直接適用するにはどうすればよいか？
RQ5反復的サンプリングと重み伝搬を用いて、リレーショナルデータベースにおける近似クラスタリングのコストを制限することは可能か？

主な発見

提案アルゴリズムは、循環のないリレーショナルデータベース上で、n·fhtwに比例する時間でO(1)-近似を達成し、関係的クエリ処理の最先端水準に一致する。
一般のリレーショナル入力において、クラスタ内のポイント数の近似はNP困難である。2つの中心ですら同様であるため、関係的アルゴリズムの根本的限界を示している。
アルゴリズムは反復的サンプリングとk-means++にインspiredされたサンプリングを用い、完全な物性を回避することで、入力サイズに多項式時間で実行可能であることを保証する。
最終的なクラスタリング解のコストは、O(γ)φOPTで抑えられ、ここでγはサンプリングされた中心における重み付きk-meansソルバの近似要因、φOPTは最適k-meansコストである。
分析により、重み付きk-meansのコストが、高確率で最適コストの定数因子内に収まることが示された。これは重みの集中とパスの重みの有界性のおかげである。
最終的な近似保証はO(γ)φOPTであり、γは重み付きk-meansソルバの近似要因である。標準仮定の下で、全体のアルゴリズムは定数因子近似を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。