QUICK REVIEW

[論文レビュー] Strong Coresets for Hard and Soft Bregman Clustering with Applications to Exponential Family Mixtures

Mario Lučić, Olivier Bachem|arXiv (Cornell University)|Aug 21, 2015

Bayesian Methods and Mixture Models参考文献 20被引用数 18

ひとこと要約

本稿では、µ-類似のBregman散発を用いたハードクラスタリングおよびソフトクラスタリングの両方を統合的に扱う実用的なコアセット構築アルゴリズムを提案する。K-平均、ガウス混合モデル、指数型分布族モデルを含む多様なモデルに適用可能であり、データサイズに依存しないコアセットサイズで強力な近似保証を達成する。この手法により、ランダム化された多項式時間近似スキームが可能となり、実際の性能では一様サブサンプリングを上回り、大規模データセットにおいて80倍以上の高速化と5％未満の相対誤差を達成する。

ABSTRACT

Coresets are efficient representations of data sets such that models trained on the coreset are provably competitive with models trained on the original data set. As such, they have been successfully used to scale up clustering models such as K-Means and Gaussian mixture models to massive data sets. However, until now, the algorithms and the corresponding theory were usually specific to each clustering problem. We propose a single, practical algorithm to construct strong coresets for a large class of hard and soft clustering problems based on Bregman divergences. This class includes hard clustering with popular distortion measures such as the Squared Euclidean distance, the Mahalanobis distance, KL-divergence and Itakura-Saito distance. The corresponding soft clustering problems are directly related to popular mixture models due to a dual relationship between Bregman divergences and Exponential family distributions. Our theoretical results further imply a randomized polynomial-time approximation scheme for hard clustering. We demonstrate the practicality of the proposed algorithm in an empirical evaluation.

研究の動機と目的

大規模データセットにおけるBregmanクラスタリングのスケーラビリティを向上させるために、一般化されたコアセットフレームワークを開発すること。
従来のコアセット手法が問題特異的で、弱い近似保証しか提供しなかったという限界を克服すること。
µ-類似のBregman散発の下で、ハードクラスタリングとソフトクラスタリングを統一したコアセット構築を行うこと。
両方のクラスタリングタイプに対して理論的保証を確立し、ランダム化された多項式時間近似スキームを導出すること。
多様なBregman散発を有する実世界のデータセットにおいて、一様サブサンプリングと比較して実用的性能の向上を示すこと。

提案手法

Bregman散発の性質に基づく感度スコアから導出される重み付きサンプリングスキームを用いて、強力なコアセットを構築する。
Bregman散発と指数型分布族の分布との双対性を活用し、コアセットをソフトクラスタリング問題へ拡張する。
データセットサイズに依存しない近似誤差の理論的境界を有する、ランダム化されたコアセット構築アルゴリズムを適用する。
平均がBregman散発の和を最小化すること（式1による）を活用し、感度に基づくサンプリング重みを導出する。
二乗ユークリッド、マハラノビス、KL、イタクラ・サイト、その他のすべてのµ-類似Bregman散発に一般化されたコアセットフレームワークを構築する。
既存のクラスタリングパイプラインにコアセットを統合し、理論的誤差境界を保証する高速な推論を可能にする。

実験結果

リサーチクエスチョン

RQ1広範なBregman散発クラスにおいて、ハードおよびソフトクラスタリングの両方に対応できる単一のコアセット構築アルゴリズムを設計可能か？
RQ2すべてのµ-類似Bregman散発にわたって強力な近似保証を確保するための理論的コアセットサイズは何か？
RQ3このコアセットフレームワークは、指数型分布族混合モデルに関連するソフトクラスタリング問題へ拡張可能か？
RQ4提案手法は、ハードBregmanクラスタリングに対してランダム化された多項式時間近似スキームを達成するか？
RQ5多様な散発タイプを有する実世界のデータセットにおいて、一様サブサンプリングと比較してコアセットの実用的性能はいかがなっているか？

主な発見

提案されたコアセット構築は、すべてのµ-類似Bregman散発において、データセットサイズに依存しないコアセットサイズで強力な近似保証を達成する。
Bregman散発と指数型分布族の分布との双対性のおかげで、同じアルゴリズムがハードおよびソフトクラスタリング問題に適用可能である。
ハードBregmanクラスタリングに対して、ランダム化された多項式時間近似スキームが確立され、従来の弱いコアセット手法を改善する。
145,751点を有するkddデータセットでは、コアセットが全データクラスタリング比で81.3倍の高速化を達成したが、相対誤差は4.1％にとどまった。
80,000点を有するCSNデータセットでは、小さなサブサンプルサイズでも、一様サブサンプリングと比較して相対誤差が顕著に低減された。
実験的結果から、コアセットは収束速度および精度の両面で一様サブサンプリングを上回り、500回の試行にわたる信頼区間がその頑健性を確認している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。