QUICK REVIEW

[論文レビュー] Training Gaussian Mixture Models at Scale via Coresets

Mario Lučić, Matthew Faulkner|arXiv (Cornell University)|Mar 23, 2017

Gaussian Processes and Bayesian Inference参考文献 37被引用数 27

ひとこと要約

本稿では、ユーザーが定義した誤差境界内で全データセットの対数尤度を保持する、小さな重み付きサブセット（コアセット）を構築することで、スケールに応じたガウス・ミックスチャネル（GMM）の学習のためのコアセットベースの手法を提案する。コアセットのサイズはデータサイズに依存せず、次元、コンポーネント数、精度にのみ依存するため、分散処理およびストリーミング計算において効率的であり、λ-半球的ガウス分布に対して理論的近似保証を有する。

ABSTRACT

How can we train a statistical mixture model on a massive data set? In this work we show how to construct coresets for mixtures of Gaussians. A coreset is a weighted subset of the data, which guarantees that models fitting the coreset also provide a good fit for the original data set. We show that, perhaps surprisingly, Gaussian mixtures admit coresets of size polynomial in dimension and the number of mixture components, while being independent of the data set size. Hence, one can harness computationally intensive algorithms to compute a good approximation on a significantly smaller data set. More importantly, such coresets can be efficiently constructed both in distributed and streaming settings and do not impose restrictions on the data generating process. Our results rely on a novel reduction of statistical estimation to problems in computational geometry and new combinatorial complexity results for mixtures of Gaussians. Empirical evaluation on several real-world datasets suggests that our coreset-based approach enables significant reduction in training-time with negligible approximation error.

研究の動機と目的

全データに対する推論が計算的に非現実的となるような大規模データセット上でのGMM学習の課題に対処すること。
尤度の質を保持する小さな重み付きサブセット（コアセット）を用いた正確なGMM推定を可能にする手法の開発。
コアセットの構築が分散およびストリーミング環境で効率的であり、メモリと更新時間の最小化を実現すること。
データセットサイズに依存しないコアセットサイズおよび近似誤差に関する理論的保証を提供すること。
計算幾何学的手法を、ガウス混合分布を含む統計的推定問題に拡張すること。

提案手法

任意の有効なGMMパrameter化における尤度関数に対する各データポイントの感受性を制限することで、コアセットを構築する。
統計的推定から計算幾何学への新しい還元を用い、擬似次元および感受性サンプリングを活用してコアセットサイズを制限する。
2段階のアルゴリズムを採用：まず、分散を低減するため複数のk-means++スタイルのクラスタリングを並列に実行；次に、感受性スコアに基づいてコアセットをサンプリング。
λ-半球的ガウス分布の仮定の下で、コアセットサイズはO(d⁴k⁶λ⁻⁴ε⁻²)で抑えられ、データポイント数nに依存しない。
重み付き期待最大化（EM）をコアセットに対応させるために適応し、点の重みが尤度への寄与および更新式にスケーリングとして作用するようにする。
集中不等式および感受性に基づくサンプリングを用いて理論的保証を導出し、高確率で負の対数尤度が(1±ε)の近似を達成する。

実験結果

リサーチクエスチョン

RQ1データセットサイズに依存しないコアセットをガウス・ミックスチャネル（GMM）に対して構築可能か？
RQ2このようなコアセットは分散およびストリーミング環境で効率的に計算可能か？
RQ3GMMの対数尤度をεの精度で近似するための理論的コアセットサイズは何か？
RQ4データポイントの尤度関数に対する感受性は、ガウス分布の幾何的性質にどのように依存するか？
RQ5コアセットベースのアプローチは、トレーニング時間を大幅に短縮しつつも高い精度を維持できるか？

主な発見

コアセットサイズはO(d⁴k⁶λ⁻⁴ε⁻²)であり、データポイント数nに依存しないため、大規模データセットにスケーラブルである。
本手法は、すべての有効なGMMパrameterに対して、コアセットの負の対数尤度が全データセットのそれと(1±ε)の要因で近似されることを保証する。
マージ・リダクション戦略を用いて並列にコアセットを構築でき、空間的および更新時間的要件がd, k, λ⁻¹, ε⁻¹, log n, log(1/δ)の多項式で抑えられるストリーミング環境でも利用可能である。
実験的評価では、実世界のデータセットにおいてトレーニング時間を顕著に短縮しつつ、近似誤差は無視できるほど小さいことが示された。
理論的分析から、コアセット構築がデータスケーリングに対してロバストであることが示された。近似はデータの線形変換に対して不変である。
各共分散行列の固有値の積が1/(2π)ᵈ以上である条件の下で、対数尤度に対して乗法的(1±ε)の近似が達成される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。