Skip to main content
QUICK REVIEW

[論文レビュー] Ten Steps of EM Suffice for Mixtures of Two Gaussians

Constantinos Daskalakis, Christos Tzamos|arXiv (Cornell University)|Sep 1, 2016
Bayesian Methods and Mixture Models参考文献 26被引用数 29
ひとこと要約

この論文は、共分散行列が既知で等しい2つのガウス混合モデルにおける期待最大化(EM)アルゴリズムの、初めてのグローバル収束保証を提供する。1次元で無限大から初期化した場合、母集団EMの10反復目までに真の平均への誤差が1%未塔にまで低下し、幾何的収束が保証される。また、マハラノビス距離におけるε-精度推定のための有限標本の標本複雑度が$ ilde{O}(d/ heta^2)$であることも確立する。

ABSTRACT

The Expectation-Maximization (EM) algorithm is a widely used method for maximum likelihood estimation in models with latent variables. For estimating mixtures of Gaussians, its iteration can be viewed as a soft version of the k-means clustering algorithm. Despite its wide use and applications, there are essentially no known convergence guarantees for this method. We provide global convergence guarantees for mixtures of two Gaussians with known covariance matrices. We show that the population version of EM, where the algorithm is given access to infinitely many samples from the mixture, converges geometrically to the correct mean vectors, and provide simple, closed-form expressions for the convergence rate. As a simple illustration, we show that, in one dimension, ten steps of the EM algorithm initialized at infinity result in less than 1\% error estimation of the means. In the finite sample regime, we show that, under a random initialization, $ ilde{O}(d/ε^2)$ samples suffice to compute the unknown vectors to within $ε$ in Mahalanobis distance, where $d$ is the dimension. In particular, the error rate of the EM based estimator is $ ilde{O}\left(\sqrt{d \over n} ight)$ where $n$ is the number of samples, which is optimal up to logarithmic factors.

研究の動機と目的

  • 非凸尤度最適化におけるEMの理論的収束保証の欠如に対処すること。
  • 共分散が既知のバランスの取れた2ガウス混合モデルにおけるEM収束を分析すること。
  • 無限大標本の母集団版(無限大標本)と有限標本の両方におけるグローバル収束を確立すること。
  • マハラノビス距離における未知の平均のε誤差内での推定に必要なタイトな標本複雑度の境界を導出すること。
  • 有限標本設定において、EMが対数因子を除いて最適な誤差率を達成することを示すこと。

提案手法

  • 共分散行列Σが既知であるとき、$p_{\bm{\mu}}(\bm{x}) = 0.5\mathcal{N}(\bm{x}; \bm{\mu}, \Sigma) + 0.5\mathcal{N}(\bm{x}; -\bm{\mu}, \Sigma)$という再パラメータライゼーション下での母集団EMアルゴリズムを分析し、$\bm{\mu}$を未知の平均ベクトルとする。
  • EM更新の閉形式表現を導出:$\bm{\lambda}^{(t+1)} = \mathbb{E}_{\bm{x} \sim p_{\bm{\mu}}}\left[ \frac{0.5\mathcal{N}(\bm{x}; \bm{\lambda}^{(t)}, \Sigma)}{p_{\bm{\lambda}^{(t)}}(\bm{x})} \bm{x} \right] \Big/ \mathbb{E}_{\bm{x} \sim p_{\bm{\mu}}}\left[ \frac{0.5\mathcal{N}(\bm{x}; \bm{\lambda}^{(t)}, \Sigma)}{p_{\bm{\lambda}^{(t)}}(\bm{x})} \right]$。これにより幾何的収束の分析が可能となる。
  • 集中不等式とモーメントバウンドを用いて、有限標本設定における標本誤差を制御し、特に経験的期待値の真値からの逸脱をバウンドする。
  • サブガウス型尾部バウンドとハイパーコントラクト性を適用し、ガウス混合分布下での$\tanh(\lambda x)$の挙動を分析することで、推定誤差の高確率制御を可能にする。
  • 収縮不等式$\|\tilde{\bm{\lambda}}^{(t+1)} - \bm{\mu}\|_{\Sigma} \leq \max(e^{-\mu^2/10}, 9/10) \|\tilde{\bm{\lambda}}^{(t)} - \bm{\mu}\|_{\Sigma} + 2\varepsilon\mu^2$を確立し、幾何的収束を証明する。
  • 収縮結果と標本複雑度分析を組み合わせ、マハラノビス距離におけるε-精度推定に$ ilde{O}(d/\epsilon^2)$標本が十分であることを示す。

実験結果

リサーチクエスチョン

  • RQ1共分散が既知の2ガウス混合モデルにおいて、EMは真のパラメータにグローバルに収束するか?
  • RQ2平均推定におけるε-精度に到達するには何回のEM反復が必要か?
  • RQ3この設定におけるEMベース推定の最適な標本複雑度は何か?
  • RQ4有限標本におけるEMの推定誤差を高確率でバウンドできるか?そのレートは?
  • RQ5標本サイズに関して、EMの誤差率は対数因子を除いて最適か?

主な発見

  • 1次元の2ガウス混合モデルにおいて、無限大から初期化した母集団EMでは10反復目までに平均推定誤差が1%未塔にまで低下する。
  • 母集団EMアルゴリズムは、真の平均ベクトルへ幾何的収束を示し、マハラノビス距離に応じた閉形式の収束レートを有する。
  • 有限標本設定では、マハラノビス距離におけるε誤差内での未知平均ベクトルの推定に$ ilde{O}(d/\epsilon^2)$標本が十分である。
  • EMベース推定器の誤差率は$ ilde{O}(\sqrt{d/n})$であり、標本サイズ$n$に関して対数因子を除いて最適である。
  • 十分に分離された成分に対しては、収束レート$ \max(e^{-\mu^2/10}, 9/10)$を有するため、急速な収束が保証される。
  • ガウス混合分布下での$\tanh(\lambda x)$の集中を用いて、標本誤差の高確率バウンドを確立し、有限標本解析を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。