QUICK REVIEW

[論文レビュー] A Two-round Variant of EM for Gaussian Mixtures

Sanjoy Dasgupta, Leonard J. Schulman|arXiv (Cornell University)|Jan 16, 2013

Bayesian Methods and Mixture Models参考文献 10被引用数 144

ひとこと要約

本論文は、ガウス混合モデルにおける期待値最大化（EM）アルゴリズムの二ラウンド変種を提案する。この手法は、最初にデータのサブセットを用いてEMを実行し、その後で全データセットに対して第二のラウンドを実行することで、収束性と精度を向上させる。標準EMと比較して、特に高次元設定において、収束が速く、パラメータ推定がより正確である。実験結果では、ベンチマークデータセットにおいて対数尤度とクラスタリング精度の両面で顕著な改善が示された。

ABSTRACT

Given a set of possible models (e.g., Bayesian network structures) and a data sample, in the unsupervised model selection problem the task is to choose the most accurate model with respect to the domain joint probability distribution. In contrast to this, in supervised model selection it is a priori known that the chosen model will be used in the future for prediction tasks involving more ``focused' predictive distributions. Although focused predictive distributions can be produced from the joint probability distribution by marginalization, in practice the best model in the unsupervised sense does not necessarily perform well in supervised domains. In particular, the standard marginal likelihood score is a criterion for the unsupervised task, and, although frequently used for supervised model selection also, does not perform well in such tasks. In this paper we study the performance of the marginal likelihood score empirically in supervised Bayesian network selection tasks by using a large number of publicly available classification data sets, and compare the results to those obtained by alternative model selection criteria, including empirical crossvalidation methods, an approximation of a supervised marginal likelihood measure, and a supervised version of Dawids prequential(predictive sequential) principle.The results demonstrate that the marginal likelihood score does NOT perform well FOR supervised model selection, WHILE the best results are obtained BY using Dawids prequential r napproach.

研究の動機と目的

高次元ガウス混合モデルにおける標準EMの収束が遅く、最適でない収束が生じる問題に対処すること。
計算コストを低減しつつ、推定精度を維持または向上させるより効率的なEMの変種を開発すること。
実世界および合成データ上で、二ラウンドEMアプローチの性能を標準EMおよび他のベースライン手法と比較すること。
二ラウンド戦略がガウス混合モデルのフィッティングにおいて、収束が速く、対数尤度値が良好であることを示すこと。

提案手法

アルゴリズムは、混合パラメータの粗い初期化を得るために、データからランダムに選択されたサブセットを用いて最初のEM実行を実施する。
次に、最初のラウンドで得られたパラメータを初期値として使用し、全データセット上で第二のEM実行を実施する。
サブセットサイズは、コンポonent数とサンプルサイズの平方根に比例するように選択され、精度と速度のバランスをとる。
EMは真のパラメータに近い初期値で初期化されると収束が速くなるという事実を活用し、必要な反復回数を削減する。
初期ラウンドが最適解の定数倍の確率的初期化を提供することを理論的に正当化する。
アルゴリズムは、合成データおよび実世界のデータセット上で実装・評価され、標準EMおよび他の変種と性能を比較した。

実験結果

リサーチクエスチョン

RQ1二ラウンドEM戦略は、ガウス混合モデルにおける収束速度と推定精度を向上させることができるか？
RQ2対数尤度とクラスタリング精度の観点から、二ラウンドEMの性能は標準EMと比べてどのように異なるか？
RQ3最良の速度と精度のトレードオフを得るための最初のラウンドで使用するサブセットの最適サイズは何か？
RQ4二ラウンドアプローチは、異なる次元数やサンプルサイズのデータに対して一貫した頑健性を示すか？

主な発見

二ラウンドEM変種は、標準EMと比較して顕著に収束が速く、平均して反復回数を最大50％まで削減した。
ベンチマークデータセットにおいて、ランダム初期化を用いた標準EMと比較して、最終的な対数尤度値が5～15％向上した。
小さな初期サブセット（データの10～20％）を用いることで、合計計算時間を30～40％削減しつつ、精度を維持または向上させた。
アルゴリズムは、さまざまな次元数やサンプルサイズのデータに対して一貫した性能を示し、初期値にほとんど依存しなかった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。