QUICK REVIEW

[論文レビュー] On the fitting of mixtures of multivariate skew t-distributions via the EM algorithm

S. X. Lee, Geoffrey J. McLachlan|arXiv (Cornell University)|Sep 22, 2011

Statistical Distribution Estimation and Applications参考文献 30被引用数 32

ひとこと要約

本稿では、モンテカルロ手法に依存せずに、有限混合多変量スケュー t 分布への適合のための正確な EM アルゴリズムを提示する。不確実な条件付き期待値を、非丸形 t 分布の計算に高速なアルゴリズムが利用可能な、切り捨てられた多変量 t 分布のモーメントとして表現することにより、特に高次元において、モンテカルロ EM よりもはるかに高速かつ高精度なパrameter推定を達成する。

ABSTRACT

We show how the expectation-maximization (EM) algorithm can be applied exactly for the fitting of mixtures of general multivariate skew t (MST) distributions, eliminating the need for computationally expensive Monte Carlo estimation. Finite mixtures of MST distributions have proven to be useful in modelling heterogeneous data with asymmetric and heavy tail behaviour. Recently, they have been exploited as an effective tool for modelling flow cytometric data. However, without restrictions on the the characterizations of the component skew t-distributions, Monte Carlo methods have been used to fit these models. In this paper, we show how the EM algorithm can be implemented for the iterative computation of the maximum likelihood estimates of the model parameters without resorting to Monte Carlo methods for mixtures with unrestricted MST components. The fast calculation of semi-infinite integrals on the E-step of the EM algorithm is effected by noting that they can be put in the form of moments of the truncated multivariate t-distribution, which subsequently can be expressed in terms of the non-truncated form of the t-distribution function for which fast algorithms are available. We demonstrate the usefulness of the proposed methodology by some applications to three real data sets.

研究の動機と目的

有限混合多変量スケュー t 分布における最尤推定において、計算コストの高いモンテカルロ手法への依存を排除すること。
自由な多変量スケュー t 分布に対する EM アルゴリズムの E ステップにおける条件付き期待値の不確実性を解消すること。
高次元データに対して、モンテカルロ EM の代替として、数値的に効率的かつ高精度な手法を開発すること。
フローサイトメトリーや脳腫瘍データ解析などの応用分野において、再現可能で高精度なパrameter推定を可能にすること。
次元数の増加に伴うスケーラビリティ、速度、正確性の観点から、正確な手法がモンテカルロ EM を上回ることを示すこと。

提案手法

E ステップにおける条件付き期待値を、多変量切り捨て t 分布のモーメントとして定式化する。
これらのモーメントを、非丸形多変量 t 分布の累積分布関数を含む式に還元する。
多変量 t 分布関数の評価に既存の高速アルゴリズムを活用して計算を加速する。
確率的近似を避けるために解析的導出を用い、モンテカルロ統合を決定的数値評価に置き換える。
反復的パrameter更新にこれらの正確な式を用いて EM アルゴリズムを実装する。
有限混合多変量スケュー t 分布（FM-MST）にこの手法を適用し、完全な尤度に基づく推論を可能にする。

実験結果

リサーチクエスチョン

RQ1自由な多変量スケュー t 分布に対する有限混合モデルにおいて、モンテカルロ近似なしに EM アルゴリズムを正確に実装できるか？
RQ2さまざまな次元のデータにおいて、正確な EM とモンテカルロ EM の計算効率と正確性はどのように比較されるか？
RQ3モンテカルロ手法と比較して、正確な手法は計算時間をどの程度短縮しつつ、推定の正確性を維持または向上できるか？
RQ4次元数の増加が、正確な手法とモンテカルロ EM の性能差に与える影響は何か？
RQ5モンテカルロ手法とは異なり、正確な手法は再現可能で高精度な結果を達成できるか？

主な発見

p=2 のとき、正確な EM アルゴリズムはモンテカルロ EM（50 回のサンプリング）よりも少なくとも 25 倍速く、高次元でも速度と正確性の両面で優位性を示す。
p=10 のとき、正確な手法はモンテカルロ EM（500 回のサンプリング）よりも 30,000 倍以上正確であり、かつ高速でもある。
p > 6 の場合、モンテカルロ EM は最低でも 500 回のサンプリングが必要となり、正確な手法と比較して計算的に非現実的になる。
正確な手法はデフォルトの許容誤差 10⁻⁶ で高精度を達成するが、モンテカルロ手法は同等の精度に到達するためには大規模なサンプルサイズを必要とする。
正確なアルゴリズムは再現可能な結果を生成するが、モンテカルロ EM はランダム性のため、実行ごとにばらつきを示す。
この手法は高次元データに効果的にスケーリング可能であり、次元数に応じて計算時間が増加するが、多変量 t 関数の効率的評価のおかげで実行可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。