QUICK REVIEW

[論文レビュー] Pattern Alternating Maximization Algorithm for High-Dimensional Missing Data

Nicolas Staedler, Peter Buehlmann|arXiv (Cornell University)|May 3, 2010

Gene expression and cancer classification参考文献 25被引用数 5

ひとこと要約

本稿では、多変量正規モデルにおける高次元欠損データに対して、パターン交互最大化（PAM）アルゴリズムを提案する。繰り返し観測変数に対して欠損変数を回帰し、座標降下法を用いてLassoペナルティを組み込むことで、効率的かつスパースな補完を実現し、マイクロアレイデータセットにおいてk-NN、ノルム最小化、l1ペナルティ付き分散共分散行列推定法を凌駆する性能を発揮する。

ABSTRACT

We propose a new and computationally efficient algorithm for maximizing the observed log-likelihood for a multivariate normal data matrix with missing values. We show that our procedure based on iteratively regressing the missing on the observed variables, generalizes the standard EM algorithm by alternating between different complete data spaces and performing the E-Step incrementally. In this non-standard setup we prove numerical convergence to a stationary point of the observed log-likelihood. For high-dimensional data, where the number of variables may greatly exceed sample size, we add a Lasso penalty in the regression part of our algorithm and perform coordinate descent approximations. This leads to a computationally very attractive technique with sparse regression coefficients for missing data imputation. Simulations and results on four microarray datasets show that the new method often outperforms other imputation techniques as k-nearest neighbors imputation, nuclear norm minimization or a penalized likelihood approach with an l1-penalty on the inverse covariance matrix.

研究の動機と目的

変数数が標本サイズを上回る高次元設定における欠損データの課題に対処すること。
多変量正規分布の仮定の下で、観測対数尤度を最大化する計算的に効率的なアルゴリズムの開発。
回帰ステップにおけるLasso正則化の統合により、スパarsityを導入し、補完精度を向上させること。
標準的なEMアルゴリズムを一般化し、異なる完全データ空間を交互に切り替え、段階的Eステップを実行すること。
マイクロアレイや同様の高次元生物学的データセットにおける欠損値を対象としたスケーラブルなソリューションの提供。

提案手法

アルゴリズムは、パターンに基づくアプローチを用いて、繰り返し欠損変数を観測変数に対して回帰する。異なる完全データ空間を交互に切り替える。
各反復で完全なEステップ計算ではなく、段階的なEステップを実行することで、EMアルゴリズムを一般化する。
高次元データに対しては、回帰係数にLassoペナルティを適用し、スパarsityを誘導し、過学習を低減する。
罰則付き回帰サブプロブレムを効率的に解くための近似手法として、座標降下法を用いる。
欠損データ推定値の更新と、パターン固有の回帰係数の最適化を交互に繰り返す。
非標準的な交互最適化フレームワーク下でも、観測対数尤度の停留点への収束が証明されている。

実験結果

リサーチクエスチョン

RQ1異なる完全データ空間を交互に切り替えるEMに類似したアルゴリズムは、高次元欠損データにおいて、より高い計算効率と収束性を達成できるか？
RQ2回帰ステップにおけるLasso正則化の統合が、高次元設定における補完精度とスパarsityに与える影響は何か？
RQ3提案されたPAMアルゴリズムは、k-NN、ノルム最小化、l1ペナルティ付き分散共分散行列推定法といった既存の補完手法を凌駆するか？
RQ4非標準的な交互最適化フレームワークにおけるアルゴリズムの収束挙動はいかなるものか？
RQ5実世界の高次元マイクロアレイデータセット（欠損値を含む）において、この手法はどの程度の性能を発揮するか？

主な発見

PAMアルゴリズムは、非標準的な交互最適化設定下でも、観測対数尤度の停留点に数値的に収束する。
高次元設定では、Lassoペナルティの統合によりスパースな回帰係数が得られ、解釈性が向上し、過学習が低減される。
4つのマイクロアレイデータセットにおけるシミュレーションおよび実データ解析の結果、PAMは補完精度においてk-最近傍法補完を一貫して上回る。
同様のデータセットにおいて、ノルム最小化やl1ペナルティ付き尤度推定手法に対しても、PAMは優れた性能を示す。
座標降下法の近似により、PAMの計算効率が向上し、大規模な高次元データに適したものとなる。
生物学的応用における多様なデータ構造と欠損パターンに対しても、PAMは頑健な性能を発揮する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。