QUICK REVIEW

[論文レビュー] Distributed Estimation of Principal Eigenspaces

Jianqing Fan, Dong Wang|arXiv (Cornell University)|Feb 21, 2017

Random Matrices and Applications参考文献 46被引用数 26

ひとこと要約

本稿では、各マシンが上位K個の固有ベクトルを計算し、中央サーバーに送信する分散PCAアルゴリズムを提案する。中央サーバーはそれらを統合してグローバルな主成分空間を推定する。主な貢献は、対称的でないノイズ分布の下で、推定器が不偏であり、マシン数が極端に多くない限り、フルサンプルPCAと同等の統計的レートを達成することを示したことである。

ABSTRACT

Principal component analysis (PCA) is fundamental to statistical machine learning. It extracts latent principal factors that contribute to the most variation of the data. When data are stored across multiple machines, however, communication cost can prohibit the computation of PCA in a central location and distributed algorithms for PCA are thus needed. This paper proposes and studies a distributed PCA algorithm: each node machine computes the top $K$ eigenvectors and transmits them to the central server; the central server then aggregates the information from all the node machines and conducts a PCA based on the aggregated information. We investigate the bias and variance for the resulting distributed estimator of the top $K$ eigenvectors. In particular, we show that for distributions with symmetric innovation, the empirical top eigenspaces are unbiased and hence the distributed PCA is "unbiased". We derive the rate of convergence for distributed PCA estimators, which depends explicitly on the effective rank of covariance, eigen-gap, and the number of machines. We show that when the number of machines is not unreasonably large, the distributed PCA performs as well as the whole sample PCA, even without full access of whole data. The theoretical results are verified by an extensive simulation study. We also extend our analysis to the heterogeneous case where the population covariance matrices are different across local machines but share similar top eigen-structures.

研究の動機と目的

通信、プライバシー、セキュリティ上の制約により、中央集積が不可能な大規模な分散データセットに対してPCAを実行する課題に対処すること。
反復的通信を回避するワンショットアプローチを用いて、通信効率の高い分散PCAアルゴリズムを開発すること。
一般のサブガウス型および対称的ノイズ仮定の下で、上位K個の固有空間に対する分散推定器のバイアスと分散を理論的に分析すること。
分散PCA推定器がフルサンプルPCAと同等の統計的収束レートを達成するための条件を確立すること。
局所的な母共分散行列が異なるが、上位固有構造が類似している非定常設定への分析を拡張すること。

提案手法

m台の局所マシンのそれぞれが、自身の部分標本から得た局所的標本共分散行列の上位K個の固有ベクトルを計算する。
各マシンは、生データではなく上位K個の固有ベクトルのみを中央サーバーに送信することで、通信コストを最小化する。
中央サーバーは、送信された固有ベクトルの外積の重み付き平均を形成することで、固有ベクトルを統合する。
最終的な推定器は、統合された行列の上位K個の固有ベクトルを計算することで得られ、ワンショット分散PCAを実現する。
理論的分析は、サブガウス型および対称的ノイズ仮定の下での固有値および固有空間の摂動バウンドと集中不等式に依拠する。
局所共分散行列を共有する上位固有構造と異なる低ランク成分を持つモデルとして、非定常設定への拡張が行われる。

実験結果

リサーチクエスチョン

RQ1対称的ノイズを持つ分布において、分散PCA推定器が不偏となる条件は何か。特に、経験的固有空間に関して。
RQ2分散推定器の統計的性能は、マシン数、有効ランク、固有値ギャップ、および総標本サイズにどのように依存するか。
RQ3フルデータへのアクセスがなくても、ワンショット分散PCAはフルサンプルPCAと同等の収束レートを達成できるか。
RQ4マシン数が合理的な閾値を超えて増加した場合、性能はどのように低下するか。
RQ5局所共分散構造の非定常性に対して、この手法は統計的精度を維持できる範囲はどの程度か。

主な発見

対称的ノイズを持つ分布では、経験的上位固有空間が不偏であるため、分散PCA推定器は条件を問わず不偏である。
分散推定器の収束レートは、共分散の有効ランク、固有値ギャップ、およびマシン数に明示的に依存する。
マシン数が極端に多くない限り、分散PCAはフルサンプルPCAと同等の統計的性能を達成する。フルデータへのアクセスがなくても成立する。
シミュレーション結果から、サブサンプルサイズnが十分に大きい限り、mが増加しても統計的誤差が安定することが確認され、mが閾値を超えるとわずかに劣化する（log m ≥ 5）。
各マシンがK個の固有ベクトルのみを通信する場合でも、フルサンプルPCAと同等の性能を示し、通信効率が高いことが示された。
追加で5個の上位固有ベクトルを通信する（DP5）と、わずかな改善しか得られず、K個の固有ベクトルで十分に最適な性能が達成されることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。