QUICK REVIEW

[論文レビュー] Normal approximation and concentration of spectral projectors of sample covariance

Vladimir Koltchinskii, Karim Lounici|arXiv (Cornell University)|Apr 27, 2015

Random Matrices and Applications参考文献 21被引用数 65

ひとこと要約

本稿は、高次元ガウスヒルベルト空間における標本共分散作用素のスペクトル射影子の二乗ヒルベルト＝シュミットノルム誤差 $ \|\hat{P}_r - P_r\|_2^2$ について、正規近似のタイトな境界を確立する。有効ランク $ \mathbf{r}(\Sigma) = \mathrm{tr}(\Sigma)/\|\Sigma\|_\infty$ を用いて精度を特徴づけ、非漸近的集中および分散の境界を提供し、$ \mathbf{r}(\Sigma) = o(n)$ の下で漸近的正規性を証明する。

ABSTRACT

Let $X,X_1,\\dots, X_n$ be i.i.d. Gaussian random variables in a separable Hilbert space ${\\mathbb H}$ with zero mean and covariance operator $\\Sigma={\\mathbb E}(X\\otimes X),$ and let $\\hat \\Sigma:=n^{-1}\\sum_{j=1}^n (X_j\\otimes X_j)$ be the sample (empirical) covariance operator based on $(X_1,\\dots, X_n).$ Denote by $P_r$ the spectral projector of $\\Sigma$ corresponding to its $r$-th eigenvalue $\\mu_r$ and by $\\hat P_r$ the empirical counterpart of $P_r.$ The main goal of the paper is to obtain tight bounds on $$ \\sup_{x\\in {\\mathbb R}} \\left|{\\mathbb P}\\left\\{\\frac{\\|\\hat P_r-P_r\\|_2^2-{\\mathbb E}\\|\\hat P_r-P_r\\|_2^2}{{\ m Var}^{1/2}(\\|\\hat P_r-P_r\\|_2^2)}\\leq x\ ight\\}-\\Phi(x)\ ight|, $$ where $\\|\\cdot\\|_2$ denotes the Hilbert--Schmidt norm and $\\Phi$ is the standard normal distribution function. Such accuracy of normal approximation of the distribution of squared Hilbert--Schmidt error is characterized in terms of so called effective rank of $\\Sigma$ defined as ${\\bf r}(\\Sigma)=\\frac{{\ m tr}(\\Sigma)}{\\|\\Sigma\\|_{\\infty}},$ where ${\ m tr}(\\Sigma)$ is the trace of $\\Sigma$ and $\\|\\Sigma\\|_{\\infty}$ is its operator norm, as well as another parameter characterizing the size of ${\ m Var}(\\|\\hat P_r-P_r\\|_2^2).$ Other results include non-asymptotic bounds and asymptotic representations for the mean squared Hilbert--Schmidt norm error ${\\mathbb E}\\|\\hat P_r-P_r\\|_2^2$ and the variance ${\ m Var}(\\|\\hat P_r-P_r\\|_2^2),$ and concentration inequalities for $\\|\\hat P_r-P_r\\|_2^2$ around its expectation.

研究の動機と目的

標本共分散作用素のスペクトル射影子に対する二乗ヒルベルト＝シュミット誤差 $\\|\hat{P}_r - P_r\\|_2^2$ の正規近似精度に関する非漸近的境界を提供すること。
有効ランク $\mathbf{r}(\Sigma)$ を用いて、平均二乗誤差 $\mathbb{E}\|\hat{P}_r - P_r\|_2^2$ 及びその分散の境界を導出すること。
高次元および無限次元の設定において、$\|\hat{P}_r - P_r\|_2^2$ がその平均の周りに集中する集中不等式を確立すること。
$p = p_n \to \infty$ かつ $p = o(n)$ のスプライクド共分散モデルにおける、正規化誤差統計量の漸近的分布を分析すること。
バイアス補正推定量とリスク・分散の一次近似との比較による、理論的結果のシミュレーションによる検証。

提案手法

近似精度の特徴づけに、有効ランク $\mathbf{r}(\Sigma) = \mathrm{tr}(\Sigma)/\|\Sigma\|_\infty$ を主要な複雑度パラメータとして用いる。
スティーンの方法と集中不等式を用いて、$\|\hat{P}_r - P_r\|_2^2$ の分布と正規分布との間のコルモゴロフ距離を評価する。
$\Sigma$ の固有値および有効ランクを用いて、$\mathbb{E}\|\hat{P}_r - P_r\|_2^2$ 及び $\mathrm{Var}(\|\hat{P}_r - P_r\|_2^2)$ の漸近展開を導出する。
二乗誤差 $\|\hat{P}_r - P_r\|_2^2$ のバイアスを補正するため、経験的バイアス推定量 $\hat{b}_r^{(n)}$ 及び $\tilde{b}_r^{(n)}$ を導入する。
高次元漸近論を検討するため、$p_n \to \infty$、$p_n = o(n)$ のスプライクド共分散モデル $\Sigma = s_1^2(\theta_1 \otimes \theta_1) + \sigma^2 I_p$ を用いる。
1000回のモンテカルロ再現を用いて、$n$ と $p=10^3$ を変化させた際のリスクおよび分散推定量の理論的結果の妥当性を検証する。

実験結果

リサーチクエスチョン

RQ1高次元設定において、$\|\hat{P}_r - P_r\|_2^2$ の分布はどの程度正規分布で近似可能か？
RQ2有効ランク $\mathbf{r}(\Sigma)$ は、スペクトル射影子誤差の正規近似精度および集中性にどのように寄与するか？
RQ3有限標本において、経験的バイアス推定量 $\hat{b}_r^{(n)}$ 及び $\tilde{b}_r^{(n)}$ は真のリスク $\mathbb{E}\|\hat{P}_r - P_r\|_2^2$ をどの程度よく近似するか？
RQ4スプライクド共分散モデルの下で、正規化誤差 $\frac{n}{\hat{B}_n}(\|\hat{P}_1^{(n)} - P_1\|_2^2 + 2\hat{b}_1^{(n)})$ の漸近的分布は何か？
RQ5有限標本において、リスクおよび分散の一次近似は経験的推定量と比べてどの程度優れているか？

主な発見

有効ランク $\mathbf{r}(\Sigma) = o(n)$ の下で、$\|\hat{P}_r - P_r\|_2^2$ の分布と正規分布との間のコルモゴロフ距離は $O(\mathbf{r}(\Sigma)^{-1/2})$ で有界である。
$p = 10^3$ の場合、$n \leq 300$ の小標本サイズでは、経験的バイアス推定量 $-2\hat{b}_1^{(n)}$ が一次近似 $A_n/n$ よりもリスクの近似が優れている。
$n \geq 10^3$ の大標本サイズでは、一次近似 $A_n/n$ が $-2\hat{b}_1^{(n)}$ よりも精度が高く、相対誤差は 0.008 まで低下する。
分散推定量 $\tilde{V}_n = \left((1 + \hat{b}_1^{(n)})^2 - (1 + \tilde{b}_1^{(n)})^2\right)^2$ と一次近似 $B_n^2/n^2$ の両方とも、$n$ が増加するにつれて経験的分散 $\hat{S}_n^2$ からの相対誤差が減少し、$n = 10^4$ で 0.05 に達する。
スプライクドモデルの下で $p_n \to \infty$、$p_n = o(n)$ が成り立つとき、正規化統計量 $\frac{n}{\hat{B}_n}(\|\hat{P}_1^{(n)} - P_1\|_2^2 + 2\hat{b}_1^{(n)})$ は標準正規分布に分布収束する。
$p = 1000$ の場合、正規化誤差統計量の経験的密度は標準正規分布と非常によく一致しており、漸近的正規性の結果が確認される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。