Skip to main content
QUICK REVIEW

[論文レビュー] Multivariate Analysis of Nonparametric Estimates of Large Correlation Matrices

Ritwik Mitra, Cun‐Hui Zhang|arXiv (Cornell University)|Mar 24, 2014
Random Matrices and Applications参考文献 34被引用数 22
ひとこと要約

本稿では、ガウスコプラー・モデル下での大規模相関行列の非パラメトリック推定器について、スペクトルノルムの集中不等式を確立する。主に正弦変換を施したケンダールのtauとスピアーマンのrhoに注目し、高次元設定下でこれらの推定器がオракルな標本相関行列と同等のスペクトル誤差率を達成することを証明する。これにより、バンド行列の最小最大最適推定とスパースPCAの推定が可能となる。

ABSTRACT

We study concentration in spectral norm of nonparametric estimates of correlation matrices. We work within the confine of a Gaussian copula model. Two nonparametric estimators of the correlation matrix, the sine transformations of the Kendall's tau and Spearman's rho correlation coefficient, are studied. Expected spectrum error bound is obtained for both the estimators. A general large deviation bound for the maximum spectral error of a collection of submatrices of a given dimension is also established. These results prove that when both the number of variables and sample size are large, the spectral error of the nonparametric estimators is of no greater order than that of the latent sample covariance matrix, at least when compared with some of the sharpest known error bounds for the later. As an application, we establish the minimax optimal convergence rate in the estimation of high-dimensional bandable correlation matrices via tapering off of these nonparametric estimators. An optimal convergence rate for sparse principal component analysis is also established as another example of possible applications of the main results.

研究の動機と目的

  • 元のデータがガウスコプラー・モデルに従う場合の、非パラメトリック相関行列推定器(ケンダールのtauとスピアーマンのrho)の精度を分析すること。
  • 変数数 $d$ と標本サイズ $n$ が両方とも大きくなる高次元設定下で、これらの推定器のスペクトルノルムの集中不等式を確立すること。
  • 既知の誤差境界下で、非パラメトリック推定器のスペクトル誤差がオラクルな標本相関行列のものと同程度のオーダーに抑えられることを示すこと。
  • 非パラメトリック推定器のテーピングを用いた高次元バンド行列の推定における最小最大最適収束レートを導出すること。
  • これらの結果をスパース主成分分析への応用に拡張し、非パラメトリック推定器を用いて最適収束レートが達成可能であることを示すこと。

提案手法

  • 非観測の潜在変数 $\boldsymbol{X}$ をガウスコプラー・モデルでモデル化し、観測データ $\boldsymbol{Y}$ を $\boldsymbol{X}$ の未知の厳密に増加する変換とみなす。
  • 2つの非パラメトリック推定器を分析する:$\widehat{\boldsymbol{\Sigma}}^{\tau}$(正弦変換を施したケンダールのtau)および $\widehat{\boldsymbol{\Sigma}}^{\rho}$(正弦変換を施したスピアーマンのrho)、両者とも有界カーネルを持つU統計量に基づく。
  • ホーフディングの不等式およびリプシッツ関数に対する測度集中を用いて、推定誤差のスペクトルノルムに関する大偏差境界を導出する。
  • ホーフディング分解を用いて推定誤差を一次成分と退化した二次成分に分離し、尾確率の境界を可能にする。
  • 行列の集中不等式およびスペクトルノルムの制御を用いて、特定サイズの部分行列における最大スペクトル誤差を境界付ける。
  • これらの結果を応用し、非パラメトリック推定器のテーピングによるバンド行列推定の最小最大最適収束レートおよびスパースPCAの導出を行う。

実験結果

リサーチクエスチョン

  • RQ1高次元設定下で、非パラメトリック相関行列推定器の推定誤差のスペクトルノルムはどのように振る舞うか?
  • RQ2ケンダールのtauやスピアーマンのrhoのような非パラメトリック推定器のスペクトル誤差は、オラクルな標本相関行列の性能と同等の形で境界付け可能か?
  • RQ3非パラメトリック推定器を用いた高次元バンド行列の推定における最小最大最適レートは何か?
  • RQ4提案された非パラメトリック推定器はスパース主成分分析において最適収束レートを達成できるか?
  • RQ5ガウスコプラー・モデルは、潜在変数の仮定下での非パラメトリック相関推定器の分析をどのように可能にするか?

主な発見

  • ケンダールのtauおよびスピアーマンのrho推定器の期待スペクトル誤差は、$O\left(\frac{\|\boldsymbol{\Sigma}\|_F^2}{n}\right)$ で抑えられ、両推定器に対して定数 $C_1 \leq 2$ が成り立つ。
  • すべての $s \times s$ 部分行列における最大スペクトル誤差について、一般化された大偏差境界を確立し、$\mathbb{P}\left(\|\boldsymbol{\Delta}^{(1)}\|_S > t\right) \leq 4d^2 e^{-t}$ が $t = s(2\log 2d + t)$ の下で成立することを示した。
  • 既知の境界下で、非パラメトリック推定器のスペクトル誤差は、オラクルな標本相関行列 $\widetilde{\boldsymbol{\Sigma}}^s$ のものと同程度のオーダーである。
  • バンド行列の設定では、非パラメトリック推定器のテーピングがスペクトルノルムにおいて最小最大最適収束レートを達成する。
  • 適切なスパarsity仮定の下で、非パラメトリック推定器を用いたスパースPCAのための最適収束レートを確立し、誤差は $O(\sqrt{s \log d / n})$ のオーダーでスケーリングする。
  • ケンダールのtauおよびスピアーマンのrhoの正弦変換は、スペクトル構造を十分に保っているため、高次元モデルにおける最適推定が可能となる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。