Skip to main content
QUICK REVIEW

[論文レビュー] High Dimensional Semiparametric Gaussian Copula Graphical Models

Han Liu, Fang Han|arXiv (Cornell University)|Feb 10, 2012
Statistical Methods and Inference被引用数 3
ひとこと要約

本稿では、正規スコアの代わりに順位に基づく相関尺度(スピアマンのrhoとケンドールのtau)を用いて精度行列を推定する、ロバストな高次元グラフィカルモデル推定量であるnonparanormal skepticを提案する。非正規分布や外れ値を含むデータに対しても、グラフ回復およびパrameter推定の両方で最適なパrametric収束速度を達成でき、ガウスグラフィカルモデルや従来のnonparanormal手法の統計的に効率的でロバストな代替手法である。

ABSTRACT

In this paper, we propose a semiparametric approach, named nonparanormal skeptic, for efficiently and robustly estimating high dimensional undirected graphical models. To achieve modeling flexibility, we consider Gaussian Copula graphical models (or the nonparanormal) as proposed by Liu et al. (2009). To achieve estimation robustness, we exploit nonparametric rank-based correlation coefficient estimators, including Spearman's rho and Kendall's tau. In high dimensional settings, we prove that the nonparanormal skeptic achieves the optimal parametric rate of convergence in both graph and parameter estimation. This celebrating result suggests that the Gaussian copula graphical models can be used as a safe replacement of the popular Gaussian graphical models, even when the data are truly Gaussian. Besides theoretical analysis, we also conduct thorough numerical simulations to compare different estimators for their graph recovery performance under both ideal and noisy settings. The proposed methods are then applied on a large-scale genomic dataset to illustrate their empirical usefulness. The R language software package huge implementing the proposed methods is available on the Comprehensive R Archive Network: http://cran. r-project.org/.

研究の動機と目的

  • データが正規性から逸脱する、または外れ値を含む状況下でも、高次元の無向グラフィカルモデル推定に対してロバストで効率的な手法を開発すること。
  • 高次元設定下で、精度行列推定およびグラフ回復の両方において最適なパrametric収束速度を達成すること。
  • マージナル変換関数の推定を不要とすることで、従来のnonparanormal手法に比べてチューニングの複雑さを低減すること。
  • データが真にガウス分布であっても、ガウスグラフィカルモデルの安全で統計的に効率的な代替手法を提供すること。
  • データが汚染されている状況下で、正規スコアに基づく手法に比べて順位ベースの推定量(スピアマンのrho、ケンドールのtau)が優れていることを示すこと。

提案手法

  • マージナル変換関数の明示的推定を回避するため、非パラメトリックな順位ベースの相関推定量を用いる半パラメトリックな手法としてnonparanormal skepticを提案する。
  • スピアマンのrhoとケンドールのtauを、変換関数にパラメトリックな仮定を置かない、頑健な相関行列推定量として用いる。
  • 既存のパラメトリックなグラフィカルモデル手順(例:グラフィカルlasso、CLIME、グラフィカルDantzig選択子)に順位ベースの相関推定量を組み込み、最終的な精度行列およびグラフ推定を実行する。
  • ケンドールのtauのU統計量表現を用い、ホーフディングの不等式を適用して順位ベースの相関推定量の集中限界を導出する。
  • 理論的分析では、CLIMEおよびグラフィカルDantzig選択子に関する既存の結果を活用し、nonparanormalモデル下でのミニマックス最適性を確立する。
  • マージナル変換関数の一貫性ある推定も副次的なコンponentとして提供されるが、これはシンキングのコア手順には不要である。

実験結果

リサーチクエスチョン

  • RQ1スピアマンのrhoやケンドールのtauといった順位ベースの相関推定量は、高次元のnonparanormalグラフィカルモデルにおいて、最適なパrametric収束速度を達成できるか?
  • RQ2データが汚染されている、または非正規分布である状況下で、nonparanormal skepticは元々の正規スコアに基づくnonparanormal推定量を上回るか?
  • RQ3順位ベースの推定量の頑健性は、データが真にガウス分布であっても、最適な統計的効率性を維持できるか?
  • RQ4nonparanormal skepticとCLIMEやグラフィカルlassoといった既存のパラメトリック推定量との理論的関係は何か?
  • RQ5nonparanormal skepticと従来のnonparanormal手法との間で、チューニングパrameterの数と計算複雑度はどのように比較できるか?

主な発見

  • nonparanormal skepticは、精度行列推定およびグラフ回復の両方において、非パラメトリックモデル下で最良の可能性であるO(√(log d / n))の最適なパrametric収束速度を達成する。
  • 低汚染条件下では正規スコアに基づく推定量がわずかに効率的であるが、高汚染条件下ではnonparanormal skepticが著しく優れており、優れた頑健性を示す。
  • マージナル変換関数の推定を必要としないため、Liuら(2009)の手法に比べてチューニングの複雑さが低減される。
  • 理論的分析により、nonparanormal族がガウス族よりも大きいにもかかわらず、nonparanormal skepticがミニマックス最適性を維持することが確認された。
  • 数値シミュレーションにより、nonparanormal skepticは理想状態およびノイズのある状態の両方で高いグラフ回復精度を維持することが示された。
  • 大規模なゲノムデータセットを用いた実験により、生物学的制御ネットワークの構築において実用的有用性が実証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。