Skip to main content
QUICK REVIEW

[論文レビュー] A More Powerful Two-Sample Test in High Dimensions using Random Projection

Miles E. Lopes, Laurent Jacob|arXiv (Cornell University)|Aug 11, 2011
Statistical Methods and Inference参考文献 35被引用数 53
ひとこと要約

本稿では、ランダムプロジェクションとホットテリング $T^2$ 統計量を組み合わせることで、高次元多変量正規分布データに対する新しい二標本検定を提案する。高次元データを低次元部分空間に投影した後、ホットテリング検定を適用することで、$p/n \to \infty$ または $p/n \to c \in (0,\infty)$ の場合に、バイ・サラナダサ、チェン・チン、スリバスタヴァ=ドゥらの最先端手法と比較してより高い漸近的パワーを達成する。また、正確なレベル-$\alpha$ 有意水準の臨界値を提供する。

ABSTRACT

We consider the hypothesis testing problem of detecting a shift between the means of two multivariate normal distributions in the high-dimensional setting, allowing for the data dimension p to exceed the sample size n. Specifically, we propose a new test statistic for the two-sample test of means that integrates a random projection with the classical Hotelling T^2 statistic. Working under a high-dimensional framework with (p,n) tending to infinity, we first derive an asymptotic power function for our test, and then provide sufficient conditions for it to achieve greater power than other state-of-the-art tests. Using ROC curves generated from synthetic data, we demonstrate superior performance against competing tests in the parameter regimes anticipated by our theoretical results. Lastly, we illustrate an advantage of our procedure's false positive rate with comparisons on high-dimensional gene expression data involving the discrimination of different types of cancer.

研究の動機と目的

  • $p > n$ または $p \approx n$ の高次元設定において、古典的ホットテリング $T^2$ が性能を発揮できない問題を解決する。
  • $p > n$ の場合にサンプル共分散行列 $\widehat{\Sigma}$ が特異化するのを回避し、標準的ホットテリング検定を無効にする要因を克服する。
  • 高次元漸近的設定下で、バイ・サラナダサ、チェン・チン、スリバスタヴァ=ドゥらの手法と比較して、より高い漸近的パワーを持つ検定を開発する。
  • 近似に依存する競合手法とは異なり、正確なレベル-$\alpha$ 臨界値を提供する。
  • 合成データおよび高次元がん遺伝子発現データにおいて、がん識別に優れた性能を示す。

提案手法

  • $p$ 次元の標本を、$k \leq \min\{n, p\}$ の $k$ 次元部分空間に投影するためのランダムプロジェクション行列 $P_k$ を適用する。
  • 投影された標本平均と投影された共分散推定量を用いて、$k$ 次元空間におけるホットテリング $T^2$ 検定統計量を計算する。
  • 高次元設定 $(p,n) \to \infty$ で $p/n \to a \in (0,\infty)$ または $p/n \to \infty$ の下で、投影された検定の漸近的パワー関数を導出する。
  • 濃度不等式とランダム行列理論を用いて、$\Delta_k^2 / \|\delta\|_2^2$ の比を評価する。ここで $\Delta_k^2$ は投影された効果量を表す。
  • $\Sigma$ の固有構造に関する適切な条件下で、既存手法よりも漸近的パワーが優れていることを確立する。
  • 帰無仮説下での投影された $T^2$ の分布的性質を活用することで、正確なレベル-$\alpha$ 臨界値を保証する。

実験結果

リサーチクエスチョン

  • RQ1$p > n$ の高次元設定において、ランダムプロジェクションが二標本ホットテリング $T^2$ 検定のパワーを向上させることができるか?
  • RQ2提案手法が、同じ高次元漸近的設定下でバイ・サラナダサ、チェン・チン、スリバスタヴァ=ドゥの手法よりも高い漸近的パワーを達成するか?
  • RQ3近似に基づく競合手法とは異なり、提案手法が正確なレベル-$\alpha$ の誤り制御を維持できるか?
  • RQ4$p/n \to \infty$ と $p/n \to c \in (0,\infty)$ の場合に、検定の性能にどのような差が生じるか?
  • RQ5高次元において、投影された効果量と元の効果量との理論的関係は何か?

主な発見

  • $p/n \to a \in (0,\infty)$ または $p/n \to \infty$ の条件下で、$\Sigma$ の固有値に適切な条件が満たされれば、提案手法はバイ・サラナダサ、チェン・チン、スリバスタヴァ=ドゥの手法よりも高い漸近的パワーを達成する。
  • $(p,n) \to \infty$ の共同極限下で、提案手法の漸近的パワー関数が導出され、$p/n \to 1$ の場合でも非自明なパワーを維持することが示された。
  • 特定のパrameter領域では、既存手法と比較して、提案手法の漸近的相対効率が1より大きいことが示され、優れたパワーを示す。
  • 適切なスケーリングの下で、$n \to \infty$ のとき、比 $\Delta_k^2 / \|\delta\|_2^2$ は、$\frac{(1-\sqrt{a})^2}{\operatorname{tr}(\Sigma)/k}$ と $\frac{(1+\sqrt{a})^2}{\operatorname{tr}(\Sigma)/k}$ の間の極限に確率的に収束する。
  • 合成データにおけるROC曲線の比較により、理論で予測されたパラメータ領域で、競合手法よりも優れた性能を確認した。
  • 高次元遺伝子発現データでは、提案手法が既存手法よりも低い偽陽性率を維持しており、実用的なロバストネスを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。