QUICK REVIEW

[論文レビュー] Hypothesis Testing for Sparse Binary Regression

Rajarshi Mukherjee, Natesh S. Pillai|arXiv (Cornell University)|Aug 4, 2013

Genetic Associations and Epidemiology参考文献 11被引用数 5

ひとこと要約

本稿は、スパース制約下での高次元スパース2値回帰における検出境界を確立し、検出力に影響を与える設計行列のスパarsityインデックスを導入した。過度な設計行列のスパarsityは、信号強度にかかわらず、いかなる検定に対しても漸近的に無力であることを示し、スパース代替仮説のためのレート最適な拡張ハイヤーキリシス検定を提案した。シミュレーションにより結果の妥当性が検証された。

ABSTRACT

In this paper, we study the detection boundary for minimax hypothesis testing in the context of high-dimensional, sparse binary regression models. Motivated by genetic sequencing association studies for rare variant effects, we investigate the complexity of the hypothesis testing problem when the design matrix is sparse. We observe a new phenomenon in the behavior of detection boundary which does not occur in the case of Gaussian linear regression. We derive the detection boundary as a function of two components: a design matrix sparsity index and signal strength, each of which is a function of the sparsity of the alternative. For any alternative, if the design matrix sparsity index is too high, any test is asymptotically powerless irrespective of the magnitude of signal strength. For binary design matrices with the sparsity index that is not too high, our results are parallel to those in the Gaussian case. In this context, we derive detection boundaries for both dense and sparse regimes. For the dense regime, we show that the generalized likelihood ratio is rate optimal; for the sparse regime, we propose an extended Higher Criticism Test and show it is rate optimal and sharp. We illustrate the finite sample properties of the theoretical results using simulation studies.

研究の動機と目的

高次元スパース2値回帰モデルにおけるミニマックス仮説検定の検出境界を特定すること。
設計行列のスパarsityがスパース回帰設定における統計的検定の検出力に与える影響を調査すること。
遺伝子シークエンシングで一般的なレアバリアント効果を想定した状況において、ガウス分布から2値回帰への検出境界結果の拡張を図ること。
非ガウス分布の高次元検定におけるギャップを埋めるために、2値回帰におけるスパース代替仮説のためのレート最適な検定を構築すること。
有限標本におけるシミュレーションスタディを通じて理論的結果を検証すること。

提案手法

説明変数のスパarsityに起因する、検出力に影響を与える設計行列のスパarsityインデックスを導入し、検出力の主要なパラメータとして定義した。
スパarsityインデックスと信号強度の両関数として検出境界を導出し、高いスパarsityインデックスは信号の大きさにかかわらず検定を無力化することを示した。
密度領域では、一般化尤度比検定がレート最適であることを示した。
スパース領域では、スパarsityに配慮した統計量を組み込んだ拡張ハイヤーキリシス検定を提案し、これがレート最適かつ鋭いことを示した。
高次元スケーリング下での漸近的解析を用いて、検出可能とされない代替仮説の境界を特徴づけた。
提案された検定の有限標本性能を評価するシミュレーションスタディを通じて理論的結果を検証した。

実験結果

リサーチクエスチョン

RQ1高次元スパース2値回帰モデルにおけるミニマックス仮説検定の検出境界は何か？
RQ2信号強度にかかわらず、設計行列のスパarsityがいかなる統計的検定の検出力に影響を与えるか？
RQ32値回帰におけるスパース代替仮説のためのレート最適な検定を構築可能か？また、既存手法と比較してどう異なるか？
RQ42値回帰における検出境界は、ガウス線形モデルに存在しない新たな現象を示すか？
RQ5理論的検出境界は有限標本設定においてどのように性能を示すか？

主な発見

説明変数に十分な情報が欠如するため、設計行列の過度なスパarsityは、信号強度にかかわらず、いかなる検定に対しても漸近的に無力である。
中程度のスパarsityを持つ設計行列では、ガウス分布の場合と同様の検出閾値が得られ、類似した検出性能が達成できる。
密度領域では、一般化尤度比検定が最小最大検出レートを達成し、最適性が裏付けられた。
スパース領域では、提案された拡張ハイヤーキリシス検定がレート最適かつ鋭く、スパarsity下での標準的検定を上回る性能を示した。
シミュレーションスタディにより、理論的検出境界が有限標本における検定性能を正確に予測できることを確認した。
検出境界は、設計行列のスパarsityインデックスと代替仮説の信号強度の両関数として明示的に特徴づけられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。