QUICK REVIEW

[論文レビュー] Hypothesis testing in non-sparse high-dimensional linear models

Yinchu Zhu, Jelena Bradić|arXiv (Cornell University)|Oct 7, 2016

Statistical Methods and Inference参考文献 20被引用数 2

ひとこと要約

本稿では、スパースおよびドメイン設計の両方においても、スパarsity仮定が破綻しても有効な、高次元線形モデル向けの頑健な仮説検定手法CorrTを提案する。既存手法とは異なり、CorrTは名目水準での第一種過誤を制御し、スパース、ドメイン、ハイブリッドモデルのすべてにおいて低第二種過誤を達成し、シミュレーションで最適性と優れた性能を示している。

ABSTRACT

In high-dimensional linear models, the sparsity assumption is typically made, stating that most of the parameters are equal to zero. Under the sparsity assumption, estimation and, recently, inference have been well studied. However, in practice, sparsity assumption is not checkable and more importantly is often violated; a large number of covariates might be expected to be associated with the response, indicating that possibly all, rather than just a few, parameters are non-zero. A natural example is a genome-wide gene expression profiling, where all genes are believed to affect a common disease marker. We show that existing inferential methods are sensitive to the sparsity assumption, and may, in turn, result in the severe lack of control of Type-I error. In this article, we propose a new inferential method, named CorrT, which is robust to model misspecification such as heteroscedasticity and lack of sparsity. CorrT is shown to have Type I error approaching the nominal level for extit{any} models and Type II error approaching zero for sparse and many dense models. In fact, CorrT is also shown to be optimal in a variety of frameworks: sparse, non-sparse and hybrid models where sparse and dense signals are mixed. Numerical experiments show a favorable performance of the CorrT test compared to the state-of-the-art methods.

研究の動機と目的

既存の高次元推論手法が検証不能なスパarsity仮定に依存するという顕著な制限を解決すること。
スパarsity仮定が破綻する状況、たとえば多くの共変量が応答変数に影響を与えるドメインモデルにおいても有効な仮説検定手順を開発すること。
異分散性や非スパースなパラメータ構造を含むモデル誤り指定下でも第一種過誤制御を保証すること。
スパース、ドメイン、およびスパースとドメインの信号が混合したハイブリッドモデルという多様なモデルクラスにおいて最適なパワーを達成すること。
現実的で非スパースな高次元状況で失敗する現在の手法の実用的で頑健な代替手段を提供すること。

提案手法

CorrTは、共変量間の相関を考慮し、誤差構造における潜在的な異分散性に対応する新しい検定統計量を導入する。
多くのパラメータが非ゼロであっても、高次元回帰係数の推定バイアスを補正するデバイアシング手順を採用する。
一般誤差分布および弱依存仮定下でも有効な推論を保証する共分散補正メカニズムを用いる。
帰無仮説下で漸近的にピロティカルとなるように検定統計量を構築し、モデルのスパarsityにかかわらず正確なサイズ制御を可能にする。
p値を計算するためにワイルドブートストラップまたは解析的近似を活用し、異分散性や正規分布でない誤差に対しても頑健性を確保する。
極限において分布に依存しないように設計されており、スパarsityを仮定せず、広範な高次元モデルにわたって有効性を維持する。

実験結果

リサーチクエスチョン

RQ1実際の状況でスパarsity仮定が破綻した場合、既存の高次元推論手法はどのように性能を示すか？
RQ2多くの共変量が真に影響を与える非スパースモデルにおいて、仮説検定手順が第一種過誤制御を維持できるか？
RQ3スパース、ドメイン、および混合信号構造を有するハイブリッド高次元モデルのすべてにおいて最適なパワーを達成できる手法は存在するか？
RQ4モデル誤り指定下で、CorrTは最先端手法と比較して第一種過誤制御および統計的パワーの点でどのように差をつけるか？
RQ5スパarsity仮定に依存せず、理論的保証を維持する頑健な推論手法を開発できるか？

主な発見

CorrTは、スパースでない設定を含むすべての検討されたモデルで、名目水準での第一種過誤を制御する。既存手法が失敗する状況でも有効である。
CorrTの第二種過誤は、スパースモデルおよびドメインモデルの両方でゼロに近づき、高い統計的パワーを示している。
スパース、非スパース、および混合信号構造を有するハイブリッドモデルというさまざまなフレームワークにおいて、CorrTはパワーの観点で最適性を達成している。
数値実験により、CorrTは第一種過誤制御およびパワーの両面で最先端手法を上回っていることが示され、特にモデル誤り指定下で顕著な優位性を示している。
CorrTは異分散性に対しても頑健であり、スパarsityに関する仮定を必要としないため、ゲノムワイド関連解析などの実世界の応用に適している。
CorrTの性能は、さまざまなサンプルサイズおよび次元性の範囲で安定しており、高次元推論における実用的有用性を裏付けている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。