[論文レビュー] Confounder Adjustment in Multiple Hypothesis Testing
本稿は、RUV-4とLEAPPを一般化することで、複数の主変数およびノイズ変数を扱えるようにして、大規模な多重仮説検定における交絡要因補正手法を統一する。交絡要因が強い場合、推定子がオラクル推定子と漸近的に同等の検出力を持つという理論的保証を提供し、標本サイズが中程度の範囲でも、漸近的z検定が第1種誤りを制御し、Benjamini-Hochberg法がFDRを制御することを示す。
We consider large-scale studies in which thousands of significance tests are performed simultaneously. In some of these studies, the multiple testing procedure can be severely biased by latent confounding factors such as batch effects and unmeasured covariates that correlate with both primary variable(s) of interest (e.g. treatment variable, phenotype) and the outcome. Over the past decade, many statistical methods have been proposed to adjust for the confounders in hypothesis testing. We unify these methods in the same framework, generalize them to include multiple primary variables and multiple nuisance variables, and analyze their statistical properties. In particular, we provide theoretical guarantees for RUV-4 and LEAPP, which correspond to two different identification conditions in the framework: the first requires a set of "negative controls" that are known a priori to follow the null distribution; the second requires the true non-nulls to be sparse. Two different estimators which are based on RUV-4 and LEAPP are then applied to these two scenarios. We show that if the confounding factors are strong, the resulting estimators can be asymptotically as powerful as the oracle estimator which observes the latent confounding factors. For hypothesis testing, we show the asymptotic z-tests based on the estimators can control the type I error. Numerical experiments show that the false discovery rate is also controlled by the Benjamini-Hochberg procedure when the sample size is reasonably large.
研究の動機と目的
- 主変数とアウトカムの両方に相関する潜在的交絡要因(バッチ効果や測定されない共変量など)によるバイアスを受ける多重仮説検定の問題に対処する。
- 特にRUV-4とLEAPPを含む既存の交絡要因補正手法を、複数の主変数およびノイズ変数を扱える統一的な統計的枠組みに統合する。
- 2つの異なる同定条件(RUV-4のネガティブコントロール、LEAPPの非ノンゼロ効果のスパarsity)の下で、推定子の漸近的妥当性を理論的に裏付ける。
- 交絡要因補正済み推定子が、真の潜在的交絡要因を観測するオラクル推定子と同等の漸近的検出力を達成することを示す。
- 提案された枠組みの下で、第1種誤り率が正しく保たれるように、下流の推論(漸近的z検定およびBenjamini-HochbergによるFDR制御)を保証する。
提案手法
- 主変数、交絡要因、誤差項を含む線形モデルを定式化し、交絡要因は潜在的で、主変数およびアウトカムの両方と相関するものとする。
- 2つの推定子を提案:1つはRUV-4に基づき、既知のネガティブコントロール(ノンゼロでない変数)を用いて交絡要因を推定するもの、もう1つはLEAPPに基づき、非ノンゼロ効果のスパarsity仮定を用いるもの。
- レジラント回帰およびサロゲート変数分析を用いて、データから潜在的交絡要因を推定し、ネガティブコントロールまたはスパarsityを活用して交絡構造を同定する。
- 中心極限定理およびマルティングル型の議論を用いて、検定統計量の漸近的正規性を確立し、z検定における第1種誤りの適切な制御を保証する。
- Benjamini-Hochberg手順を適用して誤り発見率(FDR)を制御し、標本サイズが中程度の範囲でも実証的FDR制御を示す。
- 高次元漸近理論を用いて、交絡要因推定子の理論的収束速度を導出し、推定係数の一致性および漸近的正規性を示す。
実験結果
リサーチクエスチョン
- RQ1RUV-4およびLEAPPの交絡要因補正手法は、複数の主変数およびノイズ変数に一般化可能な統一的枠組みの下で統合可能か?
- RQ2RUV-4およびLEAPP推定子は、真の交絡要因を観測するオラクル推定子と同等の漸近的効率性を達成する条件は何か?
- RQ3提案された交絡要因補正により、漸近的z検定における第1種誤り率が適切に制御されるか?
- RQ4有限標本下でも、交絡要因補正後にBenjamini-Hochberg手順が誤り発見率(FDR)を信頼性高く制御できるか?
- RQ5交絡要因の強度や非ノンゼロ効果のスパarsityの異なる水準下で、推定子はどのように性能を示すか?
主な発見
- 交絡要因が強い場合、RUV-4およびLEAPP推定子は、真の潜在的交絡要因を観測するオラクル推定子と漸近的に同等の検出力を達成する。
- 帰無仮説下でも、補正済み推定子に基づく漸近的z検定は、交絡要因が存在しても第1種誤りを適切に制御する。
- 数値実験により、標本サイズが十分に大きい場合にはBenjamini-Hochberg手順が誤り発見率(FDR)を制御することが示された。
- ネガティブコントロールに基づく推定子(RUV-4)は、既知のノンゼロでない変数の集合が存在するという仮定の下で一貫性を示す。
- スパarsityに基づく推定子(LEAPP)は、非ノンゼロ効果がスパースであるという仮定の下で一貫性を示し、正則化および高次元漸近論を用いて収束速度を導出する。
- 理論的解析により、検定統計量の漸近的分布が正規分布でよく近似されることを確認し、有効な推論が可能であることが裏付けられた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。