Skip to main content
QUICK REVIEW

[论文解读] Confounder Adjustment in Multiple Hypothesis Testing

Jingshu Wang, Qingyuan Zhao|arXiv (Cornell University)|Aug 17, 2015
Statistical Methods in Clinical Trials参考文献 63被引用 24
一句话总结

本文通过将RUV-4和LEAPP推广至处理多个主要变量和混杂变量,统一了大规模多重假设检验中的混杂变量校正方法。它提供了理论保证:当混杂因素较强时,估计量的渐近功效与可观察到潜在混杂因素的“理想”估计量相当;并表明渐近z检验在控制第一类错误方面表现良好,且在中等样本量下Benjamini-Hochberg方法能有效控制FDR。

ABSTRACT

We consider large-scale studies in which thousands of significance tests are performed simultaneously. In some of these studies, the multiple testing procedure can be severely biased by latent confounding factors such as batch effects and unmeasured covariates that correlate with both primary variable(s) of interest (e.g. treatment variable, phenotype) and the outcome. Over the past decade, many statistical methods have been proposed to adjust for the confounders in hypothesis testing. We unify these methods in the same framework, generalize them to include multiple primary variables and multiple nuisance variables, and analyze their statistical properties. In particular, we provide theoretical guarantees for RUV-4 and LEAPP, which correspond to two different identification conditions in the framework: the first requires a set of "negative controls" that are known a priori to follow the null distribution; the second requires the true non-nulls to be sparse. Two different estimators which are based on RUV-4 and LEAPP are then applied to these two scenarios. We show that if the confounding factors are strong, the resulting estimators can be asymptotically as powerful as the oracle estimator which observes the latent confounding factors. For hypothesis testing, we show the asymptotic z-tests based on the estimators can control the type I error. Numerical experiments show that the false discovery rate is also controlled by the Benjamini-Hochberg procedure when the sample size is reasonably large.

研究动机与目标

  • 解决由于潜在混杂因素(如批次效应和未测量协变量)导致的偏倚多重检验问题,这些混杂因素与主要变量和结果均相关。
  • 将现有混杂变量校正方法——特别是RUV-4和LEAPP——统一到一个适用于多个主要变量和干扰变量的单一统计框架中。
  • 为两种不同的识别条件提供理论依据:负控制(RUV-4)和非零效应的稀疏性(LEAPP)。
  • 证明经过混杂变量校正的估计量在渐近意义上可达到与可观察到潜在混杂因素的“理想”估计量相当的功效。
  • 确保在所提出的框架下,下游推断(包括渐近z检验和Benjamini-Hochberg FDR控制)能保持正确的错误率。

提出的方法

  • 构建一个包含主要变量、混杂因素和误差项的线性模型,其中混杂因素为潜变量,且与主要变量和结果均相关。
  • 提出两种估计量:一种基于RUV-4,利用已知的负控制(零假设变量)来估计混杂因素;另一种基于LEAPP,利用非零效应的稀疏性假设。
  • 使用稳健回归和代理变量分析从数据中估计潜在混杂因素,利用负控制或稀疏性来识别混杂结构。
  • 通过中心极限定理和鞅型论证建立检验统计量的渐近正态性,确保z检验中第一类错误控制的有效性。
  • 应用Benjamini-Hochberg程序以控制错误发现率(FDR),并表明在中等样本量下经验FDR得到良好控制。
  • 利用高维渐近理论推导混杂因素估计量的理论收敛速率,包括估计系数的一致性和渐近正态性。

实验结果

研究问题

  • RQ1是否可以将混杂变量校正方法统一在一个单一框架下,使其可推广至多个主要变量和干扰变量?
  • RQ2在何种条件下,RUV-4和LEAPP估计量能达到与可观察到真实混杂因素的“理想”估计量相当的渐近效率?
  • RQ3所提出的混杂变量校正方法是否能保持渐近z检验的第一类错误控制?
  • RQ4在有限样本中,Benjamini-Hochberg程序在混杂变量校正后是否能可靠地控制错误发现率?
  • RQ5在不同强度的混杂因素和非零效应稀疏性水平下,这些估计量的表现如何?

主要发现

  • 当混杂因素较强时,RUV-4和LEAPP估计量的渐近功效与可观察到真实潜在混杂因素的“理想”估计量相当。
  • 基于校正估计量的渐近z检验在原假设下能有效控制第一类错误,即使存在混杂因素。
  • 数值实验表明,当样本量足够大时,Benjamini-Hochberg程序能有效控制错误发现率。
  • 基于负控制的估计量(RUV-4)在存在一组已知零假设变量的假设下具有一致性。
  • 基于稀疏性的估计量(LEAPP)在非零效应稀疏的假设下具有一致性,其收敛速率通过正则化和高维渐近分析推导得出。
  • 理论分析证实,检验统计量的渐近分布可良好地被正态分布近似,从而支持有效的推断。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。