[论文解读] Covariate powered cross-weighted multiple testing with false discovery rate control
本文提出了协变量驱动的交叉加权多重假设检验(Covariate Powered Cross-Weighted Multiple Testing),一种通过协变量指导数据驱动权重,在Benjamini-Hochberg风格的FDR控制过程中提升统计功效的方法。通过采用交叉加权策略防止过拟合,该方法实现了有限样本下的FDR控制,并在假设检验存在协变量所捕捉的异质性时显著提升了功效。
Consider a large-scale multiple testing setup where we observe pairs $((P_i, X_i))_{1\leq i \leq m}$ of p-values $P_i$ and covariates $X_i$, such that $P_i \perp X_i$ under the null hypothesis. Our goal is to use the information potentially available in the covariates about heterogeneities among hypotheses to increase power compared to conventional procedures that only use the $P_i$, while still controlling the false discovery rate (FDR). To this end, we recently introduced independent hypothesis weighting (IHW), a weighted variant of the Benjamini-Hochberg method, in which the weights are chosen in a data-driven manner as a function of the covariate $X_i$. We showed empirically that IHW leads to a large power increase, while asymptotically controlling the FDR. In this paper, we provide a rigorous statistical framework for understanding IHW: its asymptotic characteristics are viewed through the lens of the conditional two-groups model, while favorable finite-sample properties are achieved by cross-weighting, a novel data-splitting approach that enables learning the weight-covariate function without overfitting. We provide results on finite sample behavior of IHW and of IHW-Bonferroni, its adaptation to the family-wise error rate (FWER). These results are valid as long as the hypotheses can be partitioned into independent folds, with arbitrary within-fold dependence. Furthermore, under full independence, we prove finite sample FDR control for IHWc, a slightly modified variant of IHW. A key implication of IHW is that hypothesis rejection in heterogeneous multiple testing setups should not proceed according to the ranking implied by the p-values; the covariate-weighted p-values instead provide a more informative ranking.
研究动机与目标
- 为解决传统多重检验方法忽略协变量信息而导致在异质性环境中功效不足的问题。
- 开发一种利用协变量提升大规模多重检验统计功效的方法,同时不增加错误发现率。
- 在假设检验内部折叠存在任意依赖关系的情况下,确保有限样本下的FDR控制。
- 基于条件两组模型和交叉加权,为独立假设加权(IHW)提供严谨的统计框架。
- 将方法扩展至通过IHW-Bonferroni控制家庭错误率,同时在依赖结构下保持有效性。
提出的方法
- 该方法利用从协变量 $X_i$ 衍生的数据驱动权重重新加权p值 $P_i$,生成协变量加权p值排序,从而在功效上优于标准p值排序。
- 交叉加权将数据划分为若干折,以在不发生过拟合的情况下学习权重-协变量函数,从而确保有限样本下的FDR控制。
- 该方法基于条件两组模型,该模型在原假设和备择假设下,以协变量为条件对p值分布进行建模。
- IHWc是IHW的一种改进变体,在完全独立条件下被证明可在有限样本下实现精确的FDR控制,具有强有力的理论保证。
- 该方法允许假设在折叠内部存在任意依赖关系,因此对复杂的依赖结构具有鲁棒性。
- IHW-Bonferroni通过将IHW与Bonferroni校正相结合,将该框架扩展至控制家庭错误率。
实验结果
研究问题
- RQ1是否可以利用协变量信息在保持FDR控制的前提下提升多重检验的统计功效?
- RQ2在有限样本下,如何无过拟合地学习从协变量导出的数据驱动权重?
- RQ3当假设在折叠内部存在依赖关系时,加权多重检验程序的有限样本性质如何?
- RQ4使用协变量加权p值是否能提供比仅使用p值排序更强大且更具信息量的排序?
- RQ5该框架能否扩展至控制家庭错误率,同时保持功效增益?
主要发现
- 所提出的IHW方法通过利用协变量信息,相较于仅使用p值的传统方法,显著提升了统计功效。
- 交叉加权确保了权重-协变量函数的可靠学习,即使在任意内部折叠依赖关系下,也能实现有限样本下的FDR控制。
- 在完全独立条件下,IHWc实现了精确的有限样本FDR控制,具有强有力的理论保证。
- 该方法表明,应基于协变量加权p值而非仅基于p值排序来决定假设是否拒绝,因为前者能更有效地检测真实信号。
- IHW-Bonferroni成功将框架扩展至控制家庭错误率,同时保持了功效优势。
- 该框架对折叠内部的依赖关系具有鲁棒性,使其适用于广泛的现实世界多重检验场景。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。