Skip to main content
QUICK REVIEW

[论文解读] Semi-supervised multiple testing

David Mary, Étienne Roquain|arXiv (Cornell University)|Jun 25, 2021
Statistical Methods in Clinical Trials参考文献 58被引用 1
一句话总结

本文提出了一种半监督多重检验框架,可在不依赖已知零假设分布的情况下控制错误发现率(FDR),采用基于零假设训练样本(NTS)的经验p值方法。该文建立了使用经验p值的Benjamini-Hochberg(BH)程序的理论界,表明当NTS样本量 n ≳ m / (α max(1, k)) 时,可实现FDR控制,其中 m 为检验数量,k 为可检测到的备择假设数量。

ABSTRACT

An important limitation of standard multiple testing procedures is that the null distribution should be known. Here, we consider a null distribution-free approach for multiple testing in the following semi-supervised setting: the user does not know the null distribution, but has at hand a sample drawn from this null distribution. In practical situations, this null training sample (NTS) can come from previous experiments, from a part of the data under test, from specific simulations, or from a sampling process. In this work, we present theoretical results that handle such a framework, with a focus on the false discovery rate (FDR) control and the Benjamini-Hochberg (BH) procedure. First, we provide upper and lower bounds for the FDR of the BH procedure based on empirical $p$-values. These bounds match when $\alpha (n+1)/m$ is an integer, where $n$ is the NTS sample size and $m$ is the number of tests. Second, we give a power analysis for that procedure suggesting that the price to pay for ignoring the null distribution is low when $n$ is sufficiently large in front of $m$; namely $n\gtrsim m/(\max(1,k))$, where $k$ denotes the number of ``detectable'' alternatives. Third, to complete the picture, we also present a negative result that evidences an intrinsic transition phase to the general semi-supervised multiple testing problem {and shows that the empirical BH method is optimal in the sense that its performance boundary follows this transition phase}. Our theoretical properties are supported by numerical experiments, which also show that the delineated boundary is of correct order without further tuning any constant. Finally, we demonstrate that our work provides a theoretical ground for standard practice in astronomical data analysis, and in particular for the procedure proposed in \cite{Origin2020} for galaxy detection.

研究动机与目标

  • 解决标准多重检验方法依赖已知零假设分布的局限性。
  • 在存在零假设分布样本(NTS)的半监督设置下,开发一种无需零假设分布信息的FDR控制方法。
  • 理论上分析使用来自NTS的经验p值时BH程序的性能。
  • 建立经验BH程序实现近似“最优”功效(即最小化因零假设未知带来的损失)的条件。
  • 通过相变分析证明该方法的最优性及其内在局限性。

提出的方法

  • 从未知的零假设分布中抽取大小为 n 的零假设训练样本(NTS),用于计算每个检验的经验p值。
  • 对经验p值应用Benjamini-Hochberg(BH)程序以控制错误发现率(FDR)。
  • 推导经验BH程序FDR的上下界,当 α(n+1)/m 为整数时上下界一致。
  • 进行功效分析,量化NTS样本量 n 与可检测备择假设数量 k 之间的权衡。
  • 识别出在 n ≍ m 处存在相变,表明当 n ≲ m 时,无法实现类似“最优”功效的FDR控制。
  • 通过数值实验验证理论结果,并确认所推导的缩放关系无需调整常数即可成立。

实验结果

研究问题

  • RQ1当零假设分布未知但可获得其样本时,能否在多重检验中控制FDR?
  • RQ2零假设训练样本(n)的大小如何影响经验BH程序在FDR和功效方面的表现?
  • RQ3经验BH程序在FDR控制与功效方面达到最优的理论边界是什么?
  • RQ4在半监督多重检验问题中是否存在一种固有的相变,导致当NTS过小时性能受限?
  • RQ5所提出的方法能否为天体物理学等领域的实际程序(如星系检测)提供理论依据?

主要发现

  • 经验BH程序的FDR具有上下界,且当 α(n+1)/m 为整数时上下界一致。
  • 当 n ≳ m / (α max(1, k)) 时,经验BH程序的功效趋近于“最优”BH程序,其中 k 为可检测到的备择假设数量。
  • 在 n ≍ m 处存在固有的相变,当零假设分布未知时,超过该点后无法实现类似“最优”功效的FDR控制。
  • 经验BH程序是最优的,因其性能边界与相变阈值完全对齐。
  • 数值实验确认,所推导的缩放关系 n ≳ m / (α max(1, k)) 的阶数正确,无需额外调整常数。
  • 理论框架为Mary等人(2020)提出的星系检测程序提供了强有力的支持,验证了其在天体物理数据分析中的适用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。