Skip to main content
QUICK REVIEW

[论文解读] Cauchy combination test: a powerful test with analytic p-value calculation under arbitrary dependency structures

Yaowu Liu, Jun Xie|arXiv (Cornell University)|Aug 27, 2018
Genetic Associations and Epidemiology参考文献 21被引用 37
一句话总结

本文提出柯西组合检验(Cauchy combination test),一种在任意依赖结构下结合p值的强大方法,通过加权求和柯西变换后的p值实现。该方法提供了一种精确且计算高效的解析p值计算方式,即使在极小p值情况下也表现良好,因此特别适用于大规模高维数据(如全基因组关联研究,GWAS)。

ABSTRACT

Combining individual p-values to aggregate multiple small effects has a long-standing interest in statistics, dating back to the classic Fisher's combination test. In modern large-scale data analysis, correlation and sparsity are common features and efficient computation is a necessary requirement for dealing with massive data. To overcome these challenges, we propose a new test that takes advantage of the Cauchy distribution. Our test statistic has a very simple form and is defined as a weighted sum of Cauchy transformation of individual p-values. We prove a non-asymptotic result that the tail of the null distribution of our proposed test statistic can be well approximated by a Cauchy distribution under arbitrary dependency structures. Based on this theoretical result, the p-value calculation of our proposed test is not only accurate, but also as simple as the classic z-test or t-test, making our test well suited for analyzing massive data. We further show that the power of the proposed test is asymptotically optimal in a strong sparsity setting. Extensive simulations demonstrate that the proposed test has both strong power against sparse alternatives and a good accuracy with respect to p-value calculations, especially for very small p-values. The proposed test has also been applied to a genome-wide association study of Crohn's disease and compared with several existing tests.

研究动机与目标

  • 解决在高维数据中,针对任意依赖结构的组合检验缺乏计算高效且准确的p值计算方法的问题。
  • 克服现有方法(如费雪法、蒂佩特法、高阶批评法和伯克-琼斯检验)的局限性,这些方法或缺乏解析p值计算,或在大规模数据集中计算不可行。
  • 开发一种在稀疏替代假设下保持高统计功效,同时实现极小p值(如<10^-6)下快速且精确的p值计算的检验方法。
  • 实现在大规模多重检验场景(如全基因组关联研究)中的实际应用,其中需对数万个基因集进行快速检验,并满足严格的显著性阈值要求。

提出的方法

  • 提出一种检验统计量,定义为个体p值的柯西变换的加权和:$ T = \sum_{i=1}^d w_i \cdot \tan(\pi(p_i - 0.5)) $,其中 $ p_i $ 为个体p值。
  • 建立非渐近理论结果,表明在任意依赖结构下,该检验统计量的零分布可被柯西分布良好近似。
  • 利用此近似实现p值的解析计算,其简便性类似于z检验或t检验,避免了如置换检验等计算密集型方法。
  • 基于潜在检验统计量的双变量正态性假设,推导柯西近似的理论基础,该基础在依赖结构下依然成立。
  • 通过在多种相关结构和信号稀疏度水平下进行广泛模拟,验证该方法的有效性。
  • 将该方法应用于真实世界的克罗恩病全基因组关联研究数据集,与费雪法、蒂佩特法、高阶批评法和伯克-琼斯检验进行性能比较。

实验结果

研究问题

  • RQ1能否开发一种组合检验方法,在保持对稀疏替代假设高统计功效的同时,实现在任意依赖结构下的解析p值计算?
  • RQ2当个体p值存在依赖关系时,柯西分布是否可作为组合检验统计量零分布的有效且准确的近似?
  • RQ3在大规模数据设置下,该方法能否在极小p值(如<10^-6)时同时实现计算效率和高精度的p值估计?
  • RQ4在依赖结构下,柯西组合检验在统计功效和p值精度方面与费雪法、蒂佩特法、高阶批评法和伯克-琼斯检验相比表现如何?
  • RQ5当潜在检验统计量偏离正态分布(如服从多元t分布)时,该方法是否仍保持稳健性?

主要发现

  • 柯西组合检验在强稀疏设定下实现渐近最优功效,在稀疏替代假设下优于现有方法。
  • 在任意依赖结构下,检验统计量的零分布可被柯西分布良好近似,从而实现精确的解析p值计算。
  • 该方法在极小p值(例如<10^-6)下仍能实现高精度的p值估计,这对大规模多重检验场景至关重要。
  • 在克罗恩病全基因组关联研究中的应用表明,柯西组合检验每基因集仅需数秒即可计算p值,而其他方法需数小时或不可行。
  • 在模拟研究中,该方法在多种相关结构和信号稀疏度水平下均保持高统计功效和精确的p值估计。
  • 在检验统计量非正态(如多元t分布)条件下,该方法仍保持稳健性,模拟结果表明其适用范围可超越正态性假设。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。