QUICK REVIEW

[论文解读] Combining p-values via averaging

Vladimir Vovk, Ruodu Wang|arXiv (Cornell University)|Dec 20, 2012

Statistical Methods in Clinical Trials参考文献 35被引用 23

一句话总结

本文提出了一种通过平均结合p值的广义框架，通过使用广义均值（算术均值、几何均值、调和均值）和数据驱动的缩放因子，扩展了经典的Fisher方法和Bonferroni方法。主要贡献在于证明了p值的调和均值可按$\ln K$（渐近意义下）进行缩放，从而得到一个有效且保守的p值，进而提升了在依赖结构下的多重假设检验程序的统计功效。

ABSTRACT

This paper proposes general methods for the problem of multiple testing of a single hypothesis, with a standard goal of combining a number of p-values without making any assumptions about their dependence structure. An old result by Rüschendorf and, independently, Meng implies that the p-values can be combined by scaling up their arithmetic mean by a factor of 2 (and no smaller factor is sufficient in general). A similar result about the geometric mean (Mattner) replaces 2 by $e$. Based on more recent developments in mathematical finance, specifically, robust risk aggregation techniques, we extend these results to generalized means; in particular, we show that $K$ p-values can be combined by scaling up their harmonic mean by a factor of $\ln K$ (asymptotically as $K o\infty$). This leads to a generalized version of the Bonferroni-Holm procedure. We also explore methods using weighted averages of p-values. Finally, we discuss the efficiency of various methods of combining p-values and how to choose a suitable method in light of data and prior information.

研究动机与目标

开发一种通用、无假设的p值合并方法，将多个p值合并为一个有效p值，而无需假设独立性。
扩展经典结果（如Rüschendorf、Mattner）中关于使用广义均值和鲁棒风险聚合技术对p值进行平均的研究。
通过基于广义均值的可扩展合并函数，提升多重假设检验程序的统计功效与效率。
提供一种基于数据特征和先验信息选择最优合并方法的系统性方法。
利用基于广义均值的合并函数，推广Bonferroni–Holm程序，以在依赖结构下获得更优性能。

提出的方法

使用广义均值$M_{r,K}(p_1,\dots,p_K) = \left(\frac{1}{K}\sum_{i=1}^K p_i^r\right)^{1/r}$，其中$r \in [-\infty, \infty]$，包括算术均值（$r=1$）、几何均值（$r \to 0$）和调和均值（$r=-1$）。
推导缩放因子$a_{r,K}$，使得$a_{r,K} \cdot M_{r,K}$在任意依赖结构下均为有效合并函数（即产生保守p值）。
应用鲁棒风险聚合理论推导精确的缩放因子，证明当$K \to \infty$时，调和均值的缩放因子满足$a_{r,K} \to \ln K$。
提出利用辅助信息或先验知识对p值进行加权平均，以提升异质检验场景下的效率。
引入一种复合方法（BG方法），结合Bonferroni与几何均值，其在模拟中表现优于单一方法。
通过在相关正态检验统计量下进行模拟研究，评估不同依赖程度（$\rho = 0.1, 0.5, 0.9$）和样本量（$K=50, 400$）下的性能表现。

实验结果

研究问题

RQ1在$K$个p值的任意依赖结构下，使得$a_{r,K} \cdot M_{r,K}$为有效p值的最小缩放因子$a_{r,K}$是多少？
RQ2在依赖结构下，基于广义均值的p值合并方法相较于经典方法（如Bonferroni、Fisher）的性能如何？
RQ3能否通过组合多种方法（如Bonferroni与几何均值）的复合合并函数，实现优于单一方法的统计功效？
RQ4在不同依赖结构下，为最大化统计功效，广义均值参数$r$的最优选择是什么？
RQ5如何将先验信息或检验质量纳入基于加权平均的p值合并方法中？

主要发现

在$K \to \infty$的渐近意义下，$K$个p值的调和均值可通过$\ln K$进行缩放，从而得到一个有效且保守的p值，优于Bonferroni方法。
对于几何均值，$e$作为缩放因子在一般情况下既充分又必要，验证了Mattner的结果。
算术均值需通过2进行缩放才能得到有效p值，此结果此前由Rüschendorf和Meng所建立。
复合的Bonferroni-几何均值方法（$F_{K}^{\mathrm{BG}}$）在所有模拟中均优于基础方法，且对任意$r$的广义均值方法均无支配关系。
在强依赖结构下（$\rho = 0.9$），几何均值与算术均值方法优于Bonferroni方法及$r < -1$的方法，后者随$K$增大而性能下降。
参数$r$的选择显著影响统计功效：$r \approx -1$时因缩放因子急剧膨胀而产生不稳定性，而$r \in [-5, 0]$在模拟中表现出稳定且高效的性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。