QUICK REVIEW

[论文解读] Annotated Bibliography of Some Papers on Combining Significances or p-values

R. Cousins|ArXiv.org|May 15, 2007

Statistical Methods in Clinical Trials参考文献 38被引用 39

一句话总结

本注释参考文献综述整理并评估了在多个独立实验中合并p值或显著性水平的关键统计方法，尤其适用于高能物理和遗传学等场景。综述涵盖了费雪方法、斯图尔弗z得分法、加权组合方法（如古德、利普塔克）以及基于截断的变体，强调方法选择取决于对效应大小、样本量和备择假设的假设，当已知精度差异时，加权方法通常能提升检验效能。

ABSTRACT

A question that comes up repeatedly is how to combine the results of two experiments if all that is known is that one experiment had a n-sigma effect and another experiment had a m-sigma effect. This question is not well-posed: depending on what additional assumptions are made, the preferred answer is different. The note lists some of the more prominent papers on the topic, with some brief comments and excerpts.

研究动机与目标

解决在缺乏完整数据的情况下，合并来自独立实验的p值或显著性水平这一病态问题。
阐明最优方法取决于额外假设，如相对精度、样本量和备择假设。
整理并批判性评估用于合并p值的著名统计方法，尤其在高能物理和遗传学等领域的应用。
强调p值作为证据度量的局限性，并强调在可行时应优先使用原始数据。
为研究人员提供参考指南，依据情境和假设选择合适的合并方法。

提出的方法

使用概率积分变换，将在原假设下将检验统计量转换为均匀分布的p值。
回顾费雪方法：通过概率乘积合并p值，并将 -2ln(p) 的和转换为自由度为 2k 的卡方分布。
应用斯图尔弗z得分法：将p值转换为标准正态离差，通过加权和合并，再转换回p值。
引入加权组合方法（如古德，1955；利普塔克，1958），利用已知的方差或样本量以提升检验效能。
考虑截断方法（如Zaykin等，2002），通过排除极大p值来增强对强信号的敏感性。
通过模拟和理论分析评估各种方法，比较其在不同备择假设和样本量下的表现。

实验结果

研究问题

RQ1当仅知p值和样本量时，合并两个或多个p值的最佳方法是什么？
RQ2在统计效能和第一类错误控制方面，不同合并方法（费雪法、斯图尔弗法、加权法、截断法）如何比较？
RQ3在何种条件下，加权方法相较于无权重方法在合并显著性水平时更具优势？
RQ4为何某些方法（如费雪法）假设权重相等，且该假设在何时不成立？
RQ5离散或低统计量数据（如高能物理中的泊松分布事件）如何影响标准合并方法的有效性和性能？

主要发现

费雪方法在特定正则条件下等价于似然比检验，且是使用非信息先验的贝叶斯检验的特例。
当各p值相近时，斯图尔弗方法通常比费雪方法产生更显著的合并p值；但当p值差异较大时，费雪方法可能更具效能。
如古德（1955）和利普塔克（1958）提出的加权方法可在实验精度或样本量不同时提升效能，且在已知方差比时为最优。
基于截断的方法（如Zaykin等，2002）在存在少数极大p值时，可能优于标准费雪方法，因其可避免强信号被稀释。
方法选择高度依赖于具体情境：当样本量或方差显著不同时，假设等权重的方法表现欠佳。
斯图尔弗方法的起源在历史上曾较模糊——首次出现在一篇社会学研究的脚注中——但如今已成为元分析的基石。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。