[论文解读] Sequential Computation of p-values based on (Re-)Sampling with a Guaranteed Error Bound
本文提出了一种基于重采样计算p值的序列化模拟程序,该方法以高概率保证相对于阈值(例如0.05)的正确决策,即使精确p值难以计算。通过自适应地确定所需样本数量,并在收集到足够证据时提前停止,该方法在确保可重现性和正确性的同时,降低了计算成本。
When explicit forms of p-values are not available or cannot be evaluated efficiently, e.g. in the case of a bootstrap test, one usually resorts to simulation. Especially when a simulation step is computationally expensive it is of interest to draw a small number of samples. This article introduces a sequential procedure to evaluate the p-value using simulation. It guarantees that, up to a small error probability, the computed p-value is on the same side of a threshold, e.g. 0.05, as the theoretical p-value. This is important to guarantee that the results are reproducible. The procedure is open-ended, i.e. a maximum number of samples is not prespecified. By often being able to stop early, considerable computing time is being saved. The sequential procedure is suitable for use as standard algorithm for computing p-values based on (re-)sampling. Key words:
研究动机与目标
- 解决在复杂统计检验中计算p值的挑战,其中解析形式不可用或难以计算。
- 降低基于重采样推断中的计算成本,尤其是在每次模拟步骤开销较大的情况下。
- 确保模拟得到的p值与真实p值位于显著性阈值(例如0.05)的同一侧,且概率很高。
- 开发一种开放式的算法,在积累足够证据时提前停止,从而提高效率。
- 为重采样程序中的p值计算提供一种可靠且可重现的标准算法。
提出的方法
- 该方法利用序列化假设检验原理,评估模拟得到的p值是否高于或低于临界阈值(例如0.05)。
- 它应用序列概率比检验(SPRT)框架,持续监控来自重采样检验统计量的证据。
- 该过程维持一个误差概率的边界,即模拟p值相对于真实p值被错误分类的概率。
- 采样持续进行,直到证据足够充分,能够基于预设的误差边界判断p值是否显著。
- 该算法根据累积证据动态调整重采样数量,避免使用固定且可能浪费的样本量。
- 它确保最终决策(显著或不显著)与理论p值的分类结果以高概率一致。
实验结果
研究问题
- RQ1能否设计一种序列化模拟程序,以保证相对于显著性阈值的正确性来计算p值?
- RQ2如何在不牺牲决策准确性的前提下,提高基于重采样推断的计算效率?
- RQ3可以维持什么样的误差界限,以确保模拟得到的p值与真实p值位于阈值的同一侧?
- RQ4在实际应用中,提前停止能在多大程度上减少所需重采样数量?
- RQ5此类方法能否作为重采样框架中p值计算的可靠默认算法?
主要发现
- 所提出的序列化程序以高概率保证模拟得到的p值与真实p值位于显著性阈值的同一侧。
- 该方法通常能提前停止,与固定样本量方法相比,显著减少了所需重采样数量。
- 它在分类(显著 vs. 不显著)中保持了受控的错误率,确保了结果的可重现性。
- 由于其可靠性和高效性,该算法适用于作为基于重采样的假设检验中的标准方法。
- 通过避免预设的最大样本量,该方法能够根据数据和证据积累自适应调整,从而提升计算节省效果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。