Skip to main content
QUICK REVIEW

[论文解读] Always Valid Inference: Bringing Sequential Analysis to A/B Testing

Ramesh Johari, Leo Pekelis|arXiv (Cornell University)|Dec 15, 2015
Statistical Methods in Clinical Trials参考文献 37被引用 50
一句话总结

本文提出了一种适用于A/B测试的始终有效的p值和置信区间,可在任何数据依赖的停止规则下维持第一类错误控制,从而实现连续监控而不会增加假阳性率。该方法采用序列概率比检验(mSPRT)框架,确保实验过程中任意时刻均可进行有效推断,即使在用户对速度与灵敏度的偏好未知的情况下,也能高效平衡统计功效与样本量。

ABSTRACT

A/B tests are typically analyzed via frequentist p-values and confidence intervals; but these inferences are wholly unreliable if users endogenously choose samples sizes by *continuously monitoring* their tests. We define *always valid* p-values and confidence intervals that let users try to take advantage of data as fast as it becomes available, providing valid statistical inference whenever they make their decision. Always valid inference can be interpreted as a natural interface for a sequential hypothesis test, which empowers users to implement a modified test tailored to them. In particular, we show in an appropriate sense that the measures we develop tradeoff sample size and power efficiently, despite a lack of prior knowledge of the user's relative preference between these two goals. We also use always valid p-values to obtain multiple hypothesis testing control in the sequential context. Our methodology has been implemented in a large scale commercial A/B testing platform to analyze hundreds of thousands of experiments to date.

研究动机与目标

  • 解决标准A/B测试中的关键缺陷:即由于数据依赖的停止时间导致连续监控会增加第一类错误。
  • 开发一种统计框架,无论用户在何时决定停止监控,均可提供有效推断,且无需事先知晓其对速度或统计功效的偏好。
  • 实现一种简单直观的界面——p值和置信区间——在序列分析下仍保持统计有效性。
  • 将该框架扩展至控制多重假设检验中的家庭错误率(FWER)和错误发现率(FDR),适用于序列监控场景。
  • 在大规模商业A/B测试平台中实现并验证该方法,证明其鲁棒性与实际应用价值。

提出的方法

  • 使用改进的序列概率比检验(mSPRT)构建始终有效的p值和置信区间,使其在任意停止时间均保持有效性。
  • 采用基于似然比的方法定义p值,确保在原假设下任意停止时间的p值均匀分布。
  • 通过调整序列检验的影响,推导出在任意数据依赖停止时间下仍保持覆盖概率的置信区间。
  • 在序列设置中应用Benjamini-Hochberg(BH)程序,基于有序p值定义停止时间,以控制FDR。
  • 引入校正后的置信区间,以调整序列设置下的多重检验影响,确保错误覆盖率(FCR)控制。
  • 在实际中实施一种“重置策略”启发式方法,以检测并纠正数据中的季节性或时间依赖相关性。

实验结果

研究问题

  • RQ1当用户持续监控并基于观测数据决定停止实验时,p值和置信区间是否仍能保持有效性?
  • RQ2在序列A/B测试中,如何在任意停止规则下控制第一类错误?
  • RQ3该方法能否在不预先知晓用户偏好下,高效平衡样本量与统计功效?
  • RQ4在序列A/B测试环境中,如何控制多重假设检验的错误率(FWER与FDR)?
  • RQ5在现实A/B测试环境中,有哪些实用机制可检测并纠正时间依赖的数据相关性?

主要发现

  • 所提出的始终有效的p值在任何数据依赖停止规则下均能维持第一类错误控制,即使用户持续监控亦成立。
  • 该方法能高效平衡样本量与统计功效,在不预先知晓用户偏好的情况下实现接近最优的性能表现。
  • 模拟结果表明,标准p值在连续监控下第一类错误率最高可膨胀五倍,而所提方法避免了此问题。
  • 通过结合mSPRT生成的p值与改进的Benjamini-Hochberg程序,该框架成功控制了序列多重检验中的FDR。
  • 校正后的置信区间确保在水平α(1 + j/m)下实现FCR控制,从而在序列选择规则下提供有效的覆盖。
  • 该方法已在商业A/B测试平台大规模部署,分析了数十万项实验,表现出一致的可靠性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。