[论文解读] Continuous Monitoring of A/B Tests without Pain: Optional Stopping in Bayesian Testing
本文建立了在使用合适停止规则时,贝叶斯A/B测试中连续监控的理论有效性,证明即使实验提前停止,后验概率依然无偏。它表明贝叶斯方法能自然控制假发现率(FDR),使得选择性停止在实时环境中既在统计上合理,又优于频率学派NHST。
A/B testing is one of the most successful applications of statistical theory in modern Internet age. One problem of Null Hypothesis Statistical Testing (NHST), the backbone of A/B testing methodology, is that experimenters are not allowed to continuously monitor the result and make decision in real time. Many people see this restriction as a setback against the trend in the technology toward real time data analytics. Recently, Bayesian Hypothesis Testing, which intuitively is more suitable for real time decision making, attracted growing interest as an alternative to NHST. While corrections of NHST for the continuous monitoring setting are well established in the existing literature and known in A/B testing community, the debate over the issue of whether continuous monitoring is a proper practice in Bayesian testing exists among both academic researchers and general practitioners. In this paper, we formally prove the validity of Bayesian testing with continuous monitoring when proper stopping rules are used, and illustrate the theoretical results with concrete simulation illustrations. We point out common bad practices where stopping rules are not proper and also compare our methodology to NHST corrections. General guidelines for researchers and practitioners are also provided.
研究动机与目标
- 解决关于在贝叶斯A/B测试中连续监控(选择性停止)是否有效的长期争议。
- 正式证明在序列检验中使用合适停止规则时,贝叶斯后验概率保持无偏。
- 将贝叶斯方法与频率学派NHST进行对比,后者在连续监控下会出现第一类错误膨胀。
- 为研究人员和实践者提供在贝叶斯A/B测试中实施连续监控的实际指导。
- 通过模拟证明,不当的停止规则会导致结果偏差,而合适的规则则能保持统计有效性。
提出的方法
- 使用由时间t之前观测数据唯一决定的停止时间τ,定义为合适的停止规则,确保停止时间适应于过滤流。
- 应用贝叶斯定理,利用贝叶斯因子(BF)更新先验几率,将后验几率计算为 PostOdds_t = Prior Odds × BF_t。
- 将停止规则定义为后验概率 P(H₀|Data) 首次低于阈值 r 的时刻,即 P(H₀|Data) < r。
- 采用严格的测度论框架,证明即使在无限时域下,后验几率在选择性停止下依然保持无偏。
- 将贝叶斯结果与频率学派校正方法(如alpha支出函数)进行比较,表明贝叶斯方法无需额外调整即可自然控制FDR。
- 使用模拟示例展示贝叶斯推断在连续监控下的稳健性,并突出不当停止规则的陷阱。
实验结果
研究问题
- RQ1在使用合适停止规则时,贝叶斯A/B测试中的连续监控(选择性停止)是否有效?
- RQ2在选择性停止下,贝叶斯后验概率的行为如何?是否存在偏差?
- RQ3在连续监控下,贝叶斯检验能否控制假发现率(FDR)?与频率学派方法相比如何?
- RQ4在实时在线实验中使用连续监控的实际影响是什么?
- RQ5为何关于贝叶斯推断在选择性停止下存在普遍误解?如何纠正这些误解?
主要发现
- 本文证明,只要使用合适的停止规则,贝叶斯后验概率在任何情况下都保持无偏,从而验证了贝叶斯A/B测试中连续监控的有效性。
- 合适的停止规则可确保后验几率不被扭曲,即使基于中期结果提前停止实验。
- 贝叶斯框架能自然控制假发现率(FDR),这在大规模A/B测试中比控制第一类错误更为合适。
- 模拟结果表明,不当的停止规则(如未校正地在p值 < 0.05时停止)即使在贝叶斯设置下也会导致结果偏差。
- 与需要复杂校正(如alpha支出)的频率学派NHST不同,贝叶斯方法对选择性停止具有内在稳健性。
- 本研究为在在线实验中使用Thompson采样和多臂赌博机策略提供了依据,因为它们依赖于贝叶斯后验更新和选择性停止。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。