Skip to main content
QUICK REVIEW

[论文解读] Percent Change Estimation in Large Scale Online Experiments

Jacopo Soriano|arXiv (Cornell University)|Nov 1, 2017
Statistical Methods in Clinical Trials参考文献 12被引用 34
一句话总结

本文提出了一种两阶段客观贝叶斯模型,利用前期数据作为协变量,以改进大规模A/B实验中的百分比变化估计。通过整合前期度量指标,该方法使可信区间宽度比传统方法最多收紧50%,点估计更加精确,从而提升了对网络产品指标中微小但具影响力变化的检测敏感度。

ABSTRACT

Online experiments are a fundamental component of the development of web-facing products. Given their large user-bases, even small product improvements can have a large impact on user engagement or profits on an absolute scale. As a result, accurately estimating the relative impact of these changes is extremely important. I propose an approach based on an objective Bayesian model to improve the sensitivity of percent change estimation in A/B experiments. Leveraging pre-period information, this approach produces more robust and accurate point estimates and up to 50% tighter credible intervals than traditional methods. The R package abpackage provides an implementation of the approach.

研究动机与目标

  • 为解决在大规模在线实验中检测微小但具影响力相对变化的挑战,传统方法统计功效不足。
  • 通过在分析中将前期数据作为协变量,提升百分比变化估计的精度与稳健性。
  • 开发一种方法,在保持良好频率学性质的同时,实现对非线性函数(如百分比变化)的自然不确定性传播与推断。
  • 提供一种可推广的、客观的贝叶斯框架,避免主观先验选择,并支持向分层或异质处理效应模型的扩展。

提出的方法

  • 该方法采用两阶段客观贝叶斯模型,将前期度量作为协变量,用于调整后期处理组与对照组的均值。
  • 使用非信息性(客观)先验,确保良好的频率学性质,同时无需主观指定先验。
  • 后验推断基于百分比变化,定义为 (μ_treatment - μ_control) / μ_control,不确定性在各阶段自然传播。
  • 通过考虑前期变异,实现方差缩减,从而获得更紧的可信区间。
  • 提出一种高效算法,加速后验计算,使该方法在大规模在线实验中具备可扩展性。
  • 该方法已实现于开源R包 abpackage,可通过 https://google.github.io/abpackage 获取。

实验结果

研究问题

  • RQ1能否有效利用前期数据,以提升A/B实验中百分比变化估计的精度?
  • RQ2与经典的Fieller法、Taylor法及基于指数的估计方法相比,所提出的贝叶斯方法在区间宽度与偏差方面表现如何?
  • RQ3在不引入显著偏差的前提下,纳入前期协变量在多大程度上减少了可信区间的宽度?
  • RQ4该方法能否在保持良好频率学性质的同时,实现对无量纲效应大小(如百分比变化)的推断?
  • RQ5更紧的可信区间对实验设计的实际影响是什么,例如缩短实验时长或减少流量暴露?

主要发现

  • 所提出的Pre-Post贝叶斯方法相比忽略前期数据的传统方法,可信区间宽度最多减少50%。
  • 该方法产生的点估计精度显著提高,且在各种处理效应水平和数据生成模型下偏差极小。
  • 在伯努利分布与指数分布的数据生成过程中,Pre-Post方法的偏差相对于可信区间宽度可忽略不计。
  • 该方法保持了良好的频率学覆盖性质,即使使用客观先验也能确保可靠推断。
  • 由于对微小效应的敏感度提高,该方法可实现更短的实验周期或更小的流量分配,同时保持统计功效。
  • 开源abpackage R包为在线实验中的生产应用提供了可扩展且易于访问的方法实现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。