[论文解读] Percent Change Estimation in Large Scale Online Experiments
本文提出了一种两阶段客观贝叶斯模型,利用前期数据作为协变量,以改进大规模A/B实验中的百分比变化估计。通过整合前期度量指标,该方法使可信区间宽度比传统方法最多收紧50%,点估计更加精确,从而提升了对网络产品指标中微小但具影响力变化的检测敏感度。
Online experiments are a fundamental component of the development of web-facing products. Given their large user-bases, even small product improvements can have a large impact on user engagement or profits on an absolute scale. As a result, accurately estimating the relative impact of these changes is extremely important. I propose an approach based on an objective Bayesian model to improve the sensitivity of percent change estimation in A/B experiments. Leveraging pre-period information, this approach produces more robust and accurate point estimates and up to 50% tighter credible intervals than traditional methods. The R package abpackage provides an implementation of the approach.
研究动机与目标
- 为解决在大规模在线实验中检测微小但具影响力相对变化的挑战,传统方法统计功效不足。
- 通过在分析中将前期数据作为协变量,提升百分比变化估计的精度与稳健性。
- 开发一种方法,在保持良好频率学性质的同时,实现对非线性函数(如百分比变化)的自然不确定性传播与推断。
- 提供一种可推广的、客观的贝叶斯框架,避免主观先验选择,并支持向分层或异质处理效应模型的扩展。
提出的方法
- 该方法采用两阶段客观贝叶斯模型,将前期度量作为协变量,用于调整后期处理组与对照组的均值。
- 使用非信息性(客观)先验,确保良好的频率学性质,同时无需主观指定先验。
- 后验推断基于百分比变化,定义为 (μ_treatment - μ_control) / μ_control,不确定性在各阶段自然传播。
- 通过考虑前期变异,实现方差缩减,从而获得更紧的可信区间。
- 提出一种高效算法,加速后验计算,使该方法在大规模在线实验中具备可扩展性。
- 该方法已实现于开源R包 abpackage,可通过 https://google.github.io/abpackage 获取。
实验结果
研究问题
- RQ1能否有效利用前期数据,以提升A/B实验中百分比变化估计的精度?
- RQ2与经典的Fieller法、Taylor法及基于指数的估计方法相比,所提出的贝叶斯方法在区间宽度与偏差方面表现如何?
- RQ3在不引入显著偏差的前提下,纳入前期协变量在多大程度上减少了可信区间的宽度?
- RQ4该方法能否在保持良好频率学性质的同时,实现对无量纲效应大小(如百分比变化)的推断?
- RQ5更紧的可信区间对实验设计的实际影响是什么,例如缩短实验时长或减少流量暴露?
主要发现
- 所提出的Pre-Post贝叶斯方法相比忽略前期数据的传统方法,可信区间宽度最多减少50%。
- 该方法产生的点估计精度显著提高,且在各种处理效应水平和数据生成模型下偏差极小。
- 在伯努利分布与指数分布的数据生成过程中,Pre-Post方法的偏差相对于可信区间宽度可忽略不计。
- 该方法保持了良好的频率学覆盖性质,即使使用客观先验也能确保可靠推断。
- 由于对微小效应的敏感度提高,该方法可实现更短的实验周期或更小的流量分配,同时保持统计功效。
- 开源abpackage R包为在线实验中的生产应用提供了可扩展且易于访问的方法实现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。