QUICK REVIEW

[论文解读] Percent Change Estimation in Large Scale Online Experiments

Jacopo Soriano|arXiv (Cornell University)|Nov 1, 2017

Statistical Methods in Clinical Trials参考文献 12被引用 34

一句话总结

本文提出了一种两阶段客观贝叶斯模型，利用前期数据作为协变量，以改进大规模A/B实验中的百分比变化估计。通过整合前期度量指标，该方法使可信区间宽度比传统方法最多收紧50%，点估计更加精确，从而提升了对网络产品指标中微小但具影响力变化的检测敏感度。

ABSTRACT

Online experiments are a fundamental component of the development of web-facing products. Given their large user-bases, even small product improvements can have a large impact on user engagement or profits on an absolute scale. As a result, accurately estimating the relative impact of these changes is extremely important. I propose an approach based on an objective Bayesian model to improve the sensitivity of percent change estimation in A/B experiments. Leveraging pre-period information, this approach produces more robust and accurate point estimates and up to 50% tighter credible intervals than traditional methods. The R package abpackage provides an implementation of the approach.

研究动机与目标

为解决在大规模在线实验中检测微小但具影响力相对变化的挑战，传统方法统计功效不足。
通过在分析中将前期数据作为协变量，提升百分比变化估计的精度与稳健性。
开发一种方法，在保持良好频率学性质的同时，实现对非线性函数（如百分比变化）的自然不确定性传播与推断。
提供一种可推广的、客观的贝叶斯框架，避免主观先验选择，并支持向分层或异质处理效应模型的扩展。

提出的方法

该方法采用两阶段客观贝叶斯模型，将前期度量作为协变量，用于调整后期处理组与对照组的均值。
使用非信息性（客观）先验，确保良好的频率学性质，同时无需主观指定先验。
后验推断基于百分比变化，定义为 (μ_treatment - μ_control) / μ_control，不确定性在各阶段自然传播。
通过考虑前期变异，实现方差缩减，从而获得更紧的可信区间。
提出一种高效算法，加速后验计算，使该方法在大规模在线实验中具备可扩展性。
该方法已实现于开源R包 abpackage，可通过 https://google.github.io/abpackage 获取。

实验结果

研究问题

RQ1能否有效利用前期数据，以提升A/B实验中百分比变化估计的精度？
RQ2与经典的Fieller法、Taylor法及基于指数的估计方法相比，所提出的贝叶斯方法在区间宽度与偏差方面表现如何？
RQ3在不引入显著偏差的前提下，纳入前期协变量在多大程度上减少了可信区间的宽度？
RQ4该方法能否在保持良好频率学性质的同时，实现对无量纲效应大小（如百分比变化）的推断？
RQ5更紧的可信区间对实验设计的实际影响是什么，例如缩短实验时长或减少流量暴露？

主要发现

所提出的Pre-Post贝叶斯方法相比忽略前期数据的传统方法，可信区间宽度最多减少50%。
该方法产生的点估计精度显著提高，且在各种处理效应水平和数据生成模型下偏差极小。
在伯努利分布与指数分布的数据生成过程中，Pre-Post方法的偏差相对于可信区间宽度可忽略不计。
该方法保持了良好的频率学覆盖性质，即使使用客观先验也能确保可靠推断。
由于对微小效应的敏感度提高，该方法可实现更短的实验周期或更小的流量分配，同时保持统计功效。
开源abpackage R包为在线实验中的生产应用提供了可扩展且易于访问的方法实现。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。