[论文解读] Uncertainty in Online Experiments with Dependent Data: An Evaluation of Bootstrap Methods
本文评估了在用户-项目数据具有依赖关系的在线实验中,使用自助法进行不确定性估计的方法,表明忽略依赖关系会导致过于保守的推断。多向自助法(同时考虑用户和项目层面的依赖)在存在处理效应时能提供准确的 I 类错误率和置信区间覆盖度,而单向(仅用户层面)自助法则在项目-处理交互存在时失效。
Many online experiments exhibit dependence between users and items. For example, in online advertising, observations that have a user or an ad in common are likely to be associated. Because of this, even in experiments involving millions of subjects, the difference in mean outcomes between control and treatment conditions can have substantial variance. Previous theoretical and simulation results demonstrate that not accounting for this kind of dependence structure can result in confidence intervals that are too narrow, leading to inaccurate hypothesis tests. We develop a framework for understanding how dependence affects uncertainty in user-item experiments and evaluate how bootstrap methods that account for differing levels of dependence perform in practice. We use three real datasets describing user behaviors on Facebook - user responses to ads, search results, and News Feed stories - to generate data for synthetic experiments in which there is no effect of the treatment on average by design. We then estimate empirical Type I error rates for each bootstrap method. Accounting for dependence within a single type of unit (i.e., within-user dependence) is often sufficient to get reasonable error rates. But when experiments have effects, as one might expect in the field, accounting for multiple units with a multiway bootstrap can be necessary to get close to the advertised Type I error rates. This work provides guidance to practitioners evaluating large-scale experiments, and highlights the importance of analysis of inferential methods for dependence structures common to online systems.
研究动机与目标
- 评估用户-项目在线实验中的依赖关系对统计推断和置信区间覆盖度的影响。
- 评估独立、单向(用户层面)和多向(用户和项目)自助法在真实和模拟数据集中的表现。
- 确定在何种情况下需要考虑多个层面的依赖关系(如用户和项目),以实现有效的假设检验。
- 为分析师在大规模实地实验中选择合适的重采样方法提供实用指导。
提出的方法
- 作者使用三个真实的 Facebook 数据集——广告、搜索结果和新闻流内容——在原假设下生成合成的 A/A 测试。
- 应用独立、单向(用户层面)和多向(用户和项目)自助法来估计置信区间和 I 类错误率。
- 通过具有受控方差分量的 probit 随机效应模型进行模拟,以评估在偏离严格原假设情况下的性能。
- 从 A/A 测试中计算经验 I 类错误率,以评估每种自助法的有效性。
- 多向自助法同时重采样用户和项目,以保留数据中的联合依赖结构。
- 分析比较了名义置信水平(如 95%)与不同处理效应异质性水平下的实际置信区间覆盖度。
实验结果
研究问题
- RQ1用户和项目之间的依赖关系如何影响标准自助法在在线实验中的有效性?
- RQ2在何种条件下,单向(用户层面)自助法无法维持适当的 I 类错误率?
- RQ3通过多向自助法同时考虑用户和项目依赖,是否能在处理效应存在时提升置信区间覆盖度?
- RQ4当原假设在实践中不成立时,仅靠 A/A 测试能否检测出推断方法的缺陷?
- RQ5项目层面的处理交互如何影响仅基于用户的自助法的性能?
主要发现
- 独立自助法导致严重过于保守的推断,I 类错误率远超名义上的 5% 水平。
- 单向(用户层面)自助法在严格原假设下表现尚可,但在存在项目-处理交互时变得高度过于保守。
- 当项目层面的方差和相关性适中时(σβ=0.5,ρβ=0.75),用户自助法的 95% 置信区间实际覆盖度仅为 87.5%。
- 多向自助法即使在强烈的项目-处理交互下仍能保持接近名义水平的覆盖度,仅略为过于保守。
- 当存在处理效应时,忽略项目层面的依赖关系可能导致置信区间过窄,从而损害推断的有效性。
- 仅靠 A/A 测试不足以验证推断方法,因为它们仅评估在严格原假设下的表现,而无法反映在现实效应偏差下的表现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。