QUICK REVIEW

[논문 리뷰] Uncertainty in Online Experiments with Dependent Data: An Evaluation of Bootstrap Methods

Eytan Bakshy, Dean Eckles|arXiv (Cornell University)|2013. 04. 27.

Advanced Causal Inference Techniques참고 문헌 20인용 수 36

한 줄 요약

이 논문은 종속적인 사용자-아이템 데이터를 가진 온라인 실험에서 부트스트랩 방법의 불확실성 추정 성능을 평가하며, 종속성을 忽시할 경우 추론이 과도하게 보수적이 되지 않음을 보여준다. 다중 방향 부트스트랩은 사용자 및 아이템 수준의 종속성을 모두 고려하여, 치료 효과가 존재할 경우 특히 정확한 제1종 오류 비율과 커버리지 확보를 가능하게 하며, 한쪽 방향(사용자 중심) 부트스트랩은 아이템-치료 상호작용이 존재할 경우 실패한다.

ABSTRACT

Many online experiments exhibit dependence between users and items. For example, in online advertising, observations that have a user or an ad in common are likely to be associated. Because of this, even in experiments involving millions of subjects, the difference in mean outcomes between control and treatment conditions can have substantial variance. Previous theoretical and simulation results demonstrate that not accounting for this kind of dependence structure can result in confidence intervals that are too narrow, leading to inaccurate hypothesis tests. We develop a framework for understanding how dependence affects uncertainty in user-item experiments and evaluate how bootstrap methods that account for differing levels of dependence perform in practice. We use three real datasets describing user behaviors on Facebook - user responses to ads, search results, and News Feed stories - to generate data for synthetic experiments in which there is no effect of the treatment on average by design. We then estimate empirical Type I error rates for each bootstrap method. Accounting for dependence within a single type of unit (i.e., within-user dependence) is often sufficient to get reasonable error rates. But when experiments have effects, as one might expect in the field, accounting for multiple units with a multiway bootstrap can be necessary to get close to the advertised Type I error rates. This work provides guidance to practitioners evaluating large-scale experiments, and highlights the importance of analysis of inferential methods for dependence structures common to online systems.

연구 동기 및 목표

사용자-아이템 온라인 실험에서의 종속성이 통계적 추론과 신뢰구간 커버리지에 미치는 영향을 평가하는 것.
실제 및 시뮬레이션 데이터셋에서 독립, 한쪽 방향(사용자 수준), 다중 방향(사용자 및 아이템) 부트스트랩 방법의 성능을 평가하는 것.
다양한 수준의 종속성(예: 사용자 및 아이템)을 고려할 때가 반드시 필요한지 판단하는 것.
대규모 현장 실험에서 분석가가 적절한 리샘플링 방법을 선택하는 데 실용적 지침을 제공하는 것.

제안 방법

저자는 광고, 검색 결과, 뉴스 피드 스토리의 세 가지 실제 페이스북 데이터셋을 사용하여 귀무가설 하에서 합성 A/A 테스트를 생성한다.
신뢰구간 및 제1종 오류 비율을 추정하기 위해 독립, 한쪽 방향(사용자 수준), 다중 방향(사용자 및 아이템) 부트스트랩 방법을 적용한다.
정확한 귀무가설에서의 이탈을 평가하기 위해 제어된 분산 성분을 가진 프로비트 무작위 효과 모델을 사용해 시뮬레이션을 수행한다.
각 부트스트랩 방법의 타당성을 평가하기 위해 A/A 테스트에서의 경험적 제1종 오류 비율을 계산한다.
다중 방향 부트스트랩은 사용자 및 아이템을 동시에 리샘플링하여 데이터의 공동 종속성 구조를 유지한다.
다양한 수준의 치료 효과 이질성에서 명목상(예: 95%) 대비 실제 커버리지의 비교 분석을 수행한다.

실험 결과

연구 질문

RQ1사용자와 아이템 간의 종속성이 온라인 실험에서 표준 부트스트랩 방법의 타당성에 어떻게 영향을 미치는가?
RQ2한쪽 방향(사용자 수준) 부트스트랩이 적절한 제1종 오류 비율을 유지하지 못하는 조건은 무엇인가?
RQ3다중 방향 부트스트랩을 통해 사용자 및 아이템 종속성을 모두 고려할 경우, 치료 효과가 존재할 때 커버리지가 향상되는가?
RQ4귀무가설이 실제에서는 잘못되었을 경우, A/A 테스트만으로 추론 방법의 결함을 탐지할 수 있는가?
RQ5아이템 수준의 치료 상호작용은 사용자 중심 부트스트랩 방법의 성능에 어떤 영향을 미치는가?

주요 결과

독립 부트스트랩 방법은 심각하게 과도하게 보수적이지 않은 추론을 초래하며, 제1종 오류 비율이 명목상 5% 수준을 크게 초과한다.
한쪽 방향(사용자 수준) 부트스트랩은 날카로운 귀무가설 하에서는 합리적으로 잘 작동하지만, 아이템-치료 상호작용이 존재할 경우 매우 과도하게 보수적이지 않게 된다.
중간 수준의 아이템 수준 분산과 상관관계(σβ=0.5, ρβ=0.75) 하에서, 사용자 부트스트랩의 95% 신뢰구간은 실제 커버리지가 오직 87.5%에 불과하다.
다중 방향 부트스트랩은 강한 아이템-치료 상호작용 조건에서도 명목상 커버리지에 매우 가까운 성능을 유지하며, 약간의 보수성을 유지한다.
치료 효과가 존재할 경우, 아이템 수준의 종속성을 忽시하면 잘못된 정도로 좁은 신뢰구간이 도출되어 추론이 훼손된다.
A/A 테스트만으로는 추론 방법의 타당성을 검증하기에 부족하며, 이는 귀무가설 하에서의 성능만 평가할 뿐 실제 효과 이질성 조건에서는 평가하지 못하기 때문이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.