QUICK REVIEW

[論文レビュー] Always Valid Inference: Bringing Sequential Analysis to A/B Testing

Ramesh Johari, Leo Pekelis|arXiv (Cornell University)|Dec 15, 2015

Statistical Methods in Clinical Trials参考文献 37被引用数 50

ひとこと要約

この論文は、任意のデータ依存停止ルール下でも第1種エラーを制御する、常に有効なp値および信頼区間を導入し、連続監視においても偽陽性の増加を防ぐA/Bテストの手法を提示する。この手法は、順次尤度比検定（mSPRT）フレームワークを用い、実験中の任意の時点で有効な推論を可能にし、ユーザーの速度と感度の好みが不明な状態でも、パワーとサンプルサイズの効率的かつ良好なバランスを実現する。

ABSTRACT

A/B tests are typically analyzed via frequentist p-values and confidence intervals; but these inferences are wholly unreliable if users endogenously choose samples sizes by *continuously monitoring* their tests. We define *always valid* p-values and confidence intervals that let users try to take advantage of data as fast as it becomes available, providing valid statistical inference whenever they make their decision. Always valid inference can be interpreted as a natural interface for a sequential hypothesis test, which empowers users to implement a modified test tailored to them. In particular, we show in an appropriate sense that the measures we develop tradeoff sample size and power efficiently, despite a lack of prior knowledge of the user's relative preference between these two goals. We also use always valid p-values to obtain multiple hypothesis testing control in the sequential context. Our methodology has been implemented in a large scale commercial A/B testing platform to analyze hundreds of thousands of experiments to date.

研究の動機と目的

連続監視によって第1種エラーが増加する標準的なA/Bテストにおける根本的な欠陥に対処すること。
ユーザーがいつ停止するかにかかわらず、常に有効な推論を提供する統計的フレームワークを構築すること。ユーザーが速度やパワーの好みを持っているかどうかを事前に知る必要はない。
順次分析下でも統計的に有効なまま保たれる、シンプルで直感的なインターフェース（p値および信頼区間）を可能にすること。
順次監視下での複数仮説検定において、家族-wise 偽陽性率（FWER）および誤発見率（FDR）を制御するフレームワークを拡張すること。
大規模な商業的A/Bテストプラットフォームでの実装と検証を行い、堅牢性と実用的有用性を示すこと。

提案手法

任意の停止時刻でも有効なp値および信頼区間を構築するため、修正された順次尤度比検定（mSPRT）を用いる。
尤度比に基づくアプローチを用いて、任意の停止時刻で帰無仮説の下で一様分布に従うp値を定義する。
順次検定に伴う補正を施すことにより、データ依存停止時刻においても被覆確率を維持する信頼区間を導出する。
順次設定においてBenjamini-Hochberg（BH）手順を適用し、順序付きp値に基づく停止時刻を定義することでFDRを制御する。
複数検定の影響を補正するための修正された信頼区間を導入し、順次選択ルール下でもFCR（誤り被覆率）の制御を保証する。
実際の運用において、季節的または時間依存的な相関を検出・是正するための「リセットポリシー」ヒューリスティックを導入する。

実験結果

リサーチクエスチョン

RQ1ユーザーが観測データに基づいて連続的に監視し、停止する場合でも、p値および信頼区間が推論に有効に保たれるか？
RQ2順次A/Bテストにおいて、任意の停止ルール下でも第1種エラーをどのように制御できるか？
RQ3ユーザーの好みが事前に不明な状態でも、サンプルサイズと統計的パワーの効率的かつ良好なバランスを実現できるか？
RQ4順次監視下での複数仮説検定における誤り率（FWERおよびFDR）をどのように制御できるか？
RQ5実世界のA/Bテスト環境において、時間依存的なデータ相関を検出し是正するための実用的メカニズムは何か？

主な発見

提案された常に有効なp値は、連続監視下でも任意のデータ依存停止ルール下で第1種エラーを制御する。
本手法により、ユーザーの好みが事前に不明な状態でも、サンプルサイズとパワーの効率的かつ良好なトレードオフが実現され、近似的に最適な性能が達成される。
シミュレーションでは、標準p値は連続監視下で第1種エラーが最大5倍にまで増加する一方、本手法はこの問題を回避する。
mSPRTに基づくp値と修正されたBenjamini-Hochberg手順を組み合わせることで、順次多重検定下でもFDRを効果的に制御できる。
補正済み信頼区間は、α(1 + j/m)の水準でFCRを制御し、順次選択ルール下でも有効な被覆を保証する。
本手法は商業的A/Bテストプラットフォームで大規模に導入され、数十万件の実験を分析する中で一貫した信頼性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。