QUICK REVIEW

[論文レビュー] Continuous Monitoring of A/B Tests without Pain: Optional Stopping in Bayesian Testing

Alex Deng, Jiannan Lu|arXiv (Cornell University)|Feb 17, 2016

Statistical Methods in Clinical Trials参考文献 13被引用数 18

ひとこと要約

本稿は、適切な停止ルールを用いたベイジアンA/Bテストにおける連続監視の理論的妥当性を確立し、実験が早期に停止されても事後確率が不偏のまま保たれることを証明している。ベイジアン手法が自然に偽発見率（FDR）を制御することを示しており、リアルタイム環境における頻度主義的NHSTに比べ、統計的に妥当かつ実用的に優れた手法であることが明らかになった。

ABSTRACT

A/B testing is one of the most successful applications of statistical theory in modern Internet age. One problem of Null Hypothesis Statistical Testing (NHST), the backbone of A/B testing methodology, is that experimenters are not allowed to continuously monitor the result and make decision in real time. Many people see this restriction as a setback against the trend in the technology toward real time data analytics. Recently, Bayesian Hypothesis Testing, which intuitively is more suitable for real time decision making, attracted growing interest as an alternative to NHST. While corrections of NHST for the continuous monitoring setting are well established in the existing literature and known in A/B testing community, the debate over the issue of whether continuous monitoring is a proper practice in Bayesian testing exists among both academic researchers and general practitioners. In this paper, we formally prove the validity of Bayesian testing with continuous monitoring when proper stopping rules are used, and illustrate the theoretical results with concrete simulation illustrations. We point out common bad practices where stopping rules are not proper and also compare our methodology to NHST corrections. General guidelines for researchers and practitioners are also provided.

研究の動機と目的

連続監視（オプショナルストップ）がベイジアンA/Bテストにおいて有効かどうかという長年の議論を解決すること。
逐次検定において適切な停止ルールを用いる場合、ベイジアン事後確率が不偏のまま保たれることを形式的に証明すること。
連続監視下で第1種過誤が増大するため、頻度主義的NHSTと比較し、その欠陥を明らかにすること。
研究者および実務家がベイジアンA/Bテストにおける連続監視を実装するための実用的ガイドラインを提供すること。
シミュレーションを通じて、不適切な停止ルールは結果を歪めるが、適切なルールでは統計的妥当性が維持されることを示すこと。

提案手法

観測データが時刻tまでに得られたものにのみ依存する適切な停止ルールによって定義される停止時刻τを用い、停止時刻がフィルトレーションに適応していることを保証する。
ベイズの定理を適用し、ベイズ因子（BF）を用いて事前オッズを更新し、事後オッズを PostOdds_t = Prior Odds × BF_t として計算する。
停止ルールを、事後確率 P(H₀|Data) が閾値 r よりも小さくなる最初の時刻として定義する。すなわち P(H₀|Data) < r である。
測度論的フレームワークを厳密に用いて、無限時間軸においてもオプショナルストップ下で事後オッズが不偏のまま保たれることを証明する。
アルファ・スペンディング関数などの頻度主義的補正と比較し、ベイジアン手法が追加調整なしにFDRを自然に制御できることを示す。
シミュレーションの図示を通じて、連続監視下でのベイジアン推論の頑健性を示し、不適切な停止ルールの落とし穴を明らかにする。

実験結果

リサーチクエスチョン

RQ1適切な停止ルールが用いられる場合、ベイジアンA/Bテストにおける連続監視（オプショナルストップ）は有効であるか？
RQ2オプショナルストップ下でベイジアン事後確率はどのように振る舞い、不偏性を保っているか？
RQ3連続監視下でベイジアン手法は偽発見率（FDR）を制御できるか？また、頻度主義的手法と比較してどう異なるか？
RQ4リアルタイムオンライン実験における連続監視の実用的意義は何か？
RQ5なぜベイジアン推論におけるオプショナルストップに関する一般的な誤解が残っているのか？そして、どのように是正できるか？

主な発見

本稿は、任意の適切な停止ルールのもとでベイジアン事後確率が不偏のまま保たれることを証明し、ベイジアンA/Bテストにおける連続監視の有効性を裏付けた。
適切な停止ルールにより、中間結果に基づく早期停止であっても、事後オッズが歪められないことが保証される。
ベイジアンフレームワークは自然に偽発見率（FDR）を制御しており、大規模なA/Bテストでは第1種過誤制御よりも適切である。
シミュレーションにより、p値が0.05未満になった時点で停止するなどの不適切な停止ルールは、ベイジアン設定下でも結果を歪める可能性があることが示された。
頻度主義的NHSTとは異なり、連続監視に対応するための複雑な補正（例：アルファ・スペンディング）を必要とせず、ベイジアン手法は本質的にオプショナルストップに頑健である。
本研究は、トマソンサンプリングやマルチアームバンディット戦略をオンライン実験に適用することの正当性を示した。これらの手法はベイジアン事後確率の更新とオプショナルストップに依存しているためである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。