[論文レビュー] Close Enough? A Large-Scale Exploration of Non-Experimental Approaches to Advertising Measurement
この論文は、2つの非実験的因果推定手法(DMLとSPSM)を663件のFacebook広告実験で評価し、広告によるリフトを信頼できるように回収できるかを検証する。どちらの手法も完全には成功せず、DMLの方が性能は良いが依然として偏りがある。
Despite their popularity, randomized controlled trials (RCTs) are not always available for the purposes of advertising measurement. Non-experimental data is thus required. However, Facebook and other ad platforms use complex and evolving processes to select ads for users. Therefore, successful non-experimental approaches need to "undo" this selection. We analyze 663 large-scale experiments at Facebook to investigate whether this is possible with the data typically logged at large ad platforms. With access to over 5,000 user-level features, these data are richer than what most advertisers or their measurement partners can access. We investigate how accurately two non-experimental methods -- double/debiased machine learning (DML) and stratified propensity score matching (SPSM) -- can recover the experimental effects. Although DML performs better than SPSM, neither method performs well, even using flexible deep learning models to implement the propensity and outcome models. The median RCT lifts are 29%, 18%, and 5% for the upper, middle, and lower funnel outcomes, respectively. Using DML (SPSM), the median lift by funnel is 83% (173%), 58% (176%), and 24% (64%), respectively, indicating significant relative measurement errors. We further characterize the circumstances under which each method performs comparatively better. Overall, despite having access to large-scale experiments and rich user-level data, we are unable to reliably estimate an ad campaign's causal effect.
研究の動機と目的
- 大規模な広告プラットフォームの非実験データがRCTなしで因果効果を回復できるか評価する。
- この設定でdouble/debiased machine learning (DML)とstratified propensity score matching (SPSM)を比較する。
- それぞれの手法が比較的良く機能する条件と悪く機能する条件を特徴づける。
- オンライン広告における信頼できる因果推定を妨げるデータとプラットフォームの制約について論じる。
提案手法
- 豊富な特徴セットと交差検証済み正交化を用いて正則化バイアスを低減するため、因果効果を推定するのにDMLを適用する。
- 深層学習ベースの傾向スコアモデルを用いてSPSMを評価する。
- 偏りなし仮定を満たすために、キャンペーンレベルとユーザーレベルの広範な特徴を使用する。
- 663件のFacebook広告実験と大規模なユーザーインプレッションデータを活用してRCTとベンチマークする。
- ファネル別の中央値リフトとDMLとSPSM間の比較偏りを報告する。
実験結果
リサーチクエスチョン
- RQ1プラットフォームに記録されたデータ上の非実験的手法は、広告配信の選択を十分に打ち消して因果効果を回復できるか。
- RQ2大規模なFacebook実験においてDMLとSPSMはランダム化比較試験と比較してどのように機能するか。
- RQ3これらの手法がより良く機能するまたは悪く機能する実験条件(ファネル段階、キャンペーンタイプ)は何か。
- RQ4信頼性の高い非実験的広告測定にはどのようなデータ/ロギングの改善が必要か。
主な発見
- 広範な特徴とモデリングにもかかわらずSPSMはRCTベンチマークに対して性能が乏しい。
- DMLは平均的にはSPSMより上方バイアスが小さいが、残留バイアスはなお大きい。
- ファネル別のRCTからの中央値リフト:上部29%、中部18%、下部5%。
- DML(およびSPSM)を使用した場合のファネル別中央値リフト: 上部83%(173%)、中部58%(176%)、下部24%(64%)、相対的な測定誤差が大きいことを示唆。
- プロスペクティングキャンペーンや小さなベースラインコンバージョン率は、非実験的推定が比較的良好になる傾向がある。
- より大きなサンプルサイズ、より高いテスト露出比、傾向モデルの性能向上は非実験的推定を改善するが、ギャップは残る。
- 全体として、利用可能なデータを用いた非実験的アプローチは因果広告効果を信頼性高く推定できない。RCTからの外生的変動が依然として必要である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。