QUICK REVIEW

[論文レビュー] Using Experiments to Correct for Selection in Observational Studies

Susan Athey, Raj Chetty|arXiv (Cornell University)|Jun 17, 2020

Advanced Causal Inference Techniques被引用数 25

ひとこと要約

本稿では、主なアウトカムが観察データにのみ存在する状況において、長期的な治療効果を推定するための手法を提案する。実験的データと観察的データの両方を用い、短期的な副次的アウトカムにおける治療効果の違いを活用することで、観察データにおける未測定の交絡要因を制御関数手法を用いて補正し、長期的アウトカムにおける信頼性のある因果推論を可能にする。

ABSTRACT

Researchers increasingly have access to two types of data: (i) large observational datasets where treatment (e.g., class size) is not randomized but several primary outcomes (e.g., graduation rates) and secondary outcomes (e.g., test scores) are observed and (ii) experimental data in which treatment is randomized but only secondary outcomes are observed. We develop a new method to estimate treatment effects on primary outcomes in such settings. We use the difference between the secondary outcome and its predicted value based on the experimental treatment effect to measure selection bias in the observational data. Controlling for this estimate of selection bias yields an unbiased estimate of the treatment effect on the primary outcome under a new assumption that we term latent unconfoundedness, which requires that the same confounders affect the primary and secondary outcomes. Latent unconfoundedness weakens the assumptions underlying commonly used surrogate estimators. We apply our estimator to identify the effect of third grade class size on students outcomes. Estimated impacts on test scores using OLS regressions in observational school district data have the opposite sign of estimates from the Tennessee STAR experiment. In contrast, selection-corrected estimates in the observational data replicate the experimental estimates. Our estimator reveals that reducing class sizes by 25% increases high school graduation rates by 0.7 percentage points. Controlling for observables does not change the OLS estimates, demonstrating that experimental selection correction can remove biases that cannot be addressed with standard controls.

研究の動機と目的

主なアウトカムが観察データにのみ存在する状況において、長期的因果効果を推定する課題に対処すること。
実験的データを用いて短期的副次的アウトカムにおける治療効果を推定することで、観察的データにおける未測定の交絡要因を是正すること。
実験の内部妥当性と、大規模な行政観察データの外部妥当性および豊富さを統合すること。
実験的および観察的サンプル間における副次的アウトカムにおける治療効果の乖離を活用して、長期的治療効果を同定する統計的枠組みを構築すること。
実験的推定の信頼性を保ちつつ、長期的アウトカムにおける一般化可能性を拡大する手法を提供すること。

提案手法

この手法は、実験的サンプルが内部的および外部的妥当性を持つと仮定するが、観察的サンプルは未測定の交絡要因に起因する可能性があると仮定する。
実験的サンプルを用いて、治療が副次的（短期的）アウトカムに与える因果効果を推定するが、実験的設定では交絡がないと仮定する。
実験的サンプルと観察的サンプルにおける副次的アウトカムに対する治療効果の推定値の差異は、観察的サンプルにおける未測定の交絡要因の証拠と解釈される。
制御関数アプローチが適用され、副次的アウトカム効果の差異が、観察的サンプルにおける主なアウトカム推定値を補正する関数として使用される。
この手法は、両方のサンプルを用いて、観察された共変量と副次的アウトカムを条件とした主なアウトカムの条件付き期待値をモデル化することで、長期的治療効果を同定する。
同定は、条件付き外部妥当性および潜在的交絡なし仮定に依存し、副次的アウトカムを通じて実験的データが観察的推定に影響を与えることを可能にする。

実験結果

リサーチクエスチョン

RQ1主なアウトカムが観察データにのみ存在する状況において、実験的および観察的データをどのように統合して長期的因果効果を推定できるか？
RQ2実験的および観察的サンプル間における副次的（短期的）アウトカムに対する治療効果の乖離が、未測定の交絡要因の検出に果たす役割は何か？
RQ3副次的アウトカムにおける実験的治療効果推定値を用いて、長期的アウトカムの観察的研究における選択バイアスを是正できるか？
RQ4どのような仮定のもとで、実験的および観察的データの組み合わせを用いて長期的治療効果を同定できるか？
RQ5得られる推定量が、観察的サンプルにおける未測定の交絡要因に対して一貫性があり、頑健であることを保証するにはどうすればよいか？

主な発見

本手法は、第3学年におけるテストスコアのProject STAR実験データ（副次的アウトカム）を制御として用い、ニューヨーク州の第8学年におけるテストスコアに対する長期的治療効果を有意に同定した。
実験的サンプルでは、クラス編成の縮小が第3学年スコアに正の効果をもたらす（0.181）が、観察的サンプルでは負の効果（-0.087）を示しており、観察的データに強い未測定の交絡要因の存在を示唆している。
副次的アウトカム効果の差異が、未測定交絡要因によるバイアスを低減する制御関数として構築され、主なアウトカム推定値が補正された。
条件付き外部妥当性および潜在的交絡なし仮定のもとで、本手法は長期的治療効果の同定を達成している。
実験的サンプルが外部的妥当性を持つと仮定すれば、母集団の特性の違いに対しても本手法は頑健である。
実証的応用では、第8学年におけるクラス編成効果の補正済み推定値が、単純な観察的推定値とは有意に異なることが示され、選択バイアスの是正の重要性が強調された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。