Skip to main content
QUICK REVIEW

[論文レビュー] Nonparametric estimation of causal heterogeneity under high-dimensional confounding

Michael Zimmert, Michael Lechner|arXiv (Cornell University)|Aug 23, 2019
Advanced Causal Inference Techniques参考文献 33被引用数 26
ひとこと要約

本稿では、高次元の交絡要因のもとで、グループ平均処置効果(GATE)の非パラメトリック推定を目的とした2段階の機械学習ベース推定量を提案する。交絡要因の補正と処置効果の異質性推定を分離することで、一貫性、漸近正規性、レート二重ロバスト性を確立し、最終的なATE推定量はGATEの平均化によって半パラメトリック効率性を達成する。

ABSTRACT

This paper considers the practically important case of nonparametrically estimating heterogeneous average treatment effects that vary with a limited number of discrete and continuous covariates in a selection-on-observables framework where the number of possible confounders is very large. We propose a two-step estimator for which the first step is estimated by machine learning. We show that this estimator has desirable statistical properties like consistency, asymptotic normality and rate double robustness. In particular, we derive the coupled convergence conditions between the nonparametric and the machine learning steps. We also show that estimating population average treatment effects by averaging the estimated heterogeneous effects is semi-parametrically efficient. The new estimator is an empirical example of the effects of mothers' smoking during pregnancy on the resulting birth weight.

研究の動機と目的

  • 潜在的な交絡要因の数が非常に多い状況において、因果的効果の異質性を推定する課題に対処すること。
  • 高次元の共変量空間における従来の非パラメトリック回帰の限界を克服するため、交絡要因の補正と処置効果の異質性推定を分離すること。
  • 機械学習を用いて高次元の交絡要因を処理しつつ、関心のある少数の実質的共変量に基づいて柔軟で非パラメトリックなGATE推定手法を開発すること。
  • 機械学習と非パラメトリック推定ステップの間の連携収束条件を導出することで、統計的効率性とロバスト性を確保すること。
  • 推定されたGATEの平均化が、有限標本において標準的なIPWおよびAIPW手法を上回る半パラメトリック効率性を持つATE推定量を生成することを示すこと。

提案手法

  • 2段階手順を用いる:まず、Lasso、Ridge、Elastic Net、ランダムフォレストなどの機械学習手法を用いて、高次元の交絡要因を補正するための傾向スコアおよびアウトカム回帰を推定する。
  • 2段階目では、実質的関心のある低次元の共変量(離散的および連続的)のGATEを、カーネルスムージングまたは類似の非パラメトリック回帰を用いて非パラメトリックに推定する。
  • 機械学習ステップと非パラメトリックGATE推定ステップの両方が最適レートで同時に収束することを保証するための連携収束条件を導出する。
  • 推定されたGATEの平均化によって得られる3段階のATE推定量を構築し、正規性条件のもとで半パラメトリック効率性が示されることを示す。
  • Lasso、Ridge、Elastic Net、ランダムフォレストの重み付き組み合わせなどのアンサンブル学習を用いて、ヌイアンスパラメータの推定を改善し、平均二乗誤差を低減する。
  • 有限標本における性能を比較するためのベンチマークとして、加重逆確率プロバビリティ(AIPW)および逆確率プロバビリティ(IPW)を用いる。

実験結果

リサーチクエスチョン

  • RQ1交絡要因の数が非常に多い状況において、2段階の機械学習ベース推定量がGATEの推定において一貫性と漸近正規性を達成できるか。
  • RQ2機械学習段階と非パラメトリックGATE推定段階との間の連携収束条件は何か。これにより最適レート特性が保証される。
  • RQ3推定されたGATEの平均化が、高次元の交絡要因のもとで半パラメトリック効率性を持つATE推定量を生成するか。
  • RQ4有限標本において、提案手法は標準的なIPWおよびAIPW推定量と比較して、バイアス、標準誤差、および性能の観点で優れているか。
  • RQ5本フレームワークは、インストゥルメンタル変数、差分の差分、連続処置などの他の設定へ拡張可能か。

主な発見

  • 提案された2段階推定量は、機械学習ステップと非パラメトリック推定ステップの間の連携収束条件のもとで、一貫性、漸近正規性、およびレート二重ロバスト性を達成する。
  • 推定されたGATEの平均化によって得られるATE推定量は、半パラメトリック効率性を示し、半パラメトリック効率限界に達することが示された。
  • 母体の喫煙と出生体重に関する実証的結果では、AIPWに基づくアンサンブル推定量が点推定値-234.826、標準誤差27.257を示し、パラメトリックおよびIPWベースの代替手法を上回った。
  • IPWベースの推定量は標準誤差が45.110にまで膨張し、高次元の交絡要因のもとで性能が著しく劣ることが示された。
  • パラメトリックAIPW推定量は点推定値-242.990、標準誤差25.885を示したが、アンサンブルベースのAIPW推定量はよりロバストで効率的であった。
  • 滑らか化された3段階推定量は、直接的な効率スコアの平均化と漸近的に同等であるが、傾向スコアの重みに依存するのを減らすことで、有限標本における性質が優れている可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。