Skip to main content
QUICK REVIEW

[論文レビュー] Many Experiments, Few Repetitions, Unpaired Data, and Sparse Effects: Is Causal Inference Possible?

Felix Schur, Niklas Pfister|arXiv (Cornell University)|Jan 21, 2026
Advanced Causal Inference Techniques被引用数 0
ひとこと要約

この論文は、未対応データで隠れコンファウンディングが存在する状況下で因果効果の推定を行うGMMベースの推定量SplitUPを開発し、環境数が増加すると一致性を示し、スパースな因果効果へ拡張します。

ABSTRACT

We study the problem of estimating causal effects under hidden confounding in the following unpaired data setting: we observe some covariates $X$ and an outcome $Y$ under different experimental conditions (environments) but do not observe them jointly; we either observe $X$ or $Y$. Under appropriate regularity conditions, the problem can be cast as an instrumental variable (IV) regression with the environment acting as a (possibly high-dimensional) instrument. When there are many environments but only a few observations per environment, standard two-sample IV estimators fail to be consistent. We propose a GMM-type estimator based on cross-fold sample splitting of the instrument-covariate sample and prove that it is consistent as the number of environments grows but the sample size per environment remains constant. We further extend the method to sparse causal effects via $\ell_1$-regularized estimation and post-selection refitting.

研究の動機と目的

  • 隠れコンファウンディングがある環境間でデータが未対応である場合のX→Y因果効果の推定を動機づける。
  • 有限次元および高次元の道具変数設定のいずれにおいても、環境を道具として用いることで因果推定の同定性を示す。
  • 多くの環境にスケールする一貫性のある推定手法を提案し、スパースなβ*シナリオを含む。
  • denseおよびsparseの両方のレジームに対する漸近理論と推定手順を確立する。

提案手法

  • 環境指標と連続共変量によって与えられる道具変数を用いて未対応データをモデル化し、IV様の同定を可能にする。
  • 多数の環境で環境ごとの観測数が少ない場合に対処するため、クロスフォールドのサンプル分割を用いた二組のサンプルGMM推定フレームワークを構築する。
  • UP-GMMおよびℓ1正則化付きのUP-GMMを導入し、スパースな因果効果を考慮する。
  • 有限次元および高次元の道具変数設定の下で同定性を示し、制限付き零空間条件を含む。
  • 高次元レジーム(m→∞)ではdenseβ*の場合にrank(Q)=dで同定可能であり、sparseβ*の場合は制限付き零空間条件の下で同定可能であることを示す。
  • 環境数が増加するにつれて分割型SplitUP GMM推定量が一貫性をもち、環境ごとの標本数が一定に保たれても漸近正規性を達成する。

実験結果

リサーチクエスチョン

  • RQ1複数の環境で収集された未対応データからβ*を同定できるか。
  • RQ2有限次元および高次元の道具変数設定における同定性を確保する条件(スパースβ*を含む)。
  • RQ3多くの環境が存在し、環境ごとの繰り返しが少ない場合に一貫性のある推定量を構築できるか。
  • RQ4ℓ1正則化はこの未対応データ設定でスパースな因果効果の信頼できる復元を可能にするか。
  • RQ5推定された因果効果とその支持に対する推論をどのように実施するか。

主な発見

  • β*の同定性は、環境を因子として環境外挿条件の下で未対応サンプルから達成可能である。
  • 有限道具変数設定では、denseβ*の場合にCov(I,X)の階数がdであることが同定性の要件であり、スパースβ*は制限付き零空間基準を通じてより弱い条件で同定可能。
  • 高次元道具変数レジーム(m→∞)では、denseβ*の場合にrank(Q)=dで同定可能であり、sparseβ*はQの制限付き零空間条件の下で同定可能である。
  • 分割型のSplitUP GMM推定量は環境数が増加するにつれて一貫性をもち、環境ごとの標本数が一定でも漸近正規性を達成する。
  • ℓ1ペナルティ付きGMMは事後選択リフィットと組み合わせることで、beta-min条件の下で一貫した推定と支持復元を達成し、収束率はO_p(√(s*/N))である。
  • 標準的な二組のサンプルIV推定量は高次元の未対応設定でバイアスがかかることが示され、提案されたクロスモーメントGMM推定量がこのバイアスを緩和する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。