Skip to main content
QUICK REVIEW

[논문 리뷰] Many Experiments, Few Repetitions, Unpaired Data, and Sparse Effects: Is Causal Inference Possible?

Felix Schur, Niklas Pfister|arXiv (Cornell University)|2026. 01. 21.
Advanced Causal Inference Techniques인용 수 0
한 줄 요약

이 논문은 숨겨진 교란 하에 비쌍 데이터에서 인과 효과 추정을 위한 GMM 기반 추정기 SplitUP를 개발하고, 환경 수가 증가함에 따라 일관성을 보이며 희소 인과 효과로 확장한다.

ABSTRACT

We study the problem of estimating causal effects under hidden confounding in the following unpaired data setting: we observe some covariates $X$ and an outcome $Y$ under different experimental conditions (environments) but do not observe them jointly; we either observe $X$ or $Y$. Under appropriate regularity conditions, the problem can be cast as an instrumental variable (IV) regression with the environment acting as a (possibly high-dimensional) instrument. When there are many environments but only a few observations per environment, standard two-sample IV estimators fail to be consistent. We propose a GMM-type estimator based on cross-fold sample splitting of the instrument-covariate sample and prove that it is consistent as the number of environments grows but the sample size per environment remains constant. We further extend the method to sparse causal effects via $\ell_1$-regularized estimation and post-selection refitting.

연구 동기 및 목표

  • 숨겨진 교란이 있을 때 환경 간 데이터가 비쌍인 경우 X→Y 인과 효과를 추정하려는 동기를 제시한다.
  • 환경을 도구변수로 사용하여 인과효과의 식별가능성을 유한 차원과 고차원 도구변수 설정에서 모두 보여준다.
  • 다수의 환경에 확장할 수 있는 일관 추정 방법을 제안하며, 희소 β* 시나리오도 포함한다.
  • Dense 및 Sparse 레지임에 대해 비점별 이론 및 추론 절차를 확립한다.

제안 방법

  • 환경 지시변수와 연속 共변수에 의해 주어진 도구를 사용해 비쌍 데이터를 모델링하고 IV 유사 식별을 가능하게 한다.
  • 환경별 관찰 수가 적은 다수의 환경을 다루기 위해 교차적으로 샘플을 분할하는 두 샘플 GMM 추정 프레임워크를 형식화한다.
  • 희소 인과 효과를 수용하기 위해 UP-GMM 및 ℓ1 정규화를 갖춘 UP-GMM을 도입한다.
  • 유한 차원 및 고차원 도구변수 체제에서의 식별가능성을 입증하며, 제한된 영공간 조건을 포함한다.
  • 고차원 체제에서의 단순 두 샘플 IV 추정이 편향되며, 일관적이고 점근적으로 정규분포를 갖는 교차 모멘트 GMM 추정기가 이를 완화한다는 점을 제시한다.

실험 결과

연구 질문

  • RQ1다중 환경에서 수집된 비쌍 데이터로부터 인과 효과 β*를 식별할 수 있는가?
  • RQ2유한 차원 및 고차원 도구변수 설정에서의 식별가능성 조건은 무엇이며, 희소 β*를 포함하는가?
  • RQ3환경이 많고 각 환경의 반복 수가 적은 상황에서 일관 추정기를 구성할 수 있는가?
  • RQ4ℓ1-정규화가 이 비쌍 데이터 설정에서 희소 인과 효과의 신뢰성 있는 회복을 가능하게 하는가?
  • RQ5추정된 인과 효과와 그 지지에 대해 어떻게 추론을 수행할 수 있는가?

주요 결과

  • 환경을 도구로 삼고 명시된 외생성 및 전달 조건 하에서 비쌍 샘플로부터 β*의 식별가능성이 달성될 수 있다.
  • 유한 도구변수 설정에서 식별은 dense β*일 때 Cov(I,X)의 Rank가 d여야 하며, 희소 β*에 대해선 제한된 영공간 기준을 통해 더 약한 조건이 허용된다.
  • 고차원 도구변수 체제(m → ∞)에서 dense β*일 때 Q의 Rank가 d이면 β*를 식별할 수 있으며, 제한된 영공간 조건 하에서 희소 β*에 대해서도 식별 가능하다.
  • 환경 수가 증가하고 환경별 샘플 수가 일정하게 유지될 때 교차 폴드 분할-UP GMM 추정기(SplitUP)가 일관적이며, 적절한 가중치를 사용할 경우 점근적으로 정규분포를 달성한다.
  • 선형 ℓ1 페널티 GMM과 선택 후 재적합(post-selection refitting)은 beta-min 조건 하에서 일관된 추정과 지지 복원을 제공합니다. 속도는 O_p(√(s*/N))이다.
  • 표준 이차 샘플 IV 추정기는 고차원 비쌍 설정에서 편향이 있음을 보였고, 제안된 교차 모멘트 GMM 추정기가 이 편향을 완화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.