QUICK REVIEW

[논문 리뷰] Using Experiments to Correct for Selection in Observational Studies

Susan Athey, Raj Chetty|arXiv (Cornell University)|2020. 06. 17.

Advanced Causal Inference Techniques인용 수 25

한 줄 요약

이 논문은 실험적 자료와 관찰적 자료를 융합하여, 주요 결과가 오직 관찰적 자료에만 존재할 때 장기 치료 효과를 추정하는 방법을 제안한다. 두 샘플 간 단기 보조 결과에 대한 치료 효과의 차이를 활용하여, 관찰적 자료의 비관측 혼란인자에 대한 보정을 제어 함수 기법을 통해 수행함으로써 장기 결과에 대한 신뢰할 수 있는 인과적 추론을 가능하게 한다.

ABSTRACT

Researchers increasingly have access to two types of data: (i) large observational datasets where treatment (e.g., class size) is not randomized but several primary outcomes (e.g., graduation rates) and secondary outcomes (e.g., test scores) are observed and (ii) experimental data in which treatment is randomized but only secondary outcomes are observed. We develop a new method to estimate treatment effects on primary outcomes in such settings. We use the difference between the secondary outcome and its predicted value based on the experimental treatment effect to measure selection bias in the observational data. Controlling for this estimate of selection bias yields an unbiased estimate of the treatment effect on the primary outcome under a new assumption that we term latent unconfoundedness, which requires that the same confounders affect the primary and secondary outcomes. Latent unconfoundedness weakens the assumptions underlying commonly used surrogate estimators. We apply our estimator to identify the effect of third grade class size on students outcomes. Estimated impacts on test scores using OLS regressions in observational school district data have the opposite sign of estimates from the Tennessee STAR experiment. In contrast, selection-corrected estimates in the observational data replicate the experimental estimates. Our estimator reveals that reducing class sizes by 25% increases high school graduation rates by 0.7 percentage points. Controlling for observables does not change the OLS estimates, demonstrating that experimental selection correction can remove biases that cannot be addressed with standard controls.

연구 동기 및 목표

주요 결과가 오직 관찰적 자료에만 존재할 때 장기 인과 효과를 추정하는 데 도전하는 데 목적을 두며.
실험적 자료를 활용하여 보조적인 단기 결과에 대한 치료 효과를 추정함으로써 관찰적 연구에서의 비관측 혼란인자를 보정한다.
실험의 내부 타당성과 대규모 관찰적 행정 자료의 외부 일반화 가능성과 풍부함을 융합한다.
실험적 자료와 관찰적 자료 간 보조 결과에 대한 치료 효과의 이질성을 활용하여 장기 치료 효과를 식별하는 통계적 프레임워크를 개발한다.
실험적 추정치의 신뢰성을 유지하면서도 장기 결과에 대해 더 넓은 인구 집단으로의 외부 일반화 가능성을 확장하는 방법을 제공한다.

제안 방법

이 방법은 실험적 자료가 내부 및 외부 타당성을 모두 갖춘 반면, 관찰적 자료는 비관측 혼란인자로 인해 영향을 받을 수 있다고 가정한다.
실험적 자료를 사용하여 보조(단기) 결과에 대한 치료 효과의 인과적 영향을 추정하며, 실험적 환경에서는 비관측 혼란이 없다고 가정한다.
실험적 자료와 관찰적 자료 간 보조 결과에 대한 치료 효과 추정치의 차이를, 관찰적 자료에서의 비관측 혼란인자를 나타내는 증거로 해석한다.
제어 함수 접근법을 적용하여, 보조 결과 효과의 차이를 이용해 관찰적 자료에서 주요 결과 추정치를 조정하는 함수를 구성한다.
이 방법은 두 샘플을 모두 사용하여 보조 결과와 관측된 공변량을 조건으로 하여 주요 결과의 조건부 기대값을 모델링함으로써 장기 치료 효과를 식별한다.
식별은 조건부 외부 타당성과 잠재적 비관측 혼란이 없다는 가정에 기반하며, 이는 실험적 자료를 보조 결과를 통해 관찰적 추정에 활용할 수 있도록 한다.

실험 결과

연구 질문

RQ1주요 결과가 오직 관찰적 자료에만 존재할 때 실험적 자료와 관찰적 자료를 어떻게 융합하여 장기 인과 효과를 추정할 수 있는가?
RQ2실험적 자료와 관찰적 자료 간 보조(단기) 결과에 대한 치료 효과의 차이가 비관측 혼란인자를 탐지하는 데 어떤 역할을 하는가?
RQ3보조 결과에 대한 실험적 추정치를 활용하여 장기 결과에 대한 관찰적 연구에서의 선택 편향을 보정할 수 있는가?
RQ4어떤 가정 하에 실험적 자료와 관찰적 자료의 조합을 통해 장기 치료 효과를 식별할 수 있는가?
RQ5결과 추정치가 관찰적 자료에서 비관측 혼란인자에 대해 일관되고 강건함을 보장하기 위해선 어떻게 해야 하는가?

주요 결과

이 방법은 제어 함수 기반으로 뉴욕주에서의 8학년 시험 성적에 대한 장기 치료 효과를 성공적으로 식별하였다. 제어로 사용된 것은 3학년 시험 성적에 대한 프로젝트 스타(Star) 실험 자료이다.
실험적 자료에서는 학급 규모 축소가 3학년 성적에 긍정적이고 유의미한 영향을 미치는 것으로 추정되었으며(0.181), 반면 관찰적 자료에서는 부정적인 영향(-0.087)을 보여 비관측 혼란인자가 관찰적 자료에 강하게 존재함을 시사한다.
보조 결과 효과의 차이를 이용해 비관측 혼란인자에 의한 편향을 줄이기 위한 제어 함수를 구성하였다.
조건부 외부 타당성과 잠재적 비관측 혼란이 없다는 가정 하에서 장기 치료 효과의 식별이 가능하다.
실험적 자료가 외부 타당성이 있다고 가정할 경우, 인구 특성의 차이에 대해서도 이 방법은 강건함을 유지한다.
실증 분석 결과, 수정된 학급 규모 축소 효과 추정치는 단순 관찰적 추정치와 유의미하게 다름을 보여, 선택 편향을 보정하는 것이 중요함을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.