Skip to main content
QUICK REVIEW

[논문 리뷰] Leveraging Random Assignment to Impute Missing Covariates in Causal Studies

Gauri Kamat, Jerome P. Reiter|arXiv (Cornell University)|2019. 08. 04.
Advanced Causal Inference Techniques참고 문헌 47인용 수 4
한 줄 요약

이 논문은 무작위 실험에서 누락된 공변량에 대한 보정 방법에서 무작위 치료 배정을 활용할 경우의 영향을 조사한다. 다중 보정, 회귀 보정, 평균 보정을 사용한 설계 단계 및 결과 단계 보정 전략을 비교하여, 무작위화를 고려할 경우 정확도 향상이 거의 없음을 발견했으며, 결과에 기반한 보정 방법은 편향이 증가하여 종종 더 나쁜 성능을 보였다.

ABSTRACT

Baseline covariates in randomized experiments are often used in the estimation of treatment effects, for example, when estimating treatment effects within covariate-defined subgroups. In practice, however, covariate values may be missing for some data subjects. To handle missing values, analysts can use imputation methods to create completed datasets, from which they can estimate treatment effects. Common imputation methods include mean imputation, single imputation via regression, and multiple imputation. For each of these methods, we investigate the benefits of leveraging randomized treatment assignment in the imputation routines, that is, making use of the fact that the true covariate distributions are the same across treatment arms. We do so using simulation studies that compare the quality of inferences when we respect or disregard the randomization. We consider this question for imputation routines implemented using covariates only, and imputation routines implemented using the outcome variable. In either case, accounting for randomization offers only small gains in accuracy for our simulation scenarios. Our results also shed light on the performances of these different procedures for imputing missing covariates in randomized experiments when one seeks to estimate heterogeneous treatment effects.

연구 동기 및 목표

  • 무작위 치료 배정을 보정 절차에 통합할 경우, 누락된 공변량이 있는 무작위 실험에서 추정 정확도가 향상되는지 평가하기.
  • 무시 가능 및 무시 불가능한 누락 메커니즘 하에서 설계 단계 대비 결과 단계 보정 방법의 성능을 비교하기.
  • 무작위화를 고려하거나 무시할 경우 평균 보정, 회귀 보정, 다중 보정의 상대적 장점 평가하기.
  • 보정 전략이 이질적 치료 효과 추정에 미치는 영향 분석하기.
  • 무작위화 하에서 인과 추론에 있어 누락된 공변량을 다루는 데 최선의 실천 방법 제공하기.

제안 방법

  • 무시 가능 및 무시 불가능한 누락 메커니즘 하에서 누락된 공변량이 있는 무작위 실험 시뮬레이션.
  • 다중 보정 전략 4가지 구현: MI-R(설계 단계, 무작위화 고려), MI-NR(설계 단계, 무작위화 무시), MI-RY(결과 단계, 무작위화 고려), MI-NRY(결과 단계, 무작위화 무시).
  • 단일 보정 방법 적용: 결과 변수 포함 여부에 따라 평균 보정 및 회귀 보정 모두 시행.
  • 루빈의 다중 보정 프레임워크를 사용하여 다수의 보정 데이터셋 결과를 루빈의 규칙으로 통합.
  • 상호작용 항을 포함하거나 제거하여 이질적 치료 효과 추정하기.
  • 편향, 분산, 신뢰구간 커버리지 비율, 평균 신뢰구간 길이를 사용해 성능 평가하기.

실험 결과

연구 질문

  • RQ1무작위 실험에서 누락된 공변량이 있는 경우, 보정 절차에 무작위 치료 배정을 활용할 경우 치료 효과 추정의 정확도가 향상되는가?
  • RQ2이질적 치료 효과를 추정할 때, 설계 단계 및 결과 단계 보정 방법 간의 편향, 분산, 커버리지 측면에서 성능 비교는 어떻게 되는가?
  • RQ3누락된 공변량의 보정 모델에 결과 변수를 포함할 경우 어떤 영향을 미치는가?
  • RQ4다양한 수준의 공변량-결과 연관성과 다른 누락 메커니즘 하에서 평균 보정, 회귀 보정, 다중 보정 등의 보정 방법 성능은 어떻게 되는가?
  • RQ5무작위화를 고려하는 보정 방법이 고려하지 않는 방법보다 우월한 조건은 무엇인가?

주요 결과

  • 무작위화를 보정 절차에 반영하더라도, 중간 크기의 실험에서도 추정 정확도 향상이 거의 없이 작은 개선만을 보였다.
  • 결과 변수를 보정 모델에 포함한 다중 보정 방법(MI-RY 및 MI-NRY)은 설계 단계 방법(MI-R 및 MI-NR)보다 편향은 낮지만 분산은 더 높았다.
  • 설계 단계 보정에서 평균 보정을 사용할 경우, 표본 크기가 크면 근사적으로 명목 수준의 커버리지 비율을 달성하며, 편향은 적고 신뢰구간 길이도 합리적인 수준을 유지했다.
  • 결과에 기반한 보정 방법은 항상 설계 단계 방법보다 성능이 열 劣했으며, 특히 공변량이 결과를 잘 예측할 경우 편향이 더 컸다.
  • 공변량-결과 연관성이 낮을 경우 모든 다중 보정 방법이 낮은 편향을 보였지만, MI-R 및 MI-NR은 MI-RY 및 MI-NRY보다 더 효율적이었다.
  • 극도로 큰 표본 크기(예: 100,000명/군)에서는 MI-R 및 MI-NR가 지속적인 편향을 보이며 표준오차를 능가해 명목 수준 이하의 커버리지 비율을 보였고, 결과 단계 방법은 더 나은 커버리지 유지했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.