Skip to main content
QUICK REVIEW

[논문 리뷰] Causal Discovery in the Presence of Missing Data

Ruibo Tu, Kun Zhang|arXiv (Cornell University)|2018. 07. 11.
Bayesian Modeling and Causal Inference인용 수 23
한 줄 요약

이 논문은 MCAR, MAR, MNAR를 포함한 다양한 부재 메커니즘을 가진 데이터에서 인과 구조를 복구하는 보정 기반 확장인 Missing Value PC (MVPC) 알고리즘을 제안한다. 오직 일부 오류가 발생한 조건부 이상성 테스트만을 식별하고 보정함으로써, MVPC는 MNAR 조건 하에서도 점차적 정확도를 확보하며, 합성 데이터, 시뮬레이션된 신경병성 통증 데이터, 그리고 실제 데이터셋에 대한 실증적 검증을 통해 기준 기준보다 뛰어난 성능을 보였다.

ABSTRACT

Missing data are ubiquitous in many domains including healthcare. When these data entries are not missing completely at random, the (conditional) independence relations in the observed data may be different from those in the complete data generated by the underlying causal process. Consequently, simply applying existing causal discovery methods to the observed data may lead to wrong conclusions. In this paper, we aim at developing a causal discovery method to recover the underlying causal structure from observed data that follow different missingness mechanisms, including missing completely at random (MCAR), missing at random (MAR), and missing not at random (MNAR). With missingness mechanisms represented by missingness graphs, we analyse conditions under which additional correction is needed to derive conditional independence/dependence relations in the complete data. Based on our analysis, we propose the Missing Value PC (MVPC) algorithm for both continuous and binary variables, which extends the PC algorithm to incorporate additional corrections. Our proposed MVPC is shown in theory to give asymptotically correct results even on data that are MAR or MNAR. Experimental results on synthetic data show that the proposed algorithm is able to find correct causal relations even in the general case of MNAR. Moreover, we create a neuropathic pain diagnostic simulator for evaluating causal discovery methods. Evaluated on such simulated neuropathic pain diagnosis records and the other two real world applications, MVPC outperforms the other benchmark methods.

연구 동기 및 목표

  • 관측 데이터에 MCAR, MAR, 또는 MNAR 메커니즘에 의해 발생하는 누락값이 존재할 경우 인과 발견에 생기는 편향 문제를 다루기 위해.
  • PC 알고리즘에서 누락값으로 인해 손상된 조건부 이상성 테스트를 식별하고, 모든 테스트를 보정하는 것이 아니라 일부 테스트만을 보정하기 위해.
  • 일반적인 누락 메커니즘 하에서도 점차적 정확도를 유지하는 이론적으로 탄탄한 효율적인 보정 프레임워크를 개발하기 위해.
  • 신경병성 통증 진단 시뮬레이터를 활용해 실생활 의료 환경에서의 인과 발견 방법을 평가하기 위해.
  • 실제 응용에 적합한 구현 가능한 보정 기법—순열 기반 및 밀도 비율 가중 기반—을 제공하기 위해.

제안 방법

  • MVPC는 누락값으로 인해 영향을 받는 조건부 이상성 테스트만을 선택적으로 보정함으로써 PC 알고리즘을 확장한다. 이는 누락 메커니즘에 대한 이론적 분석에 기반한다.
  • 이 방법은 누락 지표의 종속성 구조와 관측 변수와의 관계를 모델링하기 위해 누락 그래프를 사용한다.
  • 순열 기반 보정 방법(PermC)은 약한 가정 하에서 조건부 이상성 관계를 추정하며, 특히 누락 메커니즘이 특정 구조적 조건을 만족할 경우 매우 효과적이다.
  • PermC의 조건을 충족하지 못하는 경우, 커널 밀도 추정을 사용해 역확률 가중치를 근사하는 밀도 비율 가중 보정(DRW) 방법을 적용한다.
  • 자기 마스킹 누락(Masked Self-Masking, SFM)이 존재할 경우, 변수의 누락 여부가 그 자체를 포함한 다수의 원인에 의해 영향을 받는 경우, 알고리즘은 불확실한 간선을 식별하고 경고한다.
  • MVPC는 PC 알고리즘의 스켈레톤 발견 단계 동안 보정 단계를 통합함으로써, 계산 효율성을 유지하면서도 필요한 보정만을 적용한다.

실험 결과

연구 질문

  • RQ1MCAR, MAR, MNAR와 같은 누락 데이터 메커니즘이 제약 기반 방법(예: PC)을 사용한 인과 발견에 오류를 유도하는 조건은 무엇인가?
  • RQ2PC 알고리즘의 어떤 특정 조건부 이상성 테스트가 누락으로 인해 편향을 받기 쉬운가? 그리고 이러한 테스트는 체계적으로 식별될 수 있는가?
  • RQ3오직 최소한의 테스트만을 보정하는 보정 기반 접근법을 설계할 수 있는가? 이는 여전히 진정된 인과 구조를 복구할 수 있는가?
  • RQ4제안된 보정 방법인 PermC와 DRW는 다양한 누락 메커니즘, 특히 MNAR 하에서 얼마나 효과적인가?
  • RQ5MVPC는 합성 데이터와 실제 의료 응용 분야 모두에서 점차적 정확도를 확보하고 기존 방법보다 뛰어난 성능을 보일 수 있는가?

주요 결과

  • MVPC는 누락이 비랜덤(MNAR)일 경우에도, 누락 메커니즘에 대한 약한 가정 하에 진정된 인과 구조를 복구하는 데 점차적 정확도를 확보한다.
  • 순열 기반 보정 방법(PermC)은 밀도 비율 가중 방법(DRW)보다 유의미하게 뛰어나며, 특히 저차원 설정에서 더 낮은 데이터 및 계산 요구량으로 인해 유리하다.
  • 합성 데이터에 대한 실험 결과는 MVPC가 일반적인 MNAR 시나리오 하에서도 정확한 인과 관계를 성공적으로 복구하며 기준 기준을 능가함을 보여준다.
  • 신경병성 통증 진단 시뮬레이터를 활용한 평가 결과, MVPC는 실생활 의료 응용 환경에서의 강건성과 효과성을 입증하였다.
  • 두 개의 실제 데이터셋에서 MVPC는 기존 방법보다 뛰어난 성능을 보였으며, 의료 연구에서 흔히 발생하는 누락 데이터 상황에서의 실용적 유용성을 확인하였다.
  • 자기 마스킹 누락(Masked Self-Masking, SFM) 상황에서 불확실한 간선을 정확히 식별하고 경고함으로써, 인과 추론이 신뢰할 수 없는 영역에 대해 투명성을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.