Skip to main content
QUICK REVIEW

[논문 리뷰] Partial Causal Structure Learning for Valid Selective Conformal Inference under Interventions

Amir Asiaee, Kavey Aryan|arXiv (Cornell University)|2026. 03. 02.
Bayesian Modeling and Causal Inference인용 수 0
한 줄 요약

논문은 간섭하에서 유효한 보정을 위해 필요한 부분 원인 구조만 학습하는 델타-강건한 선택적 컨포멀 추론 프레임워크를 개발하고, 유한 샘플 커버리지 보장과 합성 및 실제 유전 게놈 교란 데이터에 대한 실증 검증을 제공합니다.

ABSTRACT

Selective conformal prediction can yield substantially tighter uncertainty sets when we can identify calibration examples that are exchangeable with the test example. In interventional settings, such as perturbation experiments in genomics, exchangeability often holds only within subsets of interventions that leave a target variable "unaffected" (e.g., non-descendants of an intervened node in a causal graph). We study the practical regime where this invariance structure is unknown and must be learned from data. Our contributions are: (i) a contamination-robust conformal coverage theorem that quantifies how misclassification of "unaffected" calibration examples degrades coverage via an explicit function $g(δ,n)$ of the contamination fraction and calibration set size, providing a finite-sample lower bound that holds for arbitrary contaminating distributions; (ii) a task-driven partial causal learning formulation that estimates only the binary descendant indicators $Z_{a,i}=\mathbf{1}\{i\in\mathrm{desc}(a)\}$ needed for selective calibration, rather than the full causal graph; and (iii) algorithms for descendant discovery via perturbation intersection patterns (differentially affected variable set intersections across interventions), and for approximate distance-to-intervention estimation via local invariant causal prediction. We provide recovery conditions under which contamination is controlled. Experiments on synthetic linear structural equation models (SEMs) validate the bound: under controlled contamination up to $δ=0.30$, the corrected procedure maintains $\ge 0.95$ coverage while uncorrected selective CP degrades to $0.867$. A proof-of-concept on Replogle K562 CRISPR interference (CRISPRi) perturbation data demonstrates applicability to real genomic screens.

연구 동기 및 목표

  • 간섭 하에서 보정의 비적합한 기준층 오분류가 선택적 컨포멀 커버리지를 저하시킬지 정량화한다.
  • 선택적 보정에 필요한 부분적 원인 구조만 추정하는 작업 주도적 부분 원인 학습 접근법을 제안한다.
  • 교란 집합의 오염을 제어하는 descendent 발견 및 간섭까지의 거리 추정 알고리즘을 개발한다.
  • 유한 샘플 회복 조건을 제시하고 합성 SEM 및 실제 교란 데이터에서 이론을 검증한다.

제안 방법

  • 오염 분수와 보정 크기에 따라 커버리지 손실을 상한하는 g(delta, n) 함수로 경계하는 델타-강건한 선택적 커버리지를 도입한다.
  • 전체 인과 그래프가 아닌 이진 descendant 지표 Z_{a,i}를 학습하는 작업 주도적 objective를 형식화한다.
  • 두 가지 알고리즘을 제안한다: (i) 서로 다른 영향 집합을 이용한 교란 교집합 패턴을 통한 descendant 발견, (ii) 간섭까지의 거리를 근사하는 로컬 ICP-영감 거리 추정, (iii) (요건에 따라) 보정 집합의 오염을 통제하는 회복 보장.
  • 오염이 제어되는 회복 조건을 확립한다(정리 1–2 및 보론 2).
  • 합성 선형 SEM에서 오염에 따른 저하를 보이고 보정된 방법이 명목상의 커버리지를 유지함을 실증적으로 검증하되(예: 0.918 vs 0.9), CRISPR 교란 데이터에 대한 개념 증명을 포함한다.
Figure 2: Coverage vs. injected contamination $\delta$ . Estimated (blue) degrades monotonically from $0.905$ to $0.867$ ; Corrected (orange) remains above $0.95$ for $\delta\geq 0.05$ ; Oracle (green) and Pooled (red) are unaffected. Dashed line: nominal $1-\alpha=0.9$ .
Figure 2: Coverage vs. injected contamination $\delta$ . Estimated (blue) degrades monotonically from $0.905$ to $0.867$ ; Corrected (orange) remains above $0.95$ for $\delta\geq 0.05$ ; Oracle (green) and Pooled (red) are unaffected. Dashed line: nominal $1-\alpha=0.9$ .

실험 결과

연구 질문

  • RQ1간섭에 의해 영향을 받지 않는 것으로 잘못 분류된 개입이 간섭 하에서의 선택적 컨포멀 커버리지에 어떤 영향을 미치는가?
  • RQ2유효한 선택적 보정을 위해 필요한 부분적 원인 구조만 학습하고도 커버리지를 보장할 수 있는가?
  • RQ3또래 발견 및 거리 추정 알고리즘이 보정 집합의 오염을 실제로 제어하는가?
  • RQ4제안된 방법들이 합성 및 실제 개입 유전체 데이터에서 커버리지를 유지하는가?

주요 결과

Method커버리지n_calδ̂
Oracle0.9013.35118.80.000
Estimated0.8993.32121.00.018
Pooled0.8993.32121.00.000
Corrected0.9183.58121.00.018
  • 유한 샘플의 delta-robust 선택적 컨포멀 커버리지 한계는 커버리지가 최소 1 - alpha - g(delta, n)임을 보인다.
  • 이진 descendant 지표를 학습하는 작업 주도적 접근법은 전체 그래프 학습 없이도 유효한 선택적 보정을 가능하게 한다.
  • 교란 발견 via perturbation intersection patterns와 로컬 ICP 기반 거리 추정을 통한 두 가지 확장 가능한 알고리즘이 부분적 인과 학습을 가능하게 하며 회복 보장을 제공한다.
  • 합성 SEM에서 오염이 커버리지를 예측 가능하게 저하시킴을 보여주고 보정된 방법이 명목 커버리지를 유지하거나 상회함(예: 0.918 vs 0.9).
  • 실제 CRISPR 교란 데이터 예제가 유전체 스크리닝에의 적용 가능성을 보여준다.
Figure 3: Gap between empirical coverage and the theoretical lower bound from Theorem 1 . All values are non-negative for the selective methods (Oracle, Estimated, Corrected), confirming the bound is valid. Pooled shows a small negative gap ( $\approx-0.004$ ) because it uses all calibration points
Figure 3: Gap between empirical coverage and the theoretical lower bound from Theorem 1 . All values are non-negative for the selective methods (Oracle, Estimated, Corrected), confirming the bound is valid. Pooled shows a small negative gap ( $\approx-0.004$ ) because it uses all calibration points

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.