[論文レビュー] Partial Causal Structure Learning for Valid Selective Conformal Inference under Interventions
The paper develops a delta-robust selective conformal inference framework that learns only partial causal structure necessary for valid calibration under interventions, with finite-sample coverage guarantees and empirical validation on synthetic and real genomic perturbation data.
Selective conformal prediction can yield substantially tighter uncertainty sets when we can identify calibration examples that are exchangeable with the test example. In interventional settings, such as perturbation experiments in genomics, exchangeability often holds only within subsets of interventions that leave a target variable "unaffected" (e.g., non-descendants of an intervened node in a causal graph). We study the practical regime where this invariance structure is unknown and must be learned from data. Our contributions are: (i) a contamination-robust conformal coverage theorem that quantifies how misclassification of "unaffected" calibration examples degrades coverage via an explicit function $g(δ,n)$ of the contamination fraction and calibration set size, providing a finite-sample lower bound that holds for arbitrary contaminating distributions; (ii) a task-driven partial causal learning formulation that estimates only the binary descendant indicators $Z_{a,i}=\mathbf{1}\{i\in\mathrm{desc}(a)\}$ needed for selective calibration, rather than the full causal graph; and (iii) algorithms for descendant discovery via perturbation intersection patterns (differentially affected variable set intersections across interventions), and for approximate distance-to-intervention estimation via local invariant causal prediction. We provide recovery conditions under which contamination is controlled. Experiments on synthetic linear structural equation models (SEMs) validate the bound: under controlled contamination up to $δ=0.30$, the corrected procedure maintains $\ge 0.95$ coverage while uncorrected selective CP degrades to $0.867$. A proof-of-concept on Replogle K562 CRISPR interference (CRISPRi) perturbation data demonstrates applicability to real genomic screens.
研究の動機と目的
- Misclassification of unaffected calibration strata が介入下の選択的 conformal カバレッジをどのように低下させるかを定量化する。
- 介入下の選択的キャリブレーションに必要な部分的因果構造のみを推定するタスク駆動型の部分因果学習アプローチを提案する。
- キャリブレーションセットの汚染を制御するための子孫発見と介入までの距離推定アルゴリズムを開発する。
- 有限サンプル回復条件を提供し、合成SEMと実データで理論を検証する。
提案手法
- 汚染の割合とキャリブレーションサイズの関数 g(delta, n) としてカバレッジ損失を下限化するデルタ頑健な選択的 conformal カバレッジを導入する。
- 完全な因果グラフの学習ではなく、バイナリの子孫指標 Z_{a,i} を学習するタスク駆動型目的を定式化する。
- 二つのアルゴリズムを提案: (i) 異なる影響を受ける集合を用いた摂動の交差パターンによる子孫発見、(ii) 介入までの距離を近似する局所 ICP に触発された距離推定。
- 汚染が制御される再現条件を確立する(命題1–2および系論2)。
- 合成線形 SEM で汚染がカバレッジを劣化させることを実証し、補正手法が名目カバレッジを維持する(例:0.918 vs 0.9 )。CRISPR 摂動データで概念実証を含む。

実験結果
リサーチクエスチョン
- RQ1介入を受けなかったと誤分類されることは、介入下の選択的 conformal カバレッジにどのような影響を与えるか?
- RQ2有効な選択的キャリブレーションに必要な部分的因果構造のみを学習し、依然としてカバレッジを保証できるか?
- RQ3子孫発見と距離推定アルゴリズムはキャリブレーションセットの汚染を効果的に制御できるか?
- RQ4提案手法は合成および実際の介入遺伝子データでカバレッジを維持できるか?
主な発見
| Method | Coverage | Width | n_cal | δ̂ |
|---|---|---|---|---|
| Oracle | 0.901 | 3.35 | 118.8 | 0.000 |
| Estimated | 0.899 | 3.32 | 121.0 | 0.018 |
| Pooled | 0.899 | 3.32 | 121.0 | 0.000 |
| Corrected | 0.918 | 3.58 | 121.0 | 0.018 |
- 有限サンプルのデルタ頑健な選択的 conformal カバレッジの境界は、カバレッジは少なくとも 1 - alpha - g(delta, n) である。
- 部分的因果構造を学ぶタスク駆動型アプローチは、選択的キャリブレーションに有効で、完全なグラフ学習を回避できる。
- 二つのスケーラブルなアルゴリズムにより部分的因果学習を実現:摂動交差パターンによる子孫発見と局所 ICP に基づく距離推定、回復保証付き。
- 合成 SEM での実験は汚染がカバレッジを予測的に劣化させることを示し、補正手法は名目カバレッジを維持または上回る(例:0.918 対 0.9)。
- 実データの CRISPR 摂動データの例は、ゲノミクススクリーニングへの適用性を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。