[论文解读] Partial Causal Structure Learning for Valid Selective Conformal Inference under Interventions
该论文提出一种对 delta 鲁棒的选择性保真推断框架,该框架在干预下仅学习实现有效校准所需的部分因果结构,具有有限样本覆盖保证,并在合成数据和真实基因组扰动数据上进行了经验验证。
Selective conformal prediction can yield substantially tighter uncertainty sets when we can identify calibration examples that are exchangeable with the test example. In interventional settings, such as perturbation experiments in genomics, exchangeability often holds only within subsets of interventions that leave a target variable "unaffected" (e.g., non-descendants of an intervened node in a causal graph). We study the practical regime where this invariance structure is unknown and must be learned from data. Our contributions are: (i) a contamination-robust conformal coverage theorem that quantifies how misclassification of "unaffected" calibration examples degrades coverage via an explicit function $g(δ,n)$ of the contamination fraction and calibration set size, providing a finite-sample lower bound that holds for arbitrary contaminating distributions; (ii) a task-driven partial causal learning formulation that estimates only the binary descendant indicators $Z_{a,i}=\mathbf{1}\{i\in\mathrm{desc}(a)\}$ needed for selective calibration, rather than the full causal graph; and (iii) algorithms for descendant discovery via perturbation intersection patterns (differentially affected variable set intersections across interventions), and for approximate distance-to-intervention estimation via local invariant causal prediction. We provide recovery conditions under which contamination is controlled. Experiments on synthetic linear structural equation models (SEMs) validate the bound: under controlled contamination up to $δ=0.30$, the corrected procedure maintains $\ge 0.95$ coverage while uncorrected selective CP degrades to $0.867$. A proof-of-concept on Replogle K562 CRISPR interference (CRISPRi) perturbation data demonstrates applicability to real genomic screens.
研究动机与目标
- 量化在干预下未被影响的校准分层的错误分类如何削弱选择性保真覆盖率。
- 提出一种任务驱动的部分因果学习方法,仅估计对选择性校准所需的后代指示符。
- 开发后代发现和距离干预估计的算法,以在校准集控制污染。
- 给出有限样本的恢复条件,并在合成结构方程模型和真实扰动数据上验证理论。
提出的方法
- 引入 delta 鲁棒的选择性保真覆盖,将覆盖损失作为污染分数 delta 与校准样本量 n 的函数 g(delta, n) 限制。
- 将任务驱动目标公式化为学习二进制后代指示符 Z_{a,i},而非完整的因果图。
- 提出两种算法:(i) 通过对不同受影响集合的扰动交集模式进行后代发现;(ii) 受局部 ICP 启发的距离估计以近似距离干预。
- 在污染受到控制的情形下建立恢复条件(命题1-2和推论2)。
- 在合成线性 SEM 上进行经验验证,展示污染与覆盖的退化以及经过校正的方法保持名义覆盖率;并在 CRISPR 擾动数据上给出概念验证。

实验结果
研究问题
- RQ1干预被错误分类为未受影响时,会如何影响在干预下的选择性保真覆盖率?
- RQ2我们是否可以仅学习实现有效选择性校准所需的部分因果结构,并仍然保证覆盖率?
- RQ3后代发现与距离估计算法是否能有效控制校准集的污染?
- RQ4在合成和真实的干预基因组数据中,所提方法是否能维持覆盖率?
主要发现
| Method | Coverage | Width | n_cal | δ̂ |
|---|---|---|---|---|
| Oracle | 0.901 | 3.35 | 118.8 | 0.000 |
| Estimated | 0.899 | 3.32 | 121.0 | 0.018 |
| Pooled | 0.899 | 3.32 | 121.0 | 0.000 |
| Corrected | 0.918 | 3.58 | 121.0 | 0.018 |
- 有限样本的 delta 鲁棒选择性保真覆盖界表明覆盖率至少为 1 - alpha - g(delta, n)。
- 一种学习二进制后代指示符的任务驱动方法足以实现有效的选择性校准,避免完整图学习。
- 两种可扩展算法实现部分因果学习:通过扰动交集模式进行后代发现,以及基于局部 ICP 的距离估计,并给予恢复保证。
- 在合成 SEM 的实验中,污染会按预期降低覆盖率,而经过校正的方法保持甚至超过名义覆盖率(例如 0.918 对 0.9)。
- 一个真实的 CRISPR 擾动数据示例展示了对基因组筛选的适用性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。