Skip to main content
QUICK REVIEW

[论文解读] Semi-knockoffs: a model-agnostic conditional independence testing method with finite-sample guarantees

Angel Reyero-Lobo, Bertrand Thirion|arXiv (Cornell University)|Jan 30, 2026
Machine Learning and Algorithms被引用 0
一句话总结

Semi-knockoffs 提供一种模型无关的 CIT 方法,无需训练-测试分割,通过条件插补和双鲁棒性框架实现有限样本的 I 型错误和 FDR 保证。

ABSTRACT

Conditional independence testing (CIT) is essential for reliable scientific discovery. It prevents spurious findings and enables controlled feature selection. Recent CIT methods have used machine learning (ML) models as surrogates of the underlying distribution. However, model-agnostic approaches require a train-test split, which reduces statistical power. We introduce Semi-knockoffs, a CIT method that can accommodate any pre-trained model, avoids this split, and provides valid p-values and false discovery rate (FDR) control for high-dimensional settings. Unlike methods that rely on the model-$X$ assumption (known input distribution), Semi-knockoffs only require conditional expectations for continuous variables. This makes the procedure less restrictive and more practical for machine learning integration. To ensure validity when estimating these expectations, we present two new theoretical results of independent interest: (i) stability for regularized models trained with a null feature and (ii) the double-robustness property.

研究动机与目标

  • 提供一个与任意预训练模型兼容的模型无关 CIT 框架。
  • 在保持有效有限样本保证的同时避免训练-测试分割。
  • 引入关于估计插补的稳定性和双鲁棒性的理论结果。
  • 确保在高维设置下实现有限样本 I 型错误控制和 FDR 控制。
  • 通过广泛的仿真和对比展示实际性能。

提出的方法

  • 使用条件期望定义 Semi-knockoffs 以扰动特征而不需要严格的 knockoffs。
  • 使用两个插补器:bdnu(X^j 对 X^{-j} 的回归)和 bdrho(X^j 对 X^{-j}, y 的回归)来生成两个扰动版本。
  • 计算两个扰动预测之间的基于损失的统计量差,并对 p 值应用非参数成对检验。
  • 采用 knockoff 风格的统计量与数据相关阈值以实现 FDR 控制。
  • 提供基于 Wilcoxon 的实现(SKO_Wcx)并讨论 I 型错误控制(Algorithm 1)。
  • 证明分布性和 Wasserstein 距离稳定性结果以在原假设下证明交换性(定理 4.1 和 4.2)以及双鲁棒性结果(定理 4.3)。
Figure 1 : Optimization stability. Data are generated from $z=\chi\beta+\epsilon$ , where $\beta$ is $0.25$ -sparse with important features grouped in blocks of 5 sampled uniformly. We set $n=300$ , $p=50$ , noise level at $\|\chi\beta\|/2$ and $\chi\sim\mathcal{N}(0,\Sigma)$ with $\Sigma_{i,j}=0.6^
Figure 1 : Optimization stability. Data are generated from $z=\chi\beta+\epsilon$ , where $\beta$ is $0.25$ -sparse with important features grouped in blocks of 5 sampled uniformly. We set $n=300$ , $p=50$ , noise level at $\|\chi\beta\|/2$ and $\chi\sim\mathcal{N}(0,\Sigma)$ with $\Sigma_{i,j}=0.6^

实验结果

研究问题

  • RQ1一个模型无关的 CIT 方法是否能够在不进行训练-测试分割的情况下提供有限样本 I 型错误控制?
  • RQ2如何构建条件插补,使在高维情形下能够实现有效的 p 值和 FDR 控制?
  • RQ3Semi-knockoffs 中涉及的估计量的稳定性和双鲁棒性属性是什么?
  • RQ4在仿真和真实数据中,Semi-knockoffs 相对于现有的 CIT/变量选择方法的表现如何?
  • RQ5Semi-knockoffs 是否能够在保证原假设下交换性的前提下兼容任意预训练模型?

主要发现

  • Semi-knockoffs 通过非参数成对检验实现有限样本 I 型错误控制的有效 p 值。
  • 基于 Semi-knockoffs 的 FDR 控制程序在给定假设下保证 FDR ≤ q。
  • 两项新的理论结果显示,在包含原假设特征时正则化学习器的稳定性,以及估计量的双鲁棒性属性。
  • 在原假设下保持交换性,从而实现类似于 knockoff 的阈值化而无需严格的 knockoffs。
  • 去随机化(多次置换)在实际应用中提高了检验的效力。
  • 来自仿真的经验证据表明相对于某些变异 VIMs 提高了检验能力,并且避免数据分割带来的损失有限。
Figure 3 : Empirical evidence for Double Robustness: Distribution of the Semi-knockoff statistic, i.e., the difference in loss evaluated at two independently sampled estimated residuals (blue: $l(\widehat{m}(\widetilde{X}_{1}^{\prime}),y)-l(\widehat{m}(\widetilde{X}_{2}^{\prime}),y)$ ), and distribu
Figure 3 : Empirical evidence for Double Robustness: Distribution of the Semi-knockoff statistic, i.e., the difference in loss evaluated at two independently sampled estimated residuals (blue: $l(\widehat{m}(\widetilde{X}_{1}^{\prime}),y)-l(\widehat{m}(\widetilde{X}_{2}^{\prime}),y)$ ), and distribu

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。