Skip to main content
QUICK REVIEW

[논문 리뷰] Semi-knockoffs: a model-agnostic conditional independence testing method with finite-sample guarantees

Angel Reyero-Lobo, Bertrand Thirion|arXiv (Cornell University)|2026. 01. 30.
Machine Learning and Algorithms인용 수 0
한 줄 요약

한 줄 요약: Semi-knockoffs는 모델에 의존하지 않는 CIT 방법을 제안하며 학습-검증 분할을 피하고 조건적 대입과 이중 강건성 프레임워크를 사용하여 유한 표본에서의 제1형 오류 및 FDR 보장을 제공합니다.

ABSTRACT

Conditional independence testing (CIT) is essential for reliable scientific discovery. It prevents spurious findings and enables controlled feature selection. Recent CIT methods have used machine learning (ML) models as surrogates of the underlying distribution. However, model-agnostic approaches require a train-test split, which reduces statistical power. We introduce Semi-knockoffs, a CIT method that can accommodate any pre-trained model, avoids this split, and provides valid p-values and false discovery rate (FDR) control for high-dimensional settings. Unlike methods that rely on the model-$X$ assumption (known input distribution), Semi-knockoffs only require conditional expectations for continuous variables. This makes the procedure less restrictive and more practical for machine learning integration. To ensure validity when estimating these expectations, we present two new theoretical results of independent interest: (i) stability for regularized models trained with a null feature and (ii) the double-robustness property.

연구 동기 및 목표

  • 모든 사전 학습 모델과 함께 작동하는 모델-독립적 CIT 프레임워크를 제공합니다.
  • 학습-검증 분할을 피하면서도 유효한 유한 표본 보장을 유지합니다.
  • 추정된 대입에 대한 안정성 및 이중 강건성에 관한 이론적 결과를 도입합니다.
  • 고차원 설정에서의 유한 표본 타입-I 오류 제어 및 FDR 제어를 보장합니다.
  • 광범위한 시뮬레이션 및 비교를 통해 실용적 성능을 입증합니다.

제안 방법

  • 특정한 충분한 정확한 knockoffs를 필요로 하지 않고 특징들을 섞어 perturb하는 조건 기대값을 사용하여 Semi-knockoffs를 정의합니다.
  • 두 대입기: bdnu (X^j on X^{-j}) 및 bdrho (X^j on X^{-j}, y) 를 사용하여 두 개의 perturbed 버전을 생성합니다.
  • 두 perturbed 예측 간의 손실 기반 통계 차이를 계산하고 비모수 쌍검정을 적용하여 p-값을 구합니다.
  • 데이터 의존 임계치를 갖는 Knockoff 스타일의 통계를 채택하여 FDR 제어를 달성합니다.
  • Wilcoxon 기반 구현(SK0_Wcx)을 제공하고 타입-I 오류 제어(Algorithm 1)에 대해 논의합니다.
  • 공정성(교환성)을 정당화하기 위한 분포성 및 Wasserstein 거리 안정성 결과(정리 4.1 및 4.2)와 이중 강건성 결과(정리 4.3)를 증명합니다.
Figure 1 : Optimization stability. Data are generated from $z=\chi\beta+\epsilon$ , where $\beta$ is $0.25$ -sparse with important features grouped in blocks of 5 sampled uniformly. We set $n=300$ , $p=50$ , noise level at $\|\chi\beta\|/2$ and $\chi\sim\mathcal{N}(0,\Sigma)$ with $\Sigma_{i,j}=0.6^
Figure 1 : Optimization stability. Data are generated from $z=\chi\beta+\epsilon$ , where $\beta$ is $0.25$ -sparse with important features grouped in blocks of 5 sampled uniformly. We set $n=300$ , $p=50$ , noise level at $\|\chi\beta\|/2$ and $\chi\sim\mathcal{N}(0,\Sigma)$ with $\Sigma_{i,j}=0.6^

실험 결과

연구 질문

  • RQ1모델-독립적 CIT 방법이 학습-검증 분할 없이 유한 표본의 타입-I 오류 제어를 제공할 수 있을까요?
  • RQ2고차원 설정에서 유효한 p-값과 FDR 제어가 따라오도록 조건적 대입을 어떻게 구성할 수 있을까요?
  • RQ3Semi-knockoffs에 포함된 추정치의 안정성 및 이중 강건성 속성은 무엇인가요?
  • RQ4시뮬레이션 및 실제 데이터에서 Semi-knockoffs가 기존의 CIT/변수 선택 방법과 비교하여 어떤 성능을 보이나요?
  • RQ5semi-knockoffs가 임의의 사전 학습 모델을 수용하되 영가설 하에서 교환성을 보장할 수 있나요?

주요 결과

  • Semi-knockoffs는 비모수적 쌍 검정을 통한 유한 표본 타입-I 오류 제어로 유효한 p-값을 제공합니다.
  • Semi-knockoffs에 기반한 FDR 제어 절차는 명시된 가정 하에서 FDR <= q를 보장합니다.
  • 정규화된 학습기의 세 가지 새로운 이론적 결과는 영가설 특성이 포함될 때의 안정성과 추정기의 이중 강건성 특성을 보여줍니다.
  • 영가설 하에서 교환성이 보존되어 정확한 knockoffs 없이도 knockoff 유사 임계치를 적용할 수 있습니다.
  • 무작위화 제거(다중 순열)는 실무에서 검출력(power)을 향상시킵니다.
  • 시뮬레이션에서의 실증적 증거는 일부 VIM 대비 향상된 검출력을 보이고 데이터 분할 회피로 인한 손실이 제한적임을 보여줍니다.
Figure 3 : Empirical evidence for Double Robustness: Distribution of the Semi-knockoff statistic, i.e., the difference in loss evaluated at two independently sampled estimated residuals (blue: $l(\widehat{m}(\widetilde{X}_{1}^{\prime}),y)-l(\widehat{m}(\widetilde{X}_{2}^{\prime}),y)$ ), and distribu
Figure 3 : Empirical evidence for Double Robustness: Distribution of the Semi-knockoff statistic, i.e., the difference in loss evaluated at two independently sampled estimated residuals (blue: $l(\widehat{m}(\widetilde{X}_{1}^{\prime}),y)-l(\widehat{m}(\widetilde{X}_{2}^{\prime}),y)$ ), and distribu

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.