Skip to main content
QUICK REVIEW

[論文レビュー] Semi-knockoffs: a model-agnostic conditional independence testing method with finite-sample guarantees

Angel Reyero-Lobo, Bertrand Thirion|arXiv (Cornell University)|Jan 30, 2026
Machine Learning and Algorithms被引用数 0
ひとこと要約

Semi-knockoffs は訓練データとテストデータの分割を回避し、条件付き代入と二重頑健性フレームワークを用いることで有限サンプルの型IエラーおよびFDRの保証を提供するモデル非依存のCIT手法を提案します。

ABSTRACT

Conditional independence testing (CIT) is essential for reliable scientific discovery. It prevents spurious findings and enables controlled feature selection. Recent CIT methods have used machine learning (ML) models as surrogates of the underlying distribution. However, model-agnostic approaches require a train-test split, which reduces statistical power. We introduce Semi-knockoffs, a CIT method that can accommodate any pre-trained model, avoids this split, and provides valid p-values and false discovery rate (FDR) control for high-dimensional settings. Unlike methods that rely on the model-$X$ assumption (known input distribution), Semi-knockoffs only require conditional expectations for continuous variables. This makes the procedure less restrictive and more practical for machine learning integration. To ensure validity when estimating these expectations, we present two new theoretical results of independent interest: (i) stability for regularized models trained with a null feature and (ii) the double-robustness property.

研究の動機と目的

  • 任意の事前学習済みモデルと併用できるモデル非依存のCITフレームワークを提供する。
  • 有限サンプルの妥当な保証を維持しつつ訓練データとテストデータの分割を回避する。
  • 推定代入の安定性と二重頑健性に関する理論的結果を導入する。
  • 高次元設定において有限サンプルの型I誤差制御とFDR制御を確保する。
  • 広範なシミュレーションと比較を通じて実用的な性能を示す。)

提案手法

  • 条件期待値を用いて特徴量を撹乱することで正確なノックオフを必要とせず Semi-knockoffs を定義する。
  • 二つの代入器: bdnu (X^j on X^{-j}) と bdrho (X^j on X^{-j}, y) を用いて撹乱版を二つ生成する。
  • 二つの撹乱予測の損失ベース統計量の差を計算し、p値の非パラメトリック対対検定を適用する。
  • データ依存の閾値を用いたノックオフ風の統計量を採用しFDR制御を実現する。
  • Wilcoxon に基づく実装(SKO_Wcx)を提供し、型I誤差制御(Algorithm 1)を論じる。
  • 無作為化と距離分布の安定性を示す分布性および Wasserstein 距離安定性の結果を証明し、帰無仮説下での交換性を正当化する(定理4.1および4.2)、二重頑健性の結果(定理4.3)を示す。)
Figure 1 : Optimization stability. Data are generated from $z=\chi\beta+\epsilon$ , where $\beta$ is $0.25$ -sparse with important features grouped in blocks of 5 sampled uniformly. We set $n=300$ , $p=50$ , noise level at $\|\chi\beta\|/2$ and $\chi\sim\mathcal{N}(0,\Sigma)$ with $\Sigma_{i,j}=0.6^
Figure 1 : Optimization stability. Data are generated from $z=\chi\beta+\epsilon$ , where $\beta$ is $0.25$ -sparse with important features grouped in blocks of 5 sampled uniformly. We set $n=300$ , $p=50$ , noise level at $\|\chi\beta\|/2$ and $\chi\sim\mathcal{N}(0,\Sigma)$ with $\Sigma_{i,j}=0.6^

実験結果

リサーチクエスチョン

  • RQ1モデル非依存のCIT手法は訓練データ分割なしで有限サンプルの型Iエラー制御を提供できるか?
  • RQ2高次元設定下で有効なp値とFDR制御を得るように条件付き代入をどのように構成できるか?
  • RQ3Semi-knockoffs に関与する推定量の安定性と二重頑健性の性質は何か?
  • RQ4シミュレーションと実データにおいて Semi-knockoffs は既存のCIT/変数選択法と比較してどのように性能が出るか?
  • RQ5semi-knockoffs は任意の事前学習済みモデルを取り込みつつ帰無仮説下で交換性を保証できるか?

主な発見

  • Semi-knockoffs は非パラメトリックな対対検定による有限サンプル型I誤差制御を伴う有効なp値をもたらす。
  • Semi-knockoffs に基づくFDR制御手法は、示された仮定の下で FDR <= q を保証する。
  • 正則化学習器をnull特徴量含有時の安定性と推定量の二重頑健性に関する2つの新しい理論結果を示す。
  • 帰無仮説下での交換性が保持され、正確なノックオフを用いなくてもノックオフ風の閾値付けが可能になる。
  • デラミニゼーション(複数の置換)は実務上の検出力を向上させる。
  • シミュレーションによる実証データは、いくつかのVIMより検出力が向上し、データ分割を回避することによる損失が限定的であることを示す。
Figure 3 : Empirical evidence for Double Robustness: Distribution of the Semi-knockoff statistic, i.e., the difference in loss evaluated at two independently sampled estimated residuals (blue: $l(\widehat{m}(\widetilde{X}_{1}^{\prime}),y)-l(\widehat{m}(\widetilde{X}_{2}^{\prime}),y)$ ), and distribu
Figure 3 : Empirical evidence for Double Robustness: Distribution of the Semi-knockoff statistic, i.e., the difference in loss evaluated at two independently sampled estimated residuals (blue: $l(\widehat{m}(\widetilde{X}_{1}^{\prime}),y)-l(\widehat{m}(\widetilde{X}_{2}^{\prime}),y)$ ), and distribu

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。