Skip to main content
QUICK REVIEW

[論文レビュー] Model-Powered Conditional Independence Test

Rajat Sen, Ananda Theertha Suresh|arXiv (Cornell University)|Sep 18, 2017
Statistical Methods and Inference参考文献 1被引用数 25
ひとこと要約

この論文は、勾配ブースティングツリー や深層ニューラルネットワークなどの強力な分類器を用いて、条件付き独立性(CI)検定を二値分類問題に再定式化するモデル駆動型の条件付き独立性検定(CCIT)を提案する。近隣探索ブートストラップを新たに導入し、条件付き積分布からのサンプルを生成することで、特に高次元設定において従来手法を上回る性能を達成し、サンプル品質と一般化誤差に関する理論的保証を有する。

ABSTRACT

We consider the problem of non-parametric Conditional Independence testing (CI testing) for continuous random variables. Given i.i.d samples from the joint distribution $f(x,y,z)$ of continuous random vectors $X,Y$ and $Z,$ we determine whether $X \perp Y | Z$. We approach this by converting the conditional independence test into a classification problem. This allows us to harness very powerful classifiers like gradient-boosted trees and deep neural networks. These models can handle complex probability distributions and allow us to perform significantly better compared to the prior state of the art, for high-dimensional CI testing. The main technical challenge in the classification problem is the need for samples from the conditional product distribution $f^{CI}(x,y,z) = f(x|z)f(y|z)f(z)$ -- the joint distribution if and only if $X \perp Y | Z.$ -- when given access only to i.i.d. samples from the true joint distribution $f(x,y,z)$. To tackle this problem we propose a novel nearest neighbor bootstrap procedure and theoretically show that our generated samples are indeed close to $f^{CI}$ in terms of total variational distance. We then develop theoretical results regarding the generalization bounds for classification for our problem, which translate into error bounds for CI testing. We provide a novel analysis of Rademacher type classification bounds in the presence of non-i.i.d near-independent samples. We empirically validate the performance of our algorithm on simulated and real datasets and show performance gains over previous methods.

研究の動機と目的

  • 連続確率変数の高次元設定における非パラメトリックな条件付き独立性検定の課題に対処すること。
  • 真の結合分布からのi.i.d.サンプルしか入手できない状況で、条件付き積分布 $f^{CI}(x,y,z) = f(x|z)f(y|z)f(z)$ からのサンプル生成の難しさを克服すること。
  • 勾配ブースティングツリー や深層ニューラルネットワークなどの現代の監視学習モデルを活用して、CI検定の性能を向上させること。
  • ブートストラップサンプルの品質と、検定に用いられる分類器の一般化誤差に関する理論的保証を提供すること。
  • 合成データおよび実世界のデータセットを用いた実験的検証を通じて、CI検定分野における最先端の性能を示すこと。

提案手法

  • 条件付き独立性検定問題を、元のi.i.d.サンプルと条件付き積分布からの合成サンプルを区別する二値分類タスクに変換する。
  • 元の $2n$ 個のi.i.d.サンプルのみを用いて、近隣探索ブートストラップ手順により $n$ 個の合成サンプルを $f^{CI}(x,y,z)$ から生成し、合計変動距離において $f^{CI}$ に近くなるように保証する。
  • 元のサンプルをラベル1(依存)とし、ブートストラップで生成されたサンプルをラベル0(条件付き独立)としてラベル付けし、分類器の学習データセットを構築する。
  • XGBoost や深層ニューラルネットワークなどの強力な分類器を、ラベル付けされたデータセット上で学習させ、2つの分布の違いを学習する。
  • 訓練済み分類器のテスト誤差を検定統計量として用いる:誤差が低い場合、$\mathcal{H}_0$(すなわち $X \not\perp Y|Z$)を棄却し、誤差が高い場合、$\mathcal{H}_0$ を採択しない。
  • 非i.i.d.に近い独立なサンプルの下での分類問題に対する理論的リスクバウンドを提示し、CI検定における誤差バウンドに翻訳する。

実験結果

リサーチクエスチョン

  • RQ1監視学習を用いたモデル駆動型アプローチは、高次元設定における非パラメトリックな条件付き独立性検定の検出力と精度を向上させることができるか?
  • RQ2真の結合分布からのi.i.d.サンプルしか入手できない状況で、条件付き積分布 $f^{CI}(x,y,z)$ からのサンプルを効率的に生成する方法は何か?
  • RQ3非i.i.d.サンプリング下で、ブートストラップサンプルの品質と分類器の一般化誤差に対する理論的保証はどのようなものか?
  • RQ4RCIT、KCIT、CCIT といった既存のCI検定手法と比較して、提案手法は次元数やサンプルサイズの変動に伴い、統計的検出力と頑健性においてどのように差をつけるか?
  • RQ5因果構造の真のラベルが不確実な状況下で、実世界のデータ(例:フローサイトメトリーデータセット)に対して、本手法はどの程度の性能を示すか?

主な発見

  • フローサイトメトリーデータセットから導出された3つの因果グラフすべてにおいて、CCITはRCIT や KCIT よりも高いAUCスコアを達成し、それぞれ 0.7778(グラフii)、0.7156(グラフiii)、0.6848(グラフi)を記録した。
  • サンプル数 $n=1000$ の合成の後非線形ノイズデータにおいて、CCITはすべての $Z$ の次元でRCIT や KCIT を上回り、高次元CI検定において一貫した優位性を示した。
  • 近隣探索ブートストラップ手順は、理論的に正当化され、実験的にも確認されたように、合計変動距離において $f^{CI}$ に近いサンプルを効果的に生成した。
  • 理論的分析により、非i.i.d.に近い独立なサンプル下での分類問題に対する一般化誤差バウンドを確立し、検定の誤差制御に対する厳密な基盤を提供した。
  • 真の因果グラフに誤ったエッジ(例:(pkc-raf)、(pkc-mek)、(pka-p38))が含まれる場合でも、本手法は頑健に性能を発揮し、3つのCI検定器が一貫してこれらのエッジを除外した。
  • 条件付け変数 $Z$ の次元が10未満であっても、本手法は強力な性能を維持しており、中程度から高次元の設定においても有効であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。