Skip to main content
QUICK REVIEW

[論文レビュー] Nonparametric testing of conditional independence by means of the partial copula

Wicher Bergsma|arXiv (Cornell University)|Jan 24, 2011
Statistical Methods and Inference参考文献 20被引用数 24
ひとこと要約

本稿では、部分コプシラを用いて、3番目の変数 X に関して2つの確率変数 Y と Z の条件付き独立性を非パラメトリックに検定する手法を提案する。Y と Z を推定された条件付き累積分布関数を用いて条件付き順位に変換することで、推定誤差が存在しても漸近的に有効な推論が可能となる。この手法により、条件付き独立性の検定は、変換された変数における通常の独立性の検定に還元される。

ABSTRACT

We propose a new method to test conditional independence of two real random variables $Y$ and $Z$ conditionally on an arbitrary third random variable $X$. %with $F_{.|.}$ representing conditional distribution functions, The partial copula is introduced, defined as the joint distribution of $U=F_{Y|X}(Y|X)$ and $V=F_{Z|X}(Z|X)$. We call this transformation of $(Y,Z)$ into $(U,V)$ the partial copula transform. It is easy to show that if $Y$ and $Z$ are continuous for any given value of $X$, then $Y\ind Z|X$ implies $U\ind V$. Conditional independence can then be tested by (i) applying the partial copula transform to the data points and (ii) applying a test of ordinary independence to the transformed data. In practice, $F_{Y|X}$ and $F_{Z|X}$ will need to be estimated, which can be done by, e.g., standard kernel methods. We show that under easily satisfied conditions, and for a very large class of test statistics for independence which includes the covariance, Kendall's tau, and Hoeffding's test statistic, the effect of this estimation vanishes asymptotically. Thus, for large samples, the estimation can be ignored and we have a simple method which can be used to apply a wide range of tests of independence, including ones with consistency for arbitrary alternatives, to test for conditional independence. A simulation study indicates good small sample performance. Advantages of the partial copula approach compared to competitors seem to be simplicity and generality.

研究の動機と目的

  • 連続確率変数 Y と Z の間の条件付き独立性を、任意の交絡要因 X に関して一般化された非パラメトリックな手法で検定すること。
  • Y、Z と X 間の周辺的依存構造が、条件付き依存構造を隠蔽するという課題に対処すること。
  • 条件付き分布関数がデータから推定されている場合でも、漸近的に有効な推論を維持する手法を提供すること。
  • 変換を介して、既存の多様な独立性検定統計量(例:相関、 Kendall の tau、 Hoeffding の統計量)を条件付き独立性検定に活用可能にする。
  • シミュレーション研究と実データ解析を通じて、本手法の実用的有効性を示し、適切な第1種過誤率の制御と検出力の両立を確認すること。

提案手法

  • 部分コプシラを、F_{Y|X} と F_{Z|X} がそれぞれ Y|X と Z|X の条件付き累積分布関数であるとき、U = F_{Y|X}(Y|X) と V = F_{Z|X}(Z|X) の同時分布として定義する。
  • データに部分コプシラ変換を適用し、推定された条件付き CDF を用いて各 (X_i, Y_i, Z_i) を (U_i, V_i) に変換する。
  • 変換された (U_i, V_i) のペアに対して、標準的な非パラメトリック独立性検定(例:相関、 Kendall の tau、 Hoeffding の検定)を用い、H_0: Y ⊥⊥ Z | X を検定する。
  • 弱い正則性条件の下で、共分散に基づくおよび順位に基づくを含む広範なクラスの検定統計量の漸近的帰無分布が、F_{Y|X} と F_{Z|X} の推定に影響されないことを確立する。
  • バンド幅をデータ駆動式の公式 h = 1.75√(λ/n) により選択した Nada-rya-Watson カーネル回帰を用いて条件付き CDF を推定する。
  • 変換されたデータの p 値を計算するために、パーミュテーション検定を適用し、帰無仮説下での頑健性を確保する。

実験結果

リサーチクエスチョン

  • RQ1条件付き分布の推定に頑健であるような、一般化された非パラメトリックな条件付き独立性検定手法を開発できるか?
  • RQ2条件付き CDF が既知ではなく推定されている場合でも、一般的な検定統計量の漸近的分布は有効なままであるか?
  • RQ3小標本において、特に第1種過誤率の制御と検出力の観点で、本手法はどのように性能を示すか?
  • RQ4標準的な独立性検定(例:Kendall の tau、 Hoeffding の検定)は、部分コプシラ変換を介して、条件付き独立性検定に効果的に再利用可能か?
  • RQ5バンド幅の選択とノイズ対信号比が、有限標本における本手法の性能に与える影響は何か?

主な発見

  • 共分散、Kendall の tau、Hoeffding の Δ を含む広範なクラスの検定統計量の漸近的帰無分布は、条件付き CDF の推定に影響されないため、大標本では有効な推論が可能である。
  • シミュレーションの結果、n = 20 および n = 100 の両方において、λ ∈ {0.1, 0.3, 0.5, 0.7} のさまざまなノイズ対信号比に対して、第1種過誤率が名目水準 0.05 に近く維持されている。
  • n = 100 および中程度の λ において、条件付けによる検出力の損失は最小限に抑えられ、検出力曲線は周辺的独立性検定のものに近づく。
  • λ が非常に小さい(すなわち、強い過剰適合)場合、バンド幅の選択が不安定になり、推定誤差が支配的になるため、本手法は破綻する。
  • n = 100 の場合、広い範囲のバンド幅が許容可能な第1種過誤率をもたらし、バンド幅選択に対する頑健性を示している。
  • デイゴキシシンデータの応用において、部分コプシラに基づく検定の p 値は、ピアソンの相関係数で 0.018 から Hoeffding の Δ で 0.107 の範囲に分布しており、大多数の検定統計量において条件付き独立性の反証の証拠があると示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。