QUICK REVIEW

[論文レビュー] Consistent distribution-free $K$-sample and independence tests for univariate random variables

Ruth Heller, Yair Heller|arXiv (Cornell University)|Oct 24, 2014

Advanced Statistical Methods and Models参考文献 36被引用数 50

ひとこと要約

本稿では、すべての分割サイズにおけるスコアの集約を用いて、一変量確率変数のための一貫性があり、分布に依存しない $K$-サンプル検定および独立性検定を提案する。和と最大値の組み合わせにより、最適な分割に基づく検定と同等の高いパワーを達成し、多項式時間の計算と多様な従属構造において強い実効性を示す。

ABSTRACT

A popular approach for testing if two univariate random variables are statistically independent consists of partitioning the sample space into bins, and evaluating a test statistic on the binned data. The partition size matters, and the optimal partition size is data dependent. While for detecting simple relationships coarse partitions may be best, for detecting complex relationships a great gain in power can be achieved by considering finer partitions. We suggest novel consistent distribution-free tests that are based on summation or maximization aggregation of scores over all partitions of a fixed size. We show that our test statistics based on summation can serve as good estimators of the mutual information. Moreover, we suggest regularized tests that aggregate over all partition sizes, and prove those are consistent too. We provide polynomial-time algorithms, which are critical for computing the suggested test statistics efficiently. We show that the power of the regularized tests is excellent compared to existing tests, and almost as powerful as the tests based on the optimal (yet unknown in practice) partition size, in simulations as well as on a real data example.

研究の動機と目的

一変量確率変数間の複雑で単調でない従属関係を検出できる一貫性があり、分布に依存しない検定の必要性に対処する。
非線形的または非単調な関係に対してパワーに欠ける古典的検定（例：ピアソン、スピアマン）の限界を克服する。
遺伝学など、数千の変数ペアをテストする必要がある大規模な仮説検定の文脈において、計算効率の良い手法を開発する。
同じコアメソッドを用いて $K$-サンプル検定と独立性検定の両方を扱える統一的なフレームワークを提供する。
通常実務では未知である最適な分割サイズを事前に知る必要なく、ほぼ最適なパワーを達成する。

提案手法

固定サイズ $m$ のすべての分割におけるスコアの和または最大値に基づく検定統計量を提案する。ここでスコアは、ビン化された $X$ と $Y$ 間の関連性を評価する。
ビニングに尤度比スコアを用い、すべてのサイズ $m$ の分割における $S_m$（和）および $M_m$（最大）統計量を計算する。
すべての分割サイズ $m$ における $p$-値を $ min_m p_m$ または $ max_m p_m$ を用いて組み合わせる正則化された検定を導入する。
多項式時間アルゴリズムを用いて、テスト統計量を効率的に計算する。これにより、大規模データセットへの応用が可能になる。
パーミュテーションに基づく $p$-値推定により、分布に依存しない性質を保証し、帰無仮説の分布が周辺分布に依存しないようにする。
カテゴリカル変数を分割された $X$ として扱うことで、独立性検定および $K$-サンプル問題の両方への応用を実現する。

実験結果

リサーチクエスチョン

RQ1特定のパラメトリックな従属形態を仮定しないで、すべての代替仮説に対して一貫性を持つ分布に依存しない検定が可能か？
RQ2複数の分割サイズにわたる集約は、固定サイズの分割と比較してパワーをどのように向上させるか？
RQ3提案手法は、実際には未知である最適な分割サイズを用いた検定と同等またはそれに近いパワーを達成できるか？
RQ4遺伝学的応用のような大規模データにこのような検定を適用する計算上の実行可能性はいかがなものか？
RQ5多様な従属構造において、提案手法の正則化された検定は、dCov、HHG、MIC、スピアマンといった既存のノンパラメトリック検定と比較してどのように性能を発揮するか？

主な発見

$\min_m p_m$ に基づく正則化された検定は、最適な分割サイズを用いた検定とほぼ同等のパワーを達成し、すべてのシミュレートされた従属構造において、パワーの損失が最小限に抑えられる。
単調な関係では、和に基づく $S_m$ のバリエーションが良好に機能し、スピアマンやフーディングと同等の性能を示す。一方、$M_m$ のバリエーションは複雑な状況でも優れた性能を示す。
サイン、ヘヴィサイン、スパイラル、サークルの例において、提案された最小 $p$-値検定は、dCov や HHG よりも顕著に優れたパワーを示し、一部のケースでは最大30%のパワー向上を達成した。
$\min_m p_m$ を用いた検定は、DDP もしくは ADP スコアを用いることで、$N=100$ 時に指数関係（Exp2x）に対して 0.763 のパワーを達成し、MIC（0.198）と dCov（0.746）を上回る。
本手法は、非単調的かつ非線形的従属関係を含む多様な複雑な関係においても高いパワーを維持する。このような関係では、古典的検定は失敗する。
多項式時間の計算により、遺伝学的応用のように $2 \times 10^7$ 個の遺伝子ペアをテストするような大規模なテスト問題への実用的応用が可能となり、パーミュテーションベースの検定では計算が非現実的となる状況でも適用可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。