QUICK REVIEW

[論文レビュー] A New ECDF Two-Sample Test Statistic

Connor Dowd|arXiv (Cornell University)|Jul 2, 2020

Statistical Methods and Inference参考文献 7被引用数 24

ひとこと要約

本稿では、帰無仮説下での差の推定分散に応じて、経験的累積分布関数（ECDF）の差を最適に重み付けする手法により、Kolmogorov-Smirnov、Kuiper、Cramér-von Misesなどの既存のECDFベースの検定よりもパワーを向上させる新しい二標本検定統計量、DTS（分散検定統計量）を導入する。この手法は、位置、スケール、および高次モーメントの違いを含む多様な分布的差異を検出する際に高いパワーを発揮し、有限標本における有意水準制御を保つ保守的なp値手続きと、RパッケージによるO(N log N)の計算効率を備えている。

ABSTRACT

Empirical cumulative distribution functions (ECDFs) have been used to test the hypothesis that two samples come from the same distribution since the seminal contribution by Kolmogorov and Smirnov. This paper describes a statistic which is usable under the same conditions as Kolmogorov-Smirnov, but provides more power than other extant tests in that vein. I demonstrate a valid (conservative) procedure for producing finite-sample p-values. I outline the close relationship between this statistic and its two main predecessors. I also provide a public R package (CRAN: twosamples [2018]) implementing the testing procedure in $O(N\log(N))$ time with $O(N)$ memory. Using the package's functions, I perform several simulation studies showing the power improvements.

研究の動機と目的

代替仮説に位置やスケールの違い以上の分布的差異が含まれる状況において、よりパワーの高い二標本検定を開発すること。
特に小標本から中程度の標本サイズにおいて、微細または複雑な分布的差異を検出できない既存のECDFベースの検定の限界を是正すること。
新しい検定統計量に対して、妥当で保守的な有限標本におけるp値手続きを提供すること。
O(N log N)の時間計算量とO(N)の記憶領域を用いて、広範な利用を想定したRパッケージによる効率的な実装を実現すること。
シミュレーションを通じて、新しい検定が幅広い分布的代替仮説において、既存の手法を上回るパワーを示すことを示すこと。

提案手法

検定統計量は、二つの経験的累積分布関数（ECDF）の絶対差の重み付き和として定義され、帰無仮説下での差の推定分散に基づく重みが用いられる。
分散推定値は、統合標本のECDFに基づき、p=0.5付近で分散が大きい観測値は軽減され、p=0またはp=1付近で分散が小さい観測値は強調される。
有意水準制御を維持するため、パーミュテーションまたは正確な分布近似に基づく保守的な有限標本p値手続きが用いられる。
アルゴリズムは、統合標本をソートし、順序付きデータポイント上で重み付き和を効率的に評価することで、O(N log N)時間で検定統計量を計算する。
重み付き観測値、並列処理、既知の帰無分布との比較をサポートするRパッケージ（twosamples）として実装されている。
検定は一貫性があり、漸近的に有効であり、シミュレーションにおいて既存手法よりもパワーが向上している。

実験結果

リサーチクエスチョン

RQ1Kolmogorov-Smirnov、Kuiper、Cramér-von Misesなどの既存のECDFベースの検定よりも、パワーが向上する新しい二標本検定統計量を開発できるか？
RQ2帰無仮説下での差の推定分散に応じてECDFの差に重みを付けることで、多様な分布的代替仮説における検出パワーが向上するか？
RQ3実用的利用を可能にしつつ、第1種過誤を制御する有限標本p値手続きを構築できるか？
RQ4位置、スケール、および高次モーメント（例：混合分布）の差を検出する際、新しい検定は最先端の代替手法と比べてどの程度の性能を示すか？
RQ5新しい検定は、幅広い分布的差異において一貫してパワーを発揮するか、それとも一部のケースでパワーの損失を伴って他のケースでパワーを得るかのトレードオフがあるか？

主な発見

異なる平均と分散を持つ混合分布を検出する際、DTS検定は71%の棄却率を示したが、Wasserstein検定は同じ標本サイズで38%にとどまった。
平均0、分散1に再中心化・再スケーリングされた二つの正規分布の混合分布を含むシミュレーションでは、DTS検定が最高のパワーを維持し、Wasserstein検定や他の先進的手法を上回った。
スケーリングや尖度（歪度・峰度）の違いを検出する際、DTS検定は一貫して優れた性能を示し、Wasserstein検定よりも最大24ポイントのパワー向上を達成した。
異なる分散を持つ混合分布を検出する100%のシミュレーションにおいて、DTS検定が最もパワーが高く、次いでKuiper検定がそれに続いた。
DTS検定は、位置シフト、スケール変化、複雑な混合分布を含むすべてのテスト状況で高いパワーを維持し、代替仮説のどのクラスに対しても顕著な性能低下が見られなかった。
DTS検定が71%のパワーを示した標本サイズでは、ある混合分布シナリオにおいてWasserstein検定のパワーは47%にとどまり、約4分の1のシミュレーションでDTS検定が帰無仮説を棄却したのに対し、他の検定では棄却されなかった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。