Skip to main content
QUICK REVIEW

[論文レビュー] On Wasserstein Two Sample Testing and Related Families of Nonparametric Tests

Aaditya Ramdas, N. Garcı́a|arXiv (Cornell University)|Sep 7, 2015
Advanced Statistical Methods and Models被引用数 30
ひとこと要約

本稿は、エントロピー平滑化を介して、Wasserstein距離を通じて非パラメトリックな2標本検定を統一的な枠組みで結びつける。Kolmogorov-Smirnov検定やQQプロットといった単変量手法から、Energy距離やMaximum Mean Discrepancy (MMD)といった多変量手法へとつながることを示している。主な貢献は、ODC(観測 vs. 期待累積)曲線に基づく分布フリーなWasserstein検定であり、帰無仮説下で母数の累積分布関数(CDF)に依存しない帰無分布を有する。

ABSTRACT

Nonparametric two sample or homogeneity testing is a decision theoretic problem that involves identifying differences between two random variables without making parametric assumptions about their underlying distributions. The literature is old and rich, with a wide variety of statistics having being intelligently designed and analyzed, both for the unidimensional and the multivariate setting. Our contribution is to tie together many of these tests, drawing connections between seemingly very different statistics. In this work, our central object is the Wasserstein distance, as we form a chain of connections from univariate methods like the Kolmogorov-Smirnov test, PP/QQ plots and ROC/ODC curves, to multivariate tests involving energy statistics and kernel based maximum mean discrepancy. Some connections proceed through the construction of a \ extit{smoothed} Wasserstein distance, and others through the pursuit of a "distribution-free" Wasserstein test. Some observations in this chain are implicit in the literature, while others seem to have not been noticed thus far. Given nonparametric two sample testing's classical and continued importance, we aim to provide useful connections for theorists and practitioners familiar with one subset of methods but not others.

研究の動機と目的

  • Wasserstein距離の枠組みにおいて、多様な非パラメトリック2標本検定を統一すること。
  • 単変量ツール(例:QQプロット、Kolmogorov-Smirnov検定)と多変量手法(例:Energy距離、MMD)の間の正式な関係を確立すること。
  • ODC曲線と確率積分変換を活用して、分布フリーな単変量Wasserstein検定を構築すること。
  • Wasserstein距離のエントロピー平滑化が、Wasserstein距離とEnergy距離の統計量の間を連続的に補間することを示すこと。
  • Brownian bridge近似を用いて、Wassersteinに基づく検定統計量の漸近的帰無分布を明確にすること。

提案手法

  • 帰無仮説下で、確率積分変換を用いて標本的CDFを一様分布に変換し、分布フリーな検定を可能にする。
  • ODC(観測 vs. 期待累積)曲線を、帰無仮説下での変換済みデータの標本的CDFとして定義し、弱収束によりBrownian bridgeに収束することを示す。
  • Wasserstein距離にエントロピー平滑化を適用し、Wasserstein距離とEnergy距離の間を連続的に補間する統計量の族を構成する。
  • ODCと一様分布の間のWasserstein距離の漸近的分布を導出し、それがBrownian bridgeの関数に収束することを示す。
  • ODCと一様CDFとの間のWasserstein距離の帰無分布が、母分布Fに依存しないことを確立し、分布フリーな推論を可能にする。
  • Karhunen-Loève展開を用いて、極限過程を重み付きカイ二乗変数の無限和として表現する。

実験結果

リサーチクエスチョン

  • RQ1Wasserstein距離を用いて、単変量および多変量非パラメトリック2標本検定を統一的に扱う方法は何か?
  • RQ2Wasserstein距離とQQプロットやCramer-von Mises検定といった古典的単変量ツールとの関係は何か?
  • RQ3Wasserstein距離のエントロピー平滑化は、Energy距離およびMaximum Mean Discrepancy (MMD)とどのように関係するか?
  • RQ4分布フリーな単変量Wasserstein検定を構築できるか。もしそうなら、その方法は何か?
  • RQ5変換済み標本的CDFにWasserstein距離を適用した場合の漸近的帰無分布は何か?

主な発見

  • 標本的ODC曲線と一様分布との間のWasserstein距離の帰無分布は、母数のCDF Fに依存せず、分布フリーな検定を可能にする。
  • 帰無仮説下で、スケーリングされたWasserstein距離 $ \sqrt{\frac{mn}{m+n}} W_\infty $ は弱収束し、標準Brownian bridgeの上界に収束する。
  • スケーリングされた二乗Wasserstein距離 $ \frac{mn}{m+n} W_2^2 $ は、[0,1] 上でBrownian bridgeの二乗の積分に弱収束する。
  • Wasserstein距離のエントロピー平滑化により、Wasserstein距離とEnergy距離の統計量の間を連続的に補間する統計量の族が得られる。
  • ODC曲線は、Wasserstein検定とROC/ODC曲線解析の直接的な接続を提供し、帰無仮説下で検定統計量が分布フリーであることを示す。
  • Wassersteinに基づく検定統計量の漸近的分布は、Brownian bridgeを含む関数極限定理によって特徴づけられ、真のCDFの知識がなくても有効な推論が可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。