Skip to main content
QUICK REVIEW

[论文解读] On Wasserstein Two Sample Testing and Related Families of Nonparametric Tests

Aaditya Ramdas, N. Garcı́a|arXiv (Cornell University)|Sep 7, 2015
Advanced Statistical Methods and Models被引用 30
一句话总结

本文建立了一套统一框架,通过Wasserstein距离将非参数两样本检验联系起来,表明该框架将单变量方法(如Kolmogorov-Smirnov检验和QQ图)与多变量检验(如Energy距离和最大均值差异,MMD)通过熵平滑联系起来。主要贡献是基于ODC(观测值与期望累积)曲线推导出一种分布自由的Wasserstein检验,其原假设下的抽样分布不依赖于潜在的累积分布函数(CDF)。

ABSTRACT

Nonparametric two sample or homogeneity testing is a decision theoretic problem that involves identifying differences between two random variables without making parametric assumptions about their underlying distributions. The literature is old and rich, with a wide variety of statistics having being intelligently designed and analyzed, both for the unidimensional and the multivariate setting. Our contribution is to tie together many of these tests, drawing connections between seemingly very different statistics. In this work, our central object is the Wasserstein distance, as we form a chain of connections from univariate methods like the Kolmogorov-Smirnov test, PP/QQ plots and ROC/ODC curves, to multivariate tests involving energy statistics and kernel based maximum mean discrepancy. Some connections proceed through the construction of a \ extit{smoothed} Wasserstein distance, and others through the pursuit of a "distribution-free" Wasserstein test. Some observations in this chain are implicit in the literature, while others seem to have not been noticed thus far. Given nonparametric two sample testing's classical and continued importance, we aim to provide useful connections for theorists and practitioners familiar with one subset of methods but not others.

研究动机与目标

  • 在Wasserstein距离框架下统一多样化的非参数两样本检验。
  • 建立单变量工具(如QQ图、Kolmogorov-Smirnov检验)与多变量方法(如Energy距离、MMD)之间的正式联系。
  • 通过利用ODC曲线和概率积分变换,开发一种分布自由的单变量Wasserstein检验。
  • 证明Wasserstein距离的熵平滑形式在Wasserstein距离与Energy距离统计量之间实现连续插值。
  • 利用布朗桥近似方法,阐明基于Wasserstein距离的检验统计量的渐近原假设分布。

提出的方法

  • 利用概率积分变换,在原假设下将经验累积分布函数(CDF)转化为均匀分布变量,从而实现分布自由检验。
  • 将ODC(观测值与期望累积)曲线定义为在原假设下变换数据的经验累积分布函数,其弱收敛于一个布朗桥过程。
  • 对Wasserstein距离应用熵平滑,以创建Wasserstein距离与Energy距离之间的连续插值统计量。
  • 推导Wasserstein距离在经验ODC曲线与均匀分布之间的渐近分布,表明其收敛于布朗桥的泛函形式。
  • 证明ODC曲线与均匀累积分布函数之间Wasserstein距离的原假设分布独立于潜在分布F,从而实现分布自由推断。
  • 利用Karhunen-Loève展开,将极限过程表示为加权卡方变量的无限级数。

实验结果

研究问题

  • RQ1Wasserstein距离如何用于统一单变量与多变量非参数两样本检验?
  • RQ2Wasserstein距离与经典单变量工具(如QQ图和Cramer-von Mises检验)之间存在何种联系?
  • RQ3Wasserstein距离的熵平滑形式与Energy距离及最大均值差异(MMD)之间有何关系?
  • RQ4能否构建一种分布自由的单变量Wasserstein检验?如果可以,其构建方法是什么?
  • RQ5当应用于变换后的经验累积分布函数时,Wasserstein距离的渐近原假设分布是什么?

主要发现

  • 经验ODC曲线与均匀分布之间的Wasserstein距离在原假设下的抽样分布独立于潜在累积分布函数F,从而支持分布自由检验。
  • 在原假设下,标准化后的Wasserstein距离 $ \sqrt{\frac{mn}{m+n}} W_\infty $ 弱收敛于标准布朗桥的上确界。
  • 标准化后的平方Wasserstein距离 $ \frac{mn}{m+n} W_2^2 $ 弱收敛于区间[0,1]上布朗桥平方的积分。
  • 对Wasserstein距离进行熵平滑可生成一个连续的统计量族,该族在Wasserstein距离与Energy距离之间实现插值。
  • ODC曲线为Wasserstein检验与ROC/ODC曲线分析之间提供了直接联系,且在原假设下检验统计量为分布自由。
  • 基于Wasserstein的检验统计量的渐近分布由涉及布朗桥的泛函极限定理刻画,从而可在不依赖真实CDF知识的情况下实现有效推断。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。