[论文解读] Multivariate Rank-based Distribution-free Nonparametric Testing using Measure Transportation
本文通过用度量输运定义多元秩,提出一个通用的非参数检验框架,适用于多变量情形,能够实现对互相独立性和多元分布相等性的精确分布无关检验,并具备一致性与渐近性结果。
In this paper, we propose a general framework for distribution-free nonparametric testing in multi-dimensions, based on a notion of multivariate ranks defined using the theory of measure transportation. Unlike other existing proposals in the literature, these multivariate ranks share a number of useful properties with the usual one-dimensional ranks; most importantly, these ranks are distribution-free. This crucial observation allows us to design nonparametric tests that are exactly distribution-free under the null hypothesis. We demonstrate the applicability of this approach by constructing exact distribution-free tests for two classical nonparametric problems: (I) testing for mutual independence between random vectors, and (II) testing for the equality of multivariate distributions. In particular, we propose (multivariate) rank versions of distance covariance ((Székely et al. [117]) and energy statistic (Székely and Rizzo [116]) for testing scenarios (I) and (II) respectively. In both these problems we derive the asymptotic null distribution of the proposed test statistics. We further show that our tests are consistent against all fixed alternatives. Moreover, the proposed tests are computationally feasible and are well-defined under minimal assumptions on the underlying distributions (e.g., they do not need any moment assumptions). We also demonstrate the efficacy of these procedures via extensive simulations. In the process of analyzing the theoretical properties of our procedures, we end up proving some new results in the theory of measure transportation and in the limit theory of permutation statistics using Stein’s method for exchangeable pairs, which may be of independent interest.
研究动机与目标
- 在多维情形下提出并发展分布无关的非参数检验。
- 引入通过最优传输定义的多元秩,以在原假设下实现分布无关性。
- 为两个经典问题构建基于秩的距离协方差和能量统计的类比。
- 建立渐近的原假设分布并证明对所有固定备择的相容性/一致性。
提出的方法
- 使用最优传输在经验数据与 Halton/准蒙特卡罗网格之间定义总体和经验多元秩。
- 证明在绝对连续性假设下,经验多元秩的分布无关性。
- 在距离协方差中用多元秩替换数据,以获得一个基于秩的、分布无关的互相独立性检验。
- 在能量统计中用多元秩替换数据,以获得一个基于秩的、分布无关的多元分布相等性检验。
- 推导所提检验的渐近原假设分布并证明对所有固定备择的一致性。
- 给出多样本扩展,并通过分配问题及标准软件讨论计算方面的要点。
实验结果
研究问题
- RQ1通过度量输运定义的多元秩在多变量问题下是否能在原假设下实现分布无关的检验?
- RQ2如何将距离协方差和能量统计调整为多元秩以获得分布无关的检验?
- RQ3所提出的基于秩的检验是否对所有固定备择条件一致,且它们的渐近原假设分布如何?
- RQ4在实际应用中,这些检验的计算要求和最小假设条件是什么?
- RQ5该框架是否可以扩展到两个问题之外的多样本或其他多元检验情形?
主要发现
- 当边际分布为绝对连续时,所提出的多元基于秩的检验在原假设下严格分布无关。
- 基于秩的距离协方差和秩能量统计对所有固定备择具有一致性,且其渐近原假设极限与底层分布无关。
- 基于秩的度量的总体版本在一维情形下与已知量如斯皮尔曼相关系数rho和克拉梅尔-冯米塞统计量等相联系。
- 该框架在有限样本下实现分布无关且无需调参,且可通过分配问题进行可行的计算。
- 该方法可扩展到多样本情形,且可用于对称性检验及其他多元非参数问题。
- 仿真显示相比竞争方法具有有竞争力的检验力,并对重尾和离群值具有鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。