QUICK REVIEW

[论文解读] Fast Two-Sample Testing with Analytic Representations of Probability Measures

Kacper Chwialkowski, Aaditya Ramdas|arXiv (Cornell University)|Jun 15, 2015

Gaussian Processes and Bayesian Inference被引用 73

一句话总结

本文通过利用概率测度的解析表示（光滑经验特征函数和再生核Hilbert空间中的解析均值嵌入），提出两种快速、一致的两样本检验方法，时间复杂度为线性。这些检验在功效与计算效率之间实现了优越的权衡，优于线性时间的非参数检验和计算成本较高的二次时间方法（如MMD），尤其在高维数据和分布差异细微的情况下表现更优。

ABSTRACT

We propose a class of nonparametric two-sample tests with a cost linear in the sample size. Two tests are given, both based on an ensemble of distances between analytic functions representing each of the distributions. The first test uses smoothed empirical characteristic functions to represent the distributions, the second uses distribution embeddings in a reproducing kernel Hilbert space. Analyticity implies that differences in the distributions may be detected almost surely at a finite number of randomly chosen locations/frequencies. The new tests are consistent against a larger class of alternatives than the previous linear-time tests based on the (non-smoothed) empirical characteristic functions, while being much faster than the current state-of-the-art quadratic-time kernel-based or energy distance-based tests. Experiments on artificial benchmarks and on challenging real-world testing problems demonstrate that our tests give a better power/time tradeoff than competing approaches, and in some cases, better outright power than even the most expensive quadratic-time tests. This performance advantage is retained even in high dimensions, and in cases where the difference in distributions is not observable with low order statistics.

研究动机与目标

开发适用于大规模数据的快速、一致的非参数两样本检验，时间复杂度为线性。
克服以往基于非光滑特征函数的线性时间检验的局限性，这些检验在一般替代假设下缺乏一致性。
仅通过单个随机评估点的解析表示实现一致检验，降低计算成本，同时保持统计功效。
与最先进的二次时间检验方法（如MMD和能量距离）相比，改善功效/计算效率的权衡，尤其在高维和复杂分布差异场景下。
在真实世界和合成基准测试中展示鲁棒性与可扩展性，包括高维和信号差异微弱的场景。

提出的方法

第一种检验使用光滑经验特征函数作为解析表示，分布差异几乎必然可在单个随机频率处检测到。
第二种检验采用再生核Hilbert空间（RKHS）中的解析均值嵌入，通过在单个随机选择的点上计算距离，确保几乎必然的单射性。
两种方法均依赖于解析性特性，确保在有限个随机选择的位置上，分布差异以概率1可被检测到。
检验基于解析表示的empirical估计构建，实现线性时间计算和常数内存使用。
统计显著性通过置换检验评估，尽管该方法的高效性使其可扩展应用。
该方法推广了先前工作，确保对所有具有可积特征函数的分布一致，以及通过RKHS嵌入对所有分布一致。

实验结果

研究问题

RQ1能否通过概率测度的解析表示，使两样本检验既一致又具备线性时间复杂度？
RQ2使用光滑特征函数或解析均值嵌入是否能仅通过单个评估点实现对分布差异的一致检测？
RQ3在高维和复杂数据场景下，这些检验的功效与计算效率与现有线性时间及二次时间方法相比如何？
RQ4所提检验能否检测到低阶统计量中不可见的细微分布差异，例如在角动量或方差变化中的差异？
RQ5在噪声污染和仅单个维度存在微小差异的高维数据中，该方法是否仍能保持高功效？

主要发现

在Higgs玻色子数据集上，光滑特征函数（Smooth CF）检验的功效显著高于MMD，尽管MMD是二次时间且计算成本高昂。
在Higgs数据集上，Smooth CF检验在高达12,000个样本时仍保持高功效，而由于计算限制，MMD仅能处理至5,100个样本。
在加入噪声的幅度调制音乐数据集上，均值嵌入和Smooth CF检验比其他方法更鲁棒，在中等噪声污染下仍保持高功效。
在仅一个维度存在差异的高维设置中，均值嵌入检验表现最优，尤其在方差变化场景下，展现出在高维冗余环境中的强大性能。
在具有小尺度分布差异的挑战性Blobs数据集上，MMD功效最高但时间/功效权衡最差，而所提检验在所有线性时间方法中实现了最佳权衡。
所提检验在所有基准测试中均表现出一致性能，包括差异无法通过低阶统计量检测的情况，证实其对复杂分布偏移的高度敏感性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。