Skip to main content
QUICK REVIEW

[论文解读] On the Decreasing Power of Kernel and Distance based Nonparametric Hypothesis Tests in High Dimensions

Sashank J. Reddi, Aaditya Ramdas|arXiv (Cornell University)|Jun 9, 2014
Statistical Methods and Inference参考文献 15被引用 14
一句话总结

本文表明,核方法与基于距离的非参数假设检验(包括MMD和距离相关性)在高维情形下即使Kullback-Leibler散度保持不变,其检验功效仍会呈多项式衰减。作者指出,尽管检验统计量的估计误差较低,但随着维度增加,检测非零值的难度上升,导致在公平备择假设下的检验功效下降。

ABSTRACT

This paper is about two related decision theoretic problems, nonparametric two-sample testing and independence testing. There is a belief that two recently proposed solutions, based on kernels and distances between pairs of points, behave well in high-dimensional settings. We identify different sources of misconception that give rise to the above belief. Specifically, we differentiate the hardness of estimation of test statistics from the hardness of testing whether these statistics are zero or not, and explicitly discuss a notion of "fair" alternative hypotheses for these problems as dimension increases. We then demonstrate that the power of these tests actually drops polynomially with increasing dimension against fair alternatives. We end with some theoretical insights and shed light on the extit{median heuristic} for kernel bandwidth selection. Our work advances the current understanding of the power of modern nonparametric hypothesis tests in high dimensions.

研究动机与目标

  • 挑战一种普遍观点,即核方法与基于距离的非参数检验在高维设置下表现良好。
  • 澄清高维假设检验中估计难度与检验难度之间的区别。
  • 定义并分析与维度成比例扩展的‘公平’备择假设,以确保有意义的检验功效评估。
  • 证明MMD与距离相关性检验的功效随维度增加而呈多项式衰减。
  • 为核带宽选择(特别是中位数启发式方法)的行为提供理论与实证洞见。

提出的方法

  • 提出一种使用与维度成比例扩展的‘公平’备择假设来评估检验功效的框架,以保持恒定的Kullback-Leibler散度。
  • 在不同分布假设(正态分布、拉普拉斯分布、方差不同的正态分布)下,分析MMD与距离相关性在总体水平上的行为。
  • 利用泰勒展开与渐近分析,推导不同带宽选择下MMD2的闭式表达式。
  • 比较三种带宽情形下MMD2的行为:带宽低估、中位数启发式方法、带宽高估。
  • 采用置换检验来估计零抽样分布,并在受控备择假设下模拟检验功效。
  • 通过大规模样本下MMD的实证估计验证理论近似,确认渐近趋势。

实验结果

研究问题

  • RQ1为何核方法与基于距离的非参数检验在高维情形下尽管估计误差较低,仍会丧失功效?
  • RQ2在高维两样本检验与独立性检验中,‘公平’备择假设的定义是什么?
  • RQ3核带宽的选择(特别是中位数启发式方法)如何影响基于MMD检验的功效?
  • RQ4为何MMD统计量即使在KL散度保持恒定的情况下,仍会随维度呈多项式衰减?
  • RQ5MMD与距离相关性在高维情形下的行为在多大程度上相互一致?

主要发现

  • 即使KL散度保持恒定,MMD2仍随维度d呈多项式衰减,导致检验功效损失的速度为1/d或更慢。
  • 对于协方差为各向同性的均值分离正态分布,中位数启发式带宽(γ ≈ σ√d)下的MMD2衰减速度为1/d,比KL散度慢得多,呈多项式衰减。
  • 当带宽被低估(γ = σd^{1/2−ϵ})时,MMD2以exp(d^{2ϵ}/2)的速度指数衰减,远小于KL散度。
  • 对于拉普拉斯分布数据,中位数启发式方法导致MMD2以exp(d^ϵ)的速度指数衰减,再次远小于KL散度。
  • 在方差不同的正态分布情形下,带宽高估时MMD2衰减速度为1/d^{1+2ϵ},仍慢于KL散度。
  • 尽管中位数启发式方法被广泛使用,但其常导致次优的MMD值,且在高维下无法最大化检验功效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。