Skip to main content
QUICK REVIEW

[论文解读] On the Optimality of Gaussian Kernel Based Nonparametric Tests against Smooth Alternatives

Tong Li, Ming Yuan|arXiv (Cornell University)|Sep 7, 2019
Statistical Methods and Inference参考文献 29被引用 24
一句话总结

本文建立了在高维设置下,针对光滑替代假设的高斯核非参数检验——拟合优度、同质性与独立性检验——的极小极大最优性。研究表明,通过采用数据驱动的发散缩放参数,这些检验可达到最优检测速率,仅相差一个迭代对数因子,为它们在实践中广泛的成功提供了理论依据。

ABSTRACT

Nonparametric tests via kernel embedding of distributions have witnessed a great deal of practical successes in recent years. However, statistical properties of these tests are largely unknown beyond consistency against a fixed alternative. To fill in this void, we study here the asymptotic properties of goodness-of-fit, homogeneity and independence tests using Gaussian kernels, arguably the most popular and successful among such tests. Our results provide theoretical justifications for this common practice by showing that tests using Gaussian kernel with an appropriately chosen scaling parameter are minimax optimal against smooth alternatives in all three settings. In addition, our analysis also pinpoints the importance of choosing a diverging scaling parameter when using Gaussian kernels and suggests a data-driven choice of the scaling parameter that yields tests optimal, up to an iterated logarithmic factor, over a wide range of smooth alternatives. Numerical experiments are also presented to further demonstrate the practical merits of the methodology.

研究动机与目标

  • 在三个经典场景中建立高斯核非参数检验的理论最优性:拟合优度检验、同质性检验与独立性检验。
  • 解决核方法检验在固定替代假设之外的渐近性质缺乏理论理解的问题。
  • 确定非参数检验中高斯核的最优缩放参数,表明发散带宽对于达到极小极大最优性至关重要。
  • 提出一种数据驱动的带宽选择方法,使检验在广泛光滑替代假设下实现近乎极小极大的最优性能。
  • 为现代统计应用中高斯核方法的实证成功提供理论依据。

提出的方法

  • 使用再生核希尔伯特空间(RKHS)嵌入中的高斯核,以最大均值差异(MMD)作为分布差异的度量。
  • 通过依赖于带宽参数 νn 的核函数族,分析在原假设与局部替代假设下检验统计量的渐近行为。
  • 应用浓度不等式与矩界,控制带宽范围内检验统计量的上确界,建立其随机有界性。
  • 通过分析在Sobolev或H"older光滑类下局部替代假设中MMD估计量的行为,推导每类检验的检测边界。
  • 提出一种自适应检验程序,基于数据自适应地选择最优带宽 νn,采用数据驱动的缩放规则。
  • 将检验统计量分解为主项与余项,通过对称化与链式论证推导尾部界。

实验结果

研究问题

  • RQ1在拟合优度、同质性与独立性检验中,高斯核非参数检验对光滑替代假设是否具有极小极大最优性?
  • RQ2在这些检验中,高斯核的最优缩放参数(带宽)应如何选择?
  • RQ3能否通过一种数据驱动的带宽选择规则,在广泛光滑替代假设下实现近乎极小极大的最优性能?
  • RQ4带宽的选择如何影响检验的检测边界?
  • RQ5当带宽随样本量发散时,检验统计量的渐近行为如何?

主要发现

  • 在所有三种场景下——拟合优度、同质性与独立性检验——高斯核非参数检验对光滑替代假设均具有极小极大最优性。
  • 这些检验的最优带宽随样本量发散,且采用数据驱动的带宽选择可使检验达到最优性能,仅相差一个迭代对数因子。
  • 自适应独立性检验的检测边界为 O((n/log log n)^(-2s/(d+4s))),适用于光滑度 s ≥ d/4 的Sobolev光滑替代假设。
  • 在原假设下,检验统计量以 C(log log n) 为界,其尾部概率以 t^(1/2) 或更高阶次幂指数衰减。
  • MMD估计量的方差在原假设下可被其期望良好近似,从而确保检验临界值的可靠校准。
  • 所提出的自适应带宽选择方法确保检验在未知光滑度的广泛光滑替代假设下仍保持近似最优功效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。