Skip to main content
QUICK REVIEW

[论文解读] Large sample analysis of the median heuristic

Garreau Damien, Wittawat Jitkrittum|arXiv (Cornell University)|Jul 23, 2017
Liver Disease Diagnosis and Treatment参考文献 5被引用 67
一句话总结

本文证明,在核双样本检验中,中位数启发式所选带宽在渐近意义上呈正态分布,通过推导一类 U-statistics 的中心极限定理并证明经验距离分布收敛到目标混合分布。它还在经验上比较基于中位数的带宽与基于幂的最大化带宽的性能。

ABSTRACT

In kernel methods, the median heuristic has been widely used as a way of setting the bandwidth of RBF kernels. While its empirical performances make it a safe choice under many circumstances, there is little theoretical understanding of why this is the case. Our aim in this paper is to advance our understanding of the median heuristic by focusing on the setting of kernel two-sample test. We collect new findings that may be of interest for both theoreticians and practitioners. In theory, we provide a convergence analysis that shows the asymptotic normality of the bandwidth chosen by the median heuristic in the setting of kernel two-sample test. Systematic empirical investigations are also conducted in simple settings, comparing the performances based on the bandwidths chosen by the median heuristic and those by the maximization of test power.

研究动机与目标

  • 理解中位数启发在核方法中之所以有效的原因,特别是在核双样本检验中的原因。
  • 描述随着样本量增加,基于中位数的带宽的渐近行为。
  • 为支撑成对距离的一类 U-statistics 推导中心极限定理。
  • 将成对距离的经验中位数与目标混合分布的理论中位数联系起来。
  • 提供经验见解,将基于中位数的带宽与由测试功效最大化所选带宽进行比较。

提出的方法

  • 将中位数启发式定义为 ν = sqrt(H_n/2) 其中 H_n 是成对平方距离的经验中位数。
  • 将成对平方距离建模为一个三成分混合分布,对应于 intra-X、intra-Y 和 inter-XY 距离,权重分别为 α^2、(1−α)^2 和 2α(1−α)。
  • 证明成对距离的经验分布函数收敛到目标分布 F,并为所得的 U_n 设立一个中心极限定理。
  • 通过非同分布三角阵 U-statistics 的中心极限定理,证明平方样本中位数 H_n 的渐近正态性。
  • 给出渐近方差的公式,并将其与目标中位数 m 处的导数 F'(m) 相联系。
  • 在高斯核核双样本检验中进行基于中位数带宽与幂最大化带宽的经验比较。

实验结果

研究问题

  • RQ1随着样本量增长,中位数启发是否会收敛到目标分布的中位数?
  • RQ2基于中位数的带宽是否渐近正态,如是,其渐近方差是多少?
  • RQ3在核双样本检验中,中位数启发与通过最大化测试功效所选带宽相比的表现如何?
  • RQ4内部段内距离和跨段距离对成对距离分布以及中位数启发的影响是什么?
  • RQ5该理论是否可以扩展到多变点或不对称的样本分割(α 依赖于 n)?

主要发现

  • 成对平方距离的经验分布收敛到反映 intra-X、intra-Y 和 inter-XY 距离的目标混合分布。
  • 目标分布的中位数存在,在非零导数条件下,经验中位数 H_n 具有可计算方差的渐近正态性。
  • 为一大类非同分布的 U-statistics 建立了中心极限定理,为中位数经验分布结果提供支持。
  • 基于中位数的带宽在某些情形下,特别是均值变动方面,可以与由幂最大化选择的带宽非常接近,但在方差变化等其他情形下可能并非最优。
  • 本文为不同的统计量和带宽选择提供了近似的 Bahadur 斜率分析,将带宽与检验效率联系起来。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。