Skip to main content
QUICK REVIEW

[論文レビュー] Large sample analysis of the median heuristic

Garreau Damien, Wittawat Jitkrittum|arXiv (Cornell University)|Jul 23, 2017
Liver Disease Diagnosis and Treatment参考文献 5被引用数 67
ひとこと要約

本論文は、中央値ヒューリスティックによって選択された帯域が kernel two-sample testing において漸近的に正規分布になることを、U-statistics のクラスに対して CLT を導出し、経験的距離分布がターゲット混合分布へ収束することを示す。さらに中央値ベースの帯域とパワー最大化による帯域を経験的に比較する。

ABSTRACT

In kernel methods, the median heuristic has been widely used as a way of setting the bandwidth of RBF kernels. While its empirical performances make it a safe choice under many circumstances, there is little theoretical understanding of why this is the case. Our aim in this paper is to advance our understanding of the median heuristic by focusing on the setting of kernel two-sample test. We collect new findings that may be of interest for both theoreticians and practitioners. In theory, we provide a convergence analysis that shows the asymptotic normality of the bandwidth chosen by the median heuristic in the setting of kernel two-sample test. Systematic empirical investigations are also conducted in simple settings, comparing the performances based on the bandwidths chosen by the median heuristic and those by the maximization of test power.

研究の動機と目的

  • 中央値ヒューリスティックがカーネル法、特に kernel two-sample tests においてなぜ有効であるかを理解する。
  • サンプルサイズが増大するにつれて、中央値ベースの帯域の漸近的挙動を特徴づける。
  • 対となる距離を支配する U-statistics のクラスに対して CLT を開発する。
  • 対間距離の経験的中央値をターゲット混合分布の理論中央値と関連付ける。
  • 検定力の最大化によって選択された帯域と中央値ベースの帯域を比較する経験的洞察を提供する。

提案手法

  • 中央値ヒューリスティックを ν = sqrt(H_n/2) と定義する。ここで H_n は対間二乗距離の経験的中央値である。
  • 対間二乗距離を、X内、Y内、XY間距離に対応する三成分混合としてモデル化し、重みは α^2, (1−α)^2, および 2α(1−α)。
  • 対間距離の経験的CDFがターゲットCDF Fへ収束することを示し、得られた U_n の CLT を確立する。
  • 非同分布の三角配列 U-statistics に対する CLT を用いて、平方サンプル中央値 H_n の漸近正規性を証明する。
  • 漸近分散の式を提供し、それをターゲット中央値 m での導関数 F'(m) に結びつける。
  • Gaussian-kernel 二サンプル検定における中央値ベースの帯域とパワー最大化による帯域の経験的比較を行う。

実験結果

リサーチクエスチョン

  • RQ1サンプルサイズが大きくなると、中央値ヒューリスティックはターゲット分布の中央値へ収束するか。
  • RQ2中央値ベースの帯域は漸近的に正規分布するか、する場合その漸近分散は何か。
  • RQ3カーネル二サンプル検定における検定力最大化によって選択された帯域と中央値ヒューリスティックの性能はどう比較されるか。
  • RQ4X内/ Y内/ XY間距離の影響が、対間距離の分布と中央値ヒューリスティックにどう影響するか。
  • RQ5理論を複数の変更点や非対称なサンプル分割(α が n に依存する場合)に拡張できるか。

主な発見

  • 対間二乗距離の経験的分布は、X内・Y内・XY間距離を反映するターゲット混合分布へ収束する。
  • ターゲット分布の中央値が存在し、導関数が非ゼロ条件の下で、経験的中央値 H_n は計算可能な分散を持つ漸近正規である。
  • 非同一分布 U-statistics の広範なクラスに対して CLT が確立され、中央値の経験分布の結果を支える。
  • 中央値ベースの帯域は、特に平均シフトのケースでパワー最大化によって選択された帯域に密接に一致することがあるが、分散変化など他の場合には最適でない可能性がある。
  • 本論文は、さまざまな検定統計量と帯域選択に対する近似 Bahadur 斜率解析を提供し、帯域を検定効率に結びつける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。