Skip to main content
QUICK REVIEW

[論文レビュー] On the Optimality of Gaussian Kernel Based Nonparametric Tests against Smooth Alternatives

Tong Li, Ming Yuan|arXiv (Cornell University)|Sep 7, 2019
Statistical Methods and Inference参考文献 29被引用数 24
ひとこと要約

本稿は、高次元設定における滑らかな代替仮説に対するガウスカーネルに基づく非パラメトリック検定(適合度、同一性、独立性)のミニマックス最適性を確立する。データ駆動型で発散するスケーリングパラメータを用いることで、これらの検定は反復対数因子を除いて最適な検出率を達成し、その広範な実験的成功の理論的裏付けを提供する。

ABSTRACT

Nonparametric tests via kernel embedding of distributions have witnessed a great deal of practical successes in recent years. However, statistical properties of these tests are largely unknown beyond consistency against a fixed alternative. To fill in this void, we study here the asymptotic properties of goodness-of-fit, homogeneity and independence tests using Gaussian kernels, arguably the most popular and successful among such tests. Our results provide theoretical justifications for this common practice by showing that tests using Gaussian kernel with an appropriately chosen scaling parameter are minimax optimal against smooth alternatives in all three settings. In addition, our analysis also pinpoints the importance of choosing a diverging scaling parameter when using Gaussian kernels and suggests a data-driven choice of the scaling parameter that yields tests optimal, up to an iterated logarithmic factor, over a wide range of smooth alternatives. Numerical experiments are also presented to further demonstrate the practical merits of the methodology.

研究の動機と目的

  • 適合度、同一性、独立性検定の3つの古典的設定において、ガウスカーネルに基づく非パラメトリック検定の理論的最適性を確立すること。
  • 固定代替仮説に対する一貫性を超える、カーネルに基づく検定の漸近的性質に関する理論的理解の欠如に対処すること。
  • 非パラメトリック検定におけるガウスカーネルの最適スケーリングパラメータ(帯域幅)を同定し、ミニマックス最適性を達成するには帯域幅が発散する必要があることを示すこと。
  • 幅広い滑らかな代替仮説の範囲で、ほぼミニマックス最適な性能を達成するデータ駆動型帯域幅選択を提案すること。
  • 現代の統計的応用におけるガウスカーネル手法の実験的成功の理論的裏付けを提供すること。

提案手法

  • ガウスカーネルを用いたRKHS埋め込みを介して、分布差の尺度として最大平均差分(MMD)を用いる。
  • スケーリングパラメータ νn でインデックス付けられたカーネル関数の族を用いて、帰無仮説および局所代替仮説下での検定統計量の漸近的挙動を分析する。
  • 濃度不等式とモーメントバウンドを用いて、帯域幅の範囲にわたる検定統計量の上界の確率的有界性を制御する。
  • ソボレフ空間または Hölder-滑らかさクラスにおける局所代替仮説下でのMMD推定量の挙動を分析し、各検定の検出境界を導出する。
  • データに基づいて帯域幅 νn を最適に選択する適応的検定手順を提案し、データ駆動型スケーリング則を用いる。
  • 検定統計量を主効果項と剰余項に分解し、対称化およびチェイニングの議論を用いて尾確率のバウンドを導出する。

実験結果

リサーチクエスチョン

  • RQ1適合度、同一性、独立性検定において、ガウスカーネルに基づく非パラメトリック検定は滑らかな代替仮説に対してミニマックス最適か?
  • RQ2これらの検定におけるガウスカーネルの最適スケーリングパラメータ(帯域幅)は何か?
  • RQ3データ駆動型帯域幅選択ルールは、幅広い滑らかな代替仮説の範囲でほぼミニマックス最適な性能を達成できるか?
  • RQ4帯域幅の選択が検定の検出境界にどのように影響するか?
  • RQ5帯域幅が標本サイズとともに発散する場合、検定統計量の漸近的挙動はいかなるものか?

主な発見

  • ガウスカーネルに基づく検定は、すべての3つの設定(適合度、同一性、独立性)において滑らかな代替仮説に対してミニマックス最適である。
  • これらの検定における最適帯域幅は標本サイズとともに発散し、データ駆動型の帯域幅選択により、反復対数因子を除いて最適な検出性能が達成される。
  • 適応的独立性検定の検出境界は、滑らかさ s ≥ d/4 のソボレフ滑らかさを持つ代替仮説に対して、O((n/log log n)^(-2s/(d+4s))) のオーダーである。
  • 帰無仮説下で、検定統計量は C(log log n) で確率的有界であり、尾確率は t^(1/2) またはそれ以上の高次累乗で指数的に減少する。
  • MMD推定量の分散は、帰無仮説下でその期待値によりよく近似され、検定の臨界値の信頼性が保証される。
  • 提案された適応的帯域幅選択により、滑らかさが未知であっても、広範な滑らかな代替仮説の範囲でほぼ最適なパワーを維持する検定が実現される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。